Telecom News - מפתחת ה-Graph Search מפייסבוק: "האינדקס מכיל יותר מטריליון תכונות"

מפתחת ה-Graph Search מפייסבוק: "האינדקס מכיל יותר מטריליון תכונות"

דף הבית >> פורומים וביטקוין >> חדשות הפורומים והבלוגוספרה >> מפתחת ה-Graph Search מפייסבוק: "האינדקס מכיל יותר מטריליון תכונות"
מפתחת ה-Graph Search מפייסבוק: "האינדקס מכיל יותר מטריליון תכונות, פי 2 מהאינדקס של גוגל"
 מאת: נירית וייס-בלט, 2.9.13 20:55נירית וייס-בלט
 
בלעדי: בוועידה השנתית השנייה ל-Big Data & BI שמענו על תשתית החיפוש החברתי של פייסבוק, על השימושים השונים ב-Big Data למטרות שיווק, ולקינוח על הגנת הפרטיות.
  
הוועידה השנתית השנייה ל-Big Data & BI, בארגון "מידע כנסים", התקיימה ביום שני ה-2 בספטמבר 2013, במלון ליאונרדו סיטי טאוואר, רמת גן. מנחה הוועידה היה ד״ר אוהד ברזילי מהמחלקה לניהול טכנולוגיה ומערכות מידע, הפקולטה לניהול, אוניברסיטת תל אביב. את הקהל באירוע ניתן היה לחלק ל-2: מצד אחד אנשי שיווק (בסגנון "אני רוצה להניב מה-Big Data תועלת למותג") ומצד שני אנשי פיתוח טכניים (בסגנון "אני אדאג לתשתית, לטכנולוגיה ולניתוחים המסובכים"). הסימביוזה ביניהם מחויבת המציאות, אך ניתן היה לזהות בקלות את שני הקטבים.

הנואמת המרכזית והמעניינת ביותר (לטעמנו) הייתה לי-טל משיח, מפתחת תוכנה בכירה בפייסבוק. לי-טל בעלת תואר שני במדעי המחשב מהטכניון ובשנים האחרונות עובדת בסיאטל בצוות המפתח את מנוע החיפוש החדש של פייסבוק, ה-Graph Search:

"בימיו הראשונים, החיפוש באתר היה של שמות בלבד (אדם, חברה, אפליקציה וכו׳), והתוצאות היו מגיעות עפ״י המידע על המשתמש. לאחר מכן, הוסיפו את המילוי האוטומטי המתבצע על-בסיס הרשת החברתית של המשתמש. זו הייתה התקדמות אך עדיין היינו במסגרת של חיפוש שמי.

ה-Graph של פייסבוק מכיל אוסף של ישויות והקשרים ביניהן, עם פירוט הפעולות ההדדיות (לייק, תיוג וכו׳). ה-Graph Search מוסיף למעשה חיפוש על הקשרים המצויים בגרף. יש לגרף דקדוק (grammar) ייחודי המופיע על ההתחלה (ב-AutoComplete) כדי ללמד את המשתמשים כיצד לעבוד עם הכלי. דוגמאות לשאילתות: מי מהחברים של החברים שלי עובד בפייסבוק? כך, דרך אגב, הגעתי לפייסבוק. אנשים מתל אביב האוהבים שחמט? התוצאות תסודרנה עפ"י הקרבה אליי ברשת החברתית. התמונות שאהבתי? אקבל את אוסף התמונות שעשיתי עליהן לייק. תמונות של חבריי מלפני 20 שנה? תוצגנה רק התמונות הישנות. מסעדות בתל אביב שהחברים שלי עשו עליהן לייק? אני סומכת על החברים שלי ולכן אבחר מרשימת התוצאות.

האתגרים:
1. יש מעל למיליארד משתמשים בחודש, מעל ל-240 מיליארד תמונות, יותר מטריליון קשרים, המחולקים לאלפי סוגים שונים.
2. הצורך לתמוך בשינויים הנעשים בזמן אמת. בכל יום מיליארד רשומות חדשות זקוקות לסידור באינדקס ובתוך שניות.
3. תמיכה בשאילתות מורכבות.

התשתית שבנינו בפייסבוק נקראת חד-קרן (unicorn). אנחנו משתמשים בתשתית כ-In-memory database. האינדקס מכיל מידע קיים ומידע מעדכונים חיים בזמן אמת. אנחנו מאנדקסים את כל עדכוני הסטטוסים.
 
יש יותר מטריליון תכונות בגרף של פייסבוק, ככל שידוע לי, זה בשני סדרי גודל יותר גדול מהאינדקס של גוגל. שפת השאילתות תומכת ב-and וגם ב-or, עבור בקשות מורכבות. השאילתה מועברת ל-Top Aggregator, כאשר היא מתורגמת לשפה של יוניקורן, משם המידע עובר ל-Rack Aggregator ומשם ל-Index Server. מדובר במעבר בין ורטיקליים שונים כדי לתת מענה לקשרים בין הישויות בפייסבוק.

השלבים הבאים בפיתוח פרויקט ה-Graph Search:
- לפתוח את כלי החיפוש המתקדם לעוד מדינות בעולם (כרגע רק בארה"ב) ולשפות נוספות (כרגע רק באנגלית).
- להכיל את הכלי גם באפליקציית המובייל של פייסבוק (כרגע רק ברשת).
- יש עוד שיפורים לדירוג של התוצאות".

מתוך הפאנל ""When Marketing meets Big Data:

מיכל רביב-קדושים, סמנכ״ל שיווק, AIG: "בזמן שלקוח מצטרף לחברת ביטוח הרבה נתונים נאספים אודותיו (מצב סוציו-אקונומי, כרטיסי אשראי, מגורים וכו׳) ובעזרת אנליטיקה ניתן להביא את ה-Next best offer. אופרטיבי לעתיד: התמחור הסגמנטלי הנוכחי יוחלף בתמחור פרסונלי, למשל באמצעות קופסה שחורה באוטו שתתעד את הנהיגה האישית של האדם ועפ״י הנתונים יתומחר הביטוח. בהיבט האתי: אנחנו לא עושים שום צעד בלי היועץ המשפטי שלנו (מה ניתן לאסוף ומה לא)".

תמי גורמן-כהן, סמנכ״ל שיווק, מועדון ״חבר״: "בעזרת מערכות Big Data אנחנו מגיעים לפרסונליזציה גבוהה עבור חברי המועדון שלנו. דוגמא מארה״ב: במועדון של ה-Navy, ברגע שנולד ילד, מציעים למשפחה את ליווי הביטוח שלו, ליווי החינוך שלו וכו'. הצרכנים יציבו לנו את הגבול מבחינת האתיקה".

דייב יקר, Global ecommerce Manager, אופטיקנה: "פעילות ה-e-commerce של אופטיקנה קיימת מזה כשנה, אנו מציעים את מותגי הבית שלנו ברחבי העולם. בעזרת ה-Big Data אנחנו מנסים לזהות טרנדים של צריכת מוצרים, תמחור נכון וכו׳. גילינו, שלפעמים מילה מסוימת גורמת למוצר להימכר יותר. המגמה היא שיווק ישיר שנותן חוויה ממוקדת יותר וזו המטרה. מערכות השיווק הולכות ומשתנות וראוי שאיש השיווק ישלוט בעולם האנליטי הזה".
 
עמית שגיא, סמנכ״ל שיווק, אקסלנס בית השקעות: "הרבה ארגונים מסתכלים עדיין בצורה חשודה על הנעשה ברשתות החברתיות, עולם ה-Big Data מקשר בין הרבה משתנים והרבה מנהלים מתקשים לעבד את המידע המורכב הזה. איש השיווק העתידי, בנוסף ליכולות האנליטיות, עדיין יצטרך להיות יצירתי בכל הקשור לאסטרטגיה השיווקית ופרסום המותג שלו".

עו״ד אבי רימון, שותף בכיר, משרד עו״ד גלוזמן ושות׳, הרצה על "ביג דאטה והגנת הפרטיות באינטרנט":

"אנחנו מוכנים לספק המון מידע בהתנדבות, ברשתות החברתיות, במועדוני צרכנות וכו׳. אנחנו מוכנים לשלם את המחיר כדי לקבל הטבות. עתיד התופעה מודגם בסרטון הבא (משעשע או עצוב- תשפטו בעצמכם): The Big Brother Pizza Shop. סוגי המידע: מידע ישיר, יצירת פרופיל מתוך נתוני מעקב, הצלבת מידע בין מאגרים שונים.  

מתי נפגעת הפרטיות? האם המידע מזוהה עם אדם מסוים? אם כן, האם ניתנה הסכמה לחשיפת המידע המזוהה?
אירופה: הסכמה אקטיבית, מתן אפשרות בחירה להשתמש בלא חשיפה. אירופה מחמירה יותר בנושא זכויות האדם ומציגה גישה יותר הגנתית ופטרנליסטית. ארה״ב: מספיק גילוי נאות מקדים. הדגש הוא על שקיפות. הגישה היא שהמידע האישי הוא כמו רכוש, שניתן לסחור בו.

גישות בין-יבשתיות:

ארה״ב
- שקיפות: איזה? איך? לאיזו מטרה?
- מתן אפשרות שלא להיות נעקב ושלא למסור מידע
- זכות הגישה למידע
- שמירה על שלמות המידע ואבטחתו
- האפשרות למחוק מידע מיושן או להפוך אותו לאנונימי
- עידוד רגולציה עצמית.

אירופה
- צריכה להיות הצדקה נאותה לאיסוף המידע ועיבודו
- צריכה להינתן הסכמה מפורשת לאיסוף המידע הפרטי
- זכות להתנגד לProfiling-. אין לעבד מידע על בסיס מוצא אתני, דת, השתייכות לארגוני עובדים וכו׳. (בישראל השיווק דווקא מתבסס על חלוקה למגזרים השונים- שיווק למגזר הרוסי, החרדי וכו׳).

איך אוכלים את העוגה ומשאירים אותה שלמה? הפתרונות להגבלות:
אנונימיזציה: הפשטת המידע ממרכיבים מזהים מובהקים.
פרסונליזציה של ״אנונימיים״: שימוש במרכיבי זיהוי של אמצעי התקשורת (IMEI), שתילת ״עוגיות" (cookies), מזהים אנונימיים וכו׳.
חומות סיניות: הפרדה בין מאגרי המידע המכילים מידע מזהה לבין אלו שלא.

העתיד- החמרת הרגולציה:
ביג דאטה
EU - Data Protection Reform
- לשון פשוטה במסגרת מתן ההסכמה
- הגברת דרישות השקיפות
- איסור על Profiling הפוגע בנדון
- זכות לקבל העתק מהמידע
- זכות לתקן את המידע
- זכות למחוק את המידע
- חובת שימוש בכלי אנונימיזציה
- הטלת קנסות כבדים למפרים

בארה״ב נשמעים קולות להחמרה, אבל אין שינוי ממשי.

Consumer Privacy Bill of Rights

- פישוט תהליכי הבחירה של הצרכן
- הגברת השקיפות
- עמידה בהתחייבות כלפי הצרכן
- אבטחת המידע
- האפשרות לתקן את המידע
- חובה להיפטר ממידע מוגן לא נחוץ או אנונימיזציה שלו

הפועל היוצא לתעשייה:
- כלי אנונימיזציה
- יצירת מערכות כפולות: מידע מזהה ומידע אנונימי
- כלי פיקוח עבור מנהל הגנת המידע
- הגברת מערכת אבטחת המידע ותחכום במערכות ההרשאה
- כלי שליטה ואכיפה לעמידה בדרישות רגולטוריות".
 
ועידת ביג-דאטה



 
 
Bookmark and Share