מפתחת ה-Graph Search מפייסבוק: "האינדקס מכיל יותר מטריליון תכונות"

דף הבית >> פורומים וביטקוין >> חדשות הפורומים והבלוגוספרה >> מפתחת ה-Graph Search מפייסבוק: "האינדקס מכיל יותר מטריליון תכונות"
מפתחת ה-Graph Search מפייסבוק: "האינדקס מכיל יותר מטריליון תכונות, פי 2 מהאינדקס של גוגל"
 מאת: נירית וייס-בלט, 2.9.13 20:55נירית וייס-בלט
 
בלעדי: בוועידה השנתית השנייה ל-Big Data & BI שמענו על תשתית החיפוש החברתי של פייסבוק, על השימושים השונים ב-Big Data למטרות שיווק, ולקינוח על הגנת הפרטיות.
  
הוועידה השנתית השנייה ל-Big Data & BI, בארגון "מידע כנסים", התקיימה ביום שני ה-2 בספטמבר 2013, במלון ליאונרדו סיטי טאוואר, רמת גן. מנחה הוועידה היה ד״ר אוהד ברזילי מהמחלקה לניהול טכנולוגיה ומערכות מידע, הפקולטה לניהול, אוניברסיטת תל אביב. את הקהל באירוע ניתן היה לחלק ל-2: מצד אחד אנשי שיווק (בסגנון "אני רוצה להניב מה-Big Data תועלת למותג") ומצד שני אנשי פיתוח טכניים (בסגנון "אני אדאג לתשתית, לטכנולוגיה ולניתוחים המסובכים"). הסימביוזה ביניהם מחויבת המציאות, אך ניתן היה לזהות בקלות את שני הקטבים.

הנואמת המרכזית והמעניינת ביותר (לטעמנו) הייתה לי-טל משיח, מפתחת תוכנה בכירה בפייסבוק. לי-טל בעלת תואר שני במדעי המחשב מהטכניון ובשנים האחרונות עובדת בסיאטל בצוות המפתח את מנוע החיפוש החדש של פייסבוק, ה-Graph Search:

"בימיו הראשונים, החיפוש באתר היה של שמות בלבד (אדם, חברה, אפליקציה וכו׳), והתוצאות היו מגיעות עפ״י המידע על המשתמש. לאחר מכן, הוסיפו את המילוי האוטומטי המתבצע על-בסיס הרשת החברתית של המשתמש. זו הייתה התקדמות אך עדיין היינו במסגרת של חיפוש שמי.

ה-Graph של פייסבוק מכיל אוסף של ישויות והקשרים ביניהן, עם פירוט הפעולות ההדדיות (לייק, תיוג וכו׳). ה-Graph Search מוסיף למעשה חיפוש על הקשרים המצויים בגרף. יש לגרף דקדוק (grammar) ייחודי המופיע על ההתחלה (ב-AutoComplete) כדי ללמד את המשתמשים כיצד לעבוד עם הכלי. דוגמאות לשאילתות: מי מהחברים של החברים שלי עובד בפייסבוק? כך, דרך אגב, הגעתי לפייסבוק. אנשים מתל אביב האוהבים שחמט? התוצאות תסודרנה עפ"י הקרבה אליי ברשת החברתית. התמונות שאהבתי? אקבל את אוסף התמונות שעשיתי עליהן לייק. תמונות של חבריי מלפני 20 שנה? תוצגנה רק התמונות הישנות. מסעדות בתל אביב שהחברים שלי עשו עליהן לייק? אני סומכת על החברים שלי ולכן אבחר מרשימת התוצאות.

האתגרים:
1. יש מעל למיליארד משתמשים בחודש, מעל ל-240 מיליארד תמונות, יותר מטריליון קשרים, המחולקים לאלפי סוגים שונים.
2. הצורך לתמוך בשינויים הנעשים בזמן אמת. בכל יום מיליארד רשומות חדשות זקוקות לסידור באינדקס ובתוך שניות.
3. תמיכה בשאילתות מורכבות.

התשתית שבנינו בפייסבוק נקראת חד-קרן (unicorn). אנחנו משתמשים בתשתית כ-In-memory database. האינדקס מכיל מידע קיים ומידע מעדכונים חיים בזמן אמת. אנחנו מאנדקסים את כל עדכוני הסטטוסים.
 
יש יותר מטריליון תכונות בגרף של פייסבוק, ככל שידוע לי, זה בשני סדרי גודל יותר גדול מהאינדקס של גוגל. שפת השאילתות תומכת ב-and וגם ב-or, עבור בקשות מורכבות. השאילתה מועברת ל-Top Aggregator, כאשר היא מתורגמת לשפה של יוניקורן, משם המידע עובר ל-Rack Aggregator ומשם ל-Index Server. מדובר במעבר בין ורטיקליים שונים כדי לתת מענה לקשרים בין הישויות בפייסבוק.

השלבים הבאים בפיתוח פרויקט ה-Graph Search:
- לפתוח את כלי החיפוש המתקדם לעוד מדינות בעולם (כרגע רק בארה"ב) ולשפות נוספות (כרגע רק באנגלית).
- להכיל את הכלי גם באפליקציית המובייל של פייסבוק (כרגע רק ברשת).
- יש עוד שיפורים לדירוג של התוצאות".

מתוך הפאנל ""When Marketing meets Big Data:

מיכל רביב-קדושים, סמנכ״ל שיווק, AIG: "בזמן שלקוח מצטרף לחברת ביטוח הרבה נתונים נאספים אודותיו (מצב סוציו-אקונומי, כרטיסי אשראי, מגורים וכו׳) ובעזרת אנליטיקה ניתן להביא את ה-Next best offer. אופרטיבי לעתיד: התמחור הסגמנטלי הנוכחי יוחלף בתמחור פרסונלי, למשל באמצעות קופסה שחורה באוטו שתתעד את הנהיגה האישית של האדם ועפ״י הנתונים יתומחר הביטוח. בהיבט האתי: אנחנו לא עושים שום צעד בלי היועץ המשפטי שלנו (מה ניתן לאסוף ומה לא)".

תמי גורמן-כהן, סמנכ״ל שיווק, מועדון ״חבר״: "בעזרת מערכות Big Data אנחנו מגיעים לפרסונליזציה גבוהה עבור חברי המועדון שלנו. דוגמא מארה״ב: במועדון של ה-Navy, ברגע שנולד ילד, מציעים למשפחה את ליווי הביטוח שלו, ליווי החינוך שלו וכו'. הצרכנים יציבו לנו את הגבול מבחינת האתיקה".

דייב יקר, Global ecommerce Manager, אופטיקנה: "פעילות ה-e-commerce של אופטיקנה קיימת מזה כשנה, אנו מציעים את מותגי הבית שלנו ברחבי העולם. בעזרת ה-Big Data אנחנו מנסים לזהות טרנדים של צריכת מוצרים, תמחור נכון וכו׳. גילינו, שלפעמים מילה מסוימת גורמת למוצר להימכר יותר. המגמה היא שיווק ישיר שנותן חוויה ממוקדת יותר וזו המטרה. מערכות השיווק הולכות ומשתנות וראוי שאיש השיווק ישלוט בעולם האנליטי הזה".
 
עמית שגיא, סמנכ״ל שיווק, אקסלנס בית השקעות: "הרבה ארגונים מסתכלים עדיין בצורה חשודה על הנעשה ברשתות החברתיות, עולם ה-Big Data מקשר בין הרבה משתנים והרבה מנהלים מתקשים לעבד את המידע המורכב הזה. איש השיווק העתידי, בנוסף ליכולות האנליטיות, עדיין יצטרך להיות יצירתי בכל הקשור לאסטרטגיה השיווקית ופרסום המותג שלו".

עו״ד אבי רימון, שותף בכיר, משרד עו״ד גלוזמן ושות׳, הרצה על "ביג דאטה והגנת הפרטיות באינטרנט":

"אנחנו מוכנים לספק המון מידע בהתנדבות, ברשתות החברתיות, במועדוני צרכנות וכו׳. אנחנו מוכנים לשלם את המחיר כדי לקבל הטבות. עתיד התופעה מודגם בסרטון הבא (משעשע או עצוב- תשפטו בעצמכם): The Big Brother Pizza Shop. סוגי המידע: מידע ישיר, יצירת פרופיל מתוך נתוני מעקב, הצלבת מידע בין מאגרים שונים.  

מתי נפגעת הפרטיות? האם המידע מזוהה עם אדם מסוים? אם כן, האם ניתנה הסכמה לחשיפת המידע המזוהה?
אירופה: הסכמה אקטיבית, מתן אפשרות בחירה להשתמש בלא חשיפה. אירופה מחמירה יותר בנושא זכויות האדם ומציגה גישה יותר הגנתית ופטרנליסטית. ארה״ב: מספיק גילוי נאות מקדים. הדגש הוא על שקיפות. הגישה היא שהמידע האישי הוא כמו רכוש, שניתן לסחור בו.

גישות בין-יבשתיות:

ארה״ב
- שקיפות: איזה? איך? לאיזו מטרה?
- מתן אפשרות שלא להיות נעקב ושלא למסור מידע
- זכות הגישה למידע
- שמירה על שלמות המידע ואבטחתו
- האפשרות למחוק מידע מיושן או להפוך אותו לאנונימי
- עידוד רגולציה עצמית.

אירופה
- צריכה להיות הצדקה נאותה לאיסוף המידע ועיבודו
- צריכה להינתן הסכמה מפורשת לאיסוף המידע הפרטי
- זכות להתנגד לProfiling-. אין לעבד מידע על בסיס מוצא אתני, דת, השתייכות לארגוני עובדים וכו׳. (בישראל השיווק דווקא מתבסס על חלוקה למגזרים השונים- שיווק למגזר הרוסי, החרדי וכו׳).

איך אוכלים את העוגה ומשאירים אותה שלמה? הפתרונות להגבלות:
אנונימיזציה: הפשטת המידע ממרכיבים מזהים מובהקים.
פרסונליזציה של ״אנונימיים״: שימוש במרכיבי זיהוי של אמצעי התקשורת (IMEI), שתילת ״עוגיות" (cookies), מזהים אנונימיים וכו׳.
חומות סיניות: הפרדה בין מאגרי המידע המכילים מידע מזהה לבין אלו שלא.

העתיד- החמרת הרגולציה:
ביג דאטה
EU - Data Protection Reform
- לשון פשוטה במסגרת מתן ההסכמה
- הגברת דרישות השקיפות
- איסור על Profiling הפוגע בנדון
- זכות לקבל העתק מהמידע
- זכות לתקן את המידע
- זכות למחוק את המידע
- חובת שימוש בכלי אנונימיזציה
- הטלת קנסות כבדים למפרים

בארה״ב נשמעים קולות להחמרה, אבל אין שינוי ממשי.

Consumer Privacy Bill of Rights

- פישוט תהליכי הבחירה של הצרכן
- הגברת השקיפות
- עמידה בהתחייבות כלפי הצרכן
- אבטחת המידע
- האפשרות לתקן את המידע
- חובה להיפטר ממידע מוגן לא נחוץ או אנונימיזציה שלו

הפועל היוצא לתעשייה:
- כלי אנונימיזציה
- יצירת מערכות כפולות: מידע מזהה ומידע אנונימי
- כלי פיקוח עבור מנהל הגנת המידע
- הגברת מערכת אבטחת המידע ותחכום במערכות ההרשאה
- כלי שליטה ואכיפה לעמידה בדרישות רגולטוריות".
 
ועידת ביג-דאטה



 
 
Bookmark and Share


 


לוח מודעות
יזמים? יש לכם רעיון מבריק? נמשכת ההרשמה למחזור הבא של TLV Generator. ההרשמה - כאן

מחפשים הגנה מושלמת על הגלישה הניידת והנייחת ועל הפרטיות מפני כל תוקף? הפתרון הזול והטוב בעולם - כאן.

ניוזלטר שלישי של האתר הופץ לנרשמים לאתר - ניתן לצפייה כאן.

ניוזלטר שני של האתר הופץ לנרשמים לאתר - ניתן לצפייה כאן.

ניוזלטר ראשון של האתר הופץ לנרשמים לאתר - ניתן לצפייה כאן.

לוח אירועים וכנסים של עולם ההיי-טק - כאן.

מחפש מחקרים? מאות מחקרים עדכניים מהשנה האחרונה מצויים כאן

מחפש תוכנות חופשיות? תוכל למצוא משחקים, תוכנות לפרטיים ותוכנות לעסקים, תוכנות לצילום ותמונות, הכל בחינם.


מעוניין לבנות ולתפעל אתר אישי או עסקי מקצועי? לחץ כאן.


 




לוח האירועים המלא לגולשים מצוי כאן.

15-17/8/17 - אליפות ישראל לספורט אלקטרוני 2017  

6-7/9/17 - DLD Tel Aviv Innovation Festival 2017

2/11/17 - 28/10/17 - German Tel Aviv Week 2017  

12/12/17 - Video Trends For 2018 Conference   

 

הכי ניצפים 

דירוג הסמאטרפונים הטובים ביותר בעולם ליוני 2017 עפ"י Business Insider - כאן

מה כן מקדם אתרים ועסקים באינטרנט? לא העלוקות שחיות סביב גוגל ופייסבוק - כאן

כל מה שלא מספרים לכם בתחום "השוק הסיטונאי" - פרק א': בזק - כאן

כל מה שלא מספרים לכם בתחום "השוק הסיטונאי" - פרק ג' - ההפסד הצרכני - כאן

כמה מפסידים בביצועים של הפס הרחב במעבר ל"שוק הסיטונאי"? - הרבה - כאן

מה שלא מספרים לכם: כיצד בזק תמרנה את מחירי השוק הסיטונאי עד 2018 - כאן

למה מבלבלים את המוח לציבור בנושא המכונה "שוק סיטונאי"? - כאן

למה בכלל צריך להחליף / לרכוש נתב במעבר ל"שוק סיטונאי"? - כאן

כל מי שכביכול "נטש את בזק" ב"שוק סיטונאי" יחזור לבזק תוך שנה-שנתיים - כאן

ביבי נתניהו הקשיב לקריאת Telecom News: פיטר לאלתר את אבי ברגר - כאן

חשיפת המספרים מאחורי משבר האנטנות: בשנה האחרונה פורקו 721 אנטנות - כאן

איך אני יודע כמה מגהרץ יש בחיבור LTE? מי ספק הסלולר המהיר בישראל? - כאן

חשיפת המחדל המדהים המוסתר מהציבור של הרס רשתות הסלולר - כאן

חשיפת מה שאילנה דיין לא פרסמה ב"ערוץ 2" על תעלולי השר משה כחלון - כאן

איך רבע מיליון לקוחות נפלו בפח ועברו להסדר המכונה בטעות "שוק סיטונאי" - כאן

ההגנה המושלמת על הגלישה ניידת והנייחת ועל הפרטיות מפני כל תוקף - כאן

מבחן דרך: חיבור VPN - האם זו ההגנה המושלמת על הגלישה ועל הפרטיות? - כאן

TLV Generator נולד - התכנית שהופכת כל רעיון למוצר (MVP) תוך 120 יום - כאן

למה 95% מהסטארטאפים בישראל נכשלו, נכשלים וימשיכו להיכשל גם בעתיד - כאן

מה חלקו ואחריותו של ה-CTO למצב בו 95% מהסטארטאפים בישראל נכשלים? - כאן

האם ניתן לרפא את המחלה של כישלון מעל ל-95% מהמיזמים בישראל? - כאן

העסקה הבעייתית של בזק-Yes לא הייתה מתבצעת בלי משרד התקשורת - כאן

קריאה לפיטורים של מנכ"ל משרד התקשורת שלמה פילבר - כאן

 
זרקור חברות
 
TLV-Generator
 
TLV-Generator
 
מידע
 
טלקום אקספרטס
 
NordVPN
 
עדן אימון עסקי
 
כמה זה? השוואת מחירים
 
TLV-Generator
 
TLV-GENERATOR
 
טלי וייס
 
 
 
Slideshare Linkedin Twitter
Youtube Instagram Facebook
Google+ live Zappix
Bitly Vimeo Pinterest
אנדרואידאנדרואיד-ברקוד אפל ברקודאפל

 
 מפת הביטקוין   מהירות גלישה Your IP שירותנט
לייבסיטי - בניית אתרים