הדור הבא של אחסון נתונים: אפקטיביות בעזרת בינה מלאכותית

דף הבית >> סקירות טכנולוגיות >> הדור הבא של אחסון נתונים: אפקטיביות בעזרת בינה מלאכותית
הדור הבא של אחסון נתונים: אפקטיביות בעזרת בינה מלאכותית
מאת: נועם מזרחי, 31.1.19, 17:15נועם מזרחי יחצ

בינה מלאכותית היא הטכנולוגיה שלה המתינו ארגונים, כדי שתאפשר להם להפיק הרבה יותר מהנתונים אותם הם מאחסנים, ואשר עד עתה, ברוב המקרים, נותרו "אפלים", בלתי גלויים במהותם.

קצב ייצור הנתונים כיום גבוה מכפי שאפשר היה לדמיין אי-פעם. בעבר, היו בני אדם המקור העיקרי של ייצור נתונים חדשים. כיום נוספים על הנתונים האלה גם מגוון רחב של מקורות, דוגמת מצלמות אבטחה, חיישנים, רחפנים, מכוניות מקושרות לרשת, מכשירי IoT ופיסות ציוד ייצור. כל אלה יוצרים נתונים במגוון רחב של דרכים ופורמטים.

אלא שיש להבדיל בין נתונים ובין מידע. כיום, רק שבריר מהנתונים הנאספים חשובים מספיק כדי שנטפל בהם כנכס אמיתי. קחו, למשל, מצלמת אבטחה: זה המקום, שבו דקה בודדת של פעילות רלוונטית היא שמשנה באמת, ולא השעות הארוכות של וידיאו, שבהן לא מתרחש דבר מה חשוב באמת.

אם להציע אנלוגיה, ניתן לחשוב על "נתונים" כמכרה, שבו מחפשים אנשים אחר מטילי זהב, שהם ה"מידע". היכולת להפוך את הנתונים למידע בעל ערך - פעילות ה"כרייה", לענייננו - יכולה להיות מוגדרת כ"ניתוח אנליטי של ביג דאטה".

גרף 
 
הגרף המובא כאן, שהוכן ע"י אנליסטים בחברת המחקר Statistica, מתאר את הזינוק העצום בקיבולת הנתונים המאוחסנים, במהלך העשור האחרון. הניתוח הזה חוזה, שב- 2020 יגיע הביקוש לאחסון ל-42,000 אקסא-בייט. אולם, הרוב המוחלט של הנתונים המאוחסנים, לפחות 80% על פי רוב ההערכות, עודו מאופיין בפורמט בלתי מובנה (Unstructured data) לחלוטין, מה שמציג בעיות כאשר מנסים להשתמש בנתונים האלה לצורך ניתוח אנליטי.

ההערכות אומרות, שרק 5% מהמידע המאוחסן אכן מנותחים בפועל. מובן ,שככל שנמצא דרך לצרף לנתונים בפורמט בלתי מובנה גם את המטא-נתונים המתארים אותם באופן אפקטיבי, בהקשר של הניתוח המתבצע, נוכל לנתח כמויות גדולות הרבה יותר של נתונים, תוך הגדלה משמעותית של הערך אותו מפיקים ארגונים מהנתונים שבבעלותם.

בינה מלאכותית (AI) נחשבת כיום לטכנולוגיה הצפויה להשפיע משמעותית על כל היבט של החברה המודרנית. הטכנולוגיה הזאת כבר הוכיחה את ערכה בתחומי ההמלצות על מוצרים בעולם המסחר המקוון, תרגום שפה טבעית, טכנולוגיות בעולם הפיננסים -FinTech, מערכות מעקב ואבטחה, זיהוי אובייקטים ומעקב אחריהם. בעולם הרפואה, התקדמה הטכנולוגיה עד לאפשרות האצת ההצבעה על תאים סרטניים מסכני חיים, או אנומליות אחרות.

למרות השונות בין היישומים האלה, עוברת ביניהם נימה אחת משותפת: לראשונה אי-פעם, יש בידינו טכנולוגיה המסוגלת לסרוק כמויות עצומות של מידע בלתי מובנה, בכל צורה של וידיאו, טקסט, קול, תמונות וכיו"ב, ולעבד אותן באופן המאפשר להפיק מהן ערך אמיתי.

כך, ניתן להשתמש בבינה מלאכותית לא רק לצורך התהליך האנליטי עצמו, אלא גם לעיבוד מקדים של נתונים גולמיים בפורמט בלתי מובנה, כדי לתייג אותם ולהוסיף להם מטא-נתונים המייצגים אותם באופן פשוט אך מדוייק. בסיס הנתונים המפושט הזה יכול בהמשך להיות בסיס לניתוח, באמצעות שכבות גבוהות יותר של תוכנה אנליטית לעיבוד ביג דאטה, כדי להפיק מידע שימושי מתוך הנתונים.

בינה מלאכותית היא הטכנולוגיה שלה המתינו ארגונים, כדי שתאפשר להם להפיק הרבה יותר מהנתונים אותם הם מאחסנים, ואשר עד עתה, ברוב המקרים, נותרו "אפלים", בלתי גלויים במהותם.

אנחנו רוצים, אם כך, לייצר מטא-נתונים, שיאפשרו לתוכנה האנליטית שלנו לפעול באופן אפקטיבי יותר ויש בידינו  כלי בינה מלאכותית המאפשרים ליצור את המטא-נתונים, שיאוחסנו בבסיס הנתונים שלנו, על בסיס כמויות עצומות של מידע בלתי מובנה.
עכשיו, אנו צריכים רק להביא את כמויות הענק של הנתונים האלה אל מערכות הבינה המלאכותית שלנו, בכל מקום, שבו הן עשויות להימצא, כדי שתוכלנה לעשות את עבודתן. אבל, רק רגע. האם זו באמת הדרך הנכונה לפעול בה?

אם ניקח את 2 המקומות העיקריים, שבהם נוצרים נתונים ומאוחסנים כיום – "הענן" ו"שולי הרשת" (edge), מתברר במהירות, שהזזת כמויות העתק של הנתונים האלה ממקום למקום היא עניין יקר, שראוי להימנע ממנו.

בענן, ניתוב הנתונים דרך מרכז עיבוד הנתונים ייצור עומסים על תשתיות הרשת הקיימות, יצרוך כמות גדולה של חשמל ועוצמת עיבוד, ויגדיל את רמות ההשהיה, תוך תוספת לזמן העיבוד הכולל.

בדומה לכך, בשולי הרשת, ניתן למצוא רק משאבי מחשוב וחשמל מוגבלים. היכולות המוגבלות בכל הנוגע לקצבי העלאה של נתונים ממכשירים קטנים הנמצאים בשולי הרשת תהפוכנה את משימת ההעלאה של כמויות גדולות של נתונים אל הענן לתהליך בלתי מעשי.
 
ב-2 המקרים, צמצום כמות הנתונים, אותם אנו מעבירים ממקום למקום, והסתמכות על מטא-נתונים, שמייצגים את המידע השמור בהקשר של הניתוח המבוקש, מהווים מפתח לייעול התפעול.

מכל הסיבות, שהוזכרו כאן, כמו גם מאחרות, יהיה אפקטיבי יותר להקצות ולהגדיר את המטא-נתונים כבר במקום, שבו נוצרים הנתונים ומאוכסנים בראשית הדרך, ללא צורך להעביר את הנתונים. כתוצאה מכך, בעתיד, תידרש טכנולוגיית האחסון, שתשמש לצורך זה, להציג רמה גבוהה יותר של חוכמה המובנית בה עצמה, באופן, שיאפשר לה ליצור את התגים המלווים את המידע המאוחסן.

בעיקרון, מערכות SSD כבר כוללות את הרכיבים החיוניים הנדרשים כדי לשמש כישויות מחשוב. היכולות האלו משמשות באופן רגיל רק בהקשר של תפעול הכונן עצמו, אולם אפשר להקצות אותן בחלקים מהזמן לייעוד חדש של ביצוע משימות הקשורות בפונקציה אותה ממלאת המערכת, ולטפל בעבודה, תוך השלמה על פי הצורך של רכיבי חומרה, תוכנה או קושחה נוספים הנדרשים כדי להשלים משימות ופונקציות כאלה.

אחת מהגישות לפעולה עשויה להיות שימוש בחלון הזמן, שבו עומד הכונן ללא שימוש פעיל (idle), כדי לבצע משימות מיפוי הפועלות ברקע. גישה אחרת, עשויה להיות עיבוד הנתונים תוך כדי כתיבתם לכונן. חיסכון בחשמל ובעלויות, כמו גם צמצום הצורך בהעברת נתונים וקיצור זמני ההשהיה, יחד עם הקטנה של כלל התעבורה ברשת, הם רק כמה מהיתרונות אותם ניתן להפיק כאשר משתמשים בגישת האצת עיבוד כזאת כבר בנקודת האחסון, וככל שהגישה מיושמת במקרים הנכונים.

היכולת המובנית למידרוג והרחבה של הגישה הזאת, אומרת, שארגונים וספקי שירותי ענן יכולים להרחיב את היקף היכולות שלהם באמצעות מינוף הפונקציונאליות המתקדמת המתאפשרת באמצעות כלי AI עדכניים.

במהלך כנס Flash Memory Summit, שהתקיים בסנטה קלארה קליפורניה באוגוסט אשתקד, הציגו Marvell ו-NVIDIA מערכת ראשונה מסוגה של הוכחת יכולת לעיבודי AI על גבי כונני SSD, שהדגימה את האופן, שבו ניתן לבצע משימות תיוג נתונים באופן יעיל,  ללא צורך לגשת אל משאבי המעבד המרכזי (CPU) של המחשב המארח, ותוך הימנעות מבעיות העלויות ומההשהיה.
 
בזכות טכנולוגיית אחסון חדשה, שמשופרת באמצעות כלי בינה מלאכותית, ניתן לשמור על בסיס הנתונים הכולל את המטא-נתונים בסביבה המקומית, על גבי ה-SSD, ולהפוך אותו זמין לטיפולה של תוכנה אנליטית, שתבחן את המטא-נתונים ככל שיידרש.

אם לחשוב, למשל, על גופי אכיפת חוק המחפשים אחר "חפץ חשוד" במקום כל שהוא לאורך שעות אינסופיות של קבצי וידיאו ממצלמות אבטחה, ניתן להעלות מודלים מאומנים היודעים לזהות בדיוק "חפץ" כזה, ולהריץ במקביל את תוכנת התיוג על גבי כל תוכן וידיאו זמין, לרוחב כל כונני האחסון עליהם מנוהל הווידיאו הזה במקביל. כל הופעה של ה"חפץ" תסומן ותתויג, באופן שיהפוך את משימות הניתוח העתידי לקלות יותר ומהירות יותר.

בדומה לכך, ניתן לחשוב על האפקטיביות של ארכיטקטורה כזאת למשל דוגמת ניתוח אנליטי המתבצע ברקע הפעילות של צ'אטבוט, כאשר יש לסרוק בסיס נתונים גדול של שיחות צ'אטבוט, ששמורות במערכת, כדי לעדכן את מודל הדיבור של הבוטים ולשפר את איכות השירות. אפשר יהיה למדוד ולהעריך מתי משתמשים מרוצים או מוטרדים מהתשובות אותן הם מקבלים, האם השיחות ארוכות מדי או קצרות מדי וכיו"ב.

ברגע שבו נוצר מודל בינה מלאכותית היודע לעקוב אחר הפרמטרים המסויימים האלה, אפשר להדר ולהריץ אותו על גבי מנוע בינה מלאכותית הפועל כבר במערכת האחסון, ולסרוק את השיחות בזמן אמת ובעיבוד אצווה, במקביל.

ביישומים דוגמת הכנסת פרסומות מכווני לקוח ואשר מושפעים מהמתרחש בסטרימינג של וידאו, חיפוש במאגרי וידיאו של מצלמות מעקב ואבטחה וביישומים אחרים עתירי תנועות קלט-פלט, מינוף הקרבה לנתונים מציג יתרונות משמעותיים בכל הנוגע לביצועים.

טכנולוגיית בקרי SSD משולבי בינה מלאכותית מדגימה כיצד ניתן ליישם ארכיטקטורות חדשות לאחסון נתונים, שיתאימו למגוון רחב של יישומים תובעניים בתחומי ה- Big Data, שהולכים ומופיעים בשוק, ללא צורך במערכות מעגלים משולבים יקרים הנבנים במיוחד לצורך זה.

כאשר נותנים לחומרת SSD הזמינה ונפוצה כבר בשוק בנוסף יכולות לוגיקה אותן ניתן להוסיף למערכת, הן הופכות חכמות משמעותית. המטא-נתונים והתגים החיוניים לטיפול בעומסי עבודה עתידיים של ניתוח אנליטי יכולים להיות מטופלים ישירות כבר ברמה המקומית, ללא צורך בתקשורת אל משאבי עיבוד ייעודיים כל שהם.

יישום הטקטיקה החלופית הזאת, במקום הסתמכות על עיבוד מרכזי קונבנציונאלי, יהפוך את התהליכים כולם ליעילים הרבה יותר. הוא יצרוך רק את מינימום רוחב פס התקשורת הזמין, וימנע היווצרות של צווארי בקבוק.

כאשר מאיצי עיבוד לבינה מלאכותית משולבים ישירות בבקרים חסכוניים של מערכות SSD, כבר ברמת המעגלים המשולבים של הבקר עצמו, אפשר יהיה להשלים במהירות משימות ניתוח אנליטי, הכל תוך צריכה נמוכה משמעותית של קיבולת עיבוד ושל ההספק הנצרך, והימנעות מהצורך לתכנן מן היסוד שבבי ASIC ייעודיים ומורכבים במיוחד הנדרשים לביצוע המשימות האלו.
בזכות השימוש בארכיטקטורה ניתנת לתכנות, תתרחב גם האפשרות להקצות משאבי מערכות לצורך עדכון מודלים של בינה מלאכותית המשובצים במערכות האחסון, ואפשר יהיה לטפל ולפתח גם יישומים ושימושים חדשים.
 
מאת: נועם מזרחי, ינואר 2019.
, Marvell CTO Office  Marvell Fellow, VP Technology and Architecture

AI FREE



 
 
Bookmark and Share


 

לוח מודעות
מחפשים הגנה מושלמת על הגלישה הניידת והנייחת ועל הפרטיות מפני כל תוקף? הפתרון הזול והטוב בעולם - כאן.

לוח אירועים וכנסים של עולם ההיי-טק - כאן.

מחפש מחקרים? מאות מחקרים עדכניים מהשנה האחרונה מצויים כאן

מחפש תוכנות חופשיות? תוכל למצוא משחקיםתוכנות לפרטיים ותוכנות לעסקיםתוכנות לצילום ותמונות, הכל בחינם.


מעוניין לבנות ולתפעל אתר אישי או עסקי מקצועי? לחץ כאן.


 




לוח האירועים המלא לגולשים מצוי כאן.

28-29/10/19 - Smart Mobility Summit 2019 

17-24/11/19 - שבוע היזמות העולמי 2019  

17-21/11/19 - Oracle Week 

3/12/19 - ועידת ההייטק החרדי 2019  

4/12/19 -  GO Mobile #8 

11/12/19 - Next Case  

12/2/20 - Teleco 2020

 

הכי ניצפים 

דירוג הסמאטרפונים הטובים ביותר בעולם לספטמבר 2019 עפ"י Business Insider - כאן

תאגיד השידור - "עלינו". איך עשו עלינו סיבוב והשאירו את אגרת הטלוויזיה - כאן

כל מה שלא מספרים לכם בתחום "השוק הסיטונאי" - פרק א': בזק - כאן

כל מה שלא מספרים לכם בתחום "השוק הסיטונאי" - פרק ג' - ההפסד הצרכני - כאן

כמה מפסידים בביצועים של הפס הרחב במעבר ל"שוק הסיטונאי"? - הרבה - כאן

למה מבלבלים את המוח לציבור בנושא המכונה "שוק סיטונאי"? - כאן

למה בכלל צריך להחליף / לרכוש נתב במעבר ל"שוק סיטונאי"? - כאן

איך אני יודע כמה מגהרץ יש בחיבור LTE? מי ספק הסלולר המהיר בישראל? - כאן

חשיפת המחדל המדהים המוסתר מהציבור של הרס רשתות הסלולר - כאן

חשיפת מה שאילנה דיין לא פרסמה ב"ערוץ 2" על תעלולי השר משה כחלון - כאן

איך רבע מיליון לקוחות נפלו בפח ועברו להסדר המכונה בטעות "שוק סיטונאי" - כאן

ההגנה המושלמת על הגלישה ניידת והנייחת ועל הפרטיות מפני כל תוקף - כאן

מבחן דרך: חיבור VPN - האם זו ההגנה המושלמת על הגלישה ועל הפרטיות? - כאן

המשך חשיפת הבלוף ששמו "מהפיכת הסלולר" ואיך מסרסים את הנתונים לציבור - כאן

כל מה שלא מספרים לכם בנוגע לחקירת "פרשת בזק-YES" ולמה ביבי לא בעניין - כאן

סיכום ביקור בסיליקון ואלי - למה 3 הגדולות משקיעות ומפתחות באותם תחומים - כאן

שלמה פילבר (עד לאחרונה מנכ"ל משרד התקשורת) - עד מדינה? הצחקתם אותי! - כאן

"יש אפליה בחקירה"? חשיפה: למה השר משה כחלון לא נחקר עד היום? - כאן

חשיפת חשד לשחיתות הדומה לזו של "תיק 4000" אך בתחום הסלולר - כאן

חשיפת ההונאה הגדולה שהובילה לכך שמוצרי התקשורת יקרים יותר בישראל - כאן

בלעדי לקוראי האתר: 1 ש"ח ליום שיחות וגלישה ללא הגבלה בחו"ל... - כאן

חשיפת מה שלא רוצים  שתדעו בעניין פריסת אנלימיטד (בניחוח בלתי נסבל) - כאן

חשיפה: איוב קרא אישר לקבוצת סלקום בדיוק מה שביבי אישר ל-Yes ולבזק - כאן

האם השר איוב קרא היה צריך בכלל לחתום על האישור, שנתן לקבוצת סלקום? - כאן

האם ביבי וקרא קבלו בכלל תמורה עבור ההטבות הרגולטוריות שנתנו לסלקום? - כאן

המסמכים בנושא בזק-Yes (תיק 4000) מוכיחים "תפירת תיק" לאיש הלא נכון! - כאן

עובדות ומסמכים המוסתרים מהציבור: האם ביבי כשר תקשורת עזר לקב' בזק? - כאן

מה מקור ה-Fake News שהביא לתפירת תיק לביבי והעלמת החשודים הנכונים - כאן

אחת הרגליים של "תיק 4000 התפור" התמוטטה היום בניצחון (כפול) של בזק - כאן

איך כתבות מפנקות הפכו לפתע לטובת הנאה שהיא מיסודות עבירת השוחד? - כאן

שערוריית הקנס הענק על בזק וחשיפת "תעודת הביטוח" של נתניהו בתיק 4000 - כאן

תיק 5000: סלקום - IBC לא תפרוס סיבים ותרכב על גב הרכוש הפרטי של בזק - כאן

ערוץ 20: "תיק תפור": אבי וייס חושף את מחדלי "תיק 4000" - כאן

התבלבלתם: גיא פלד הפך את כחלון, גבאי ואילת לחשודים המרכזיים בתיק 4000 - כאן

פצצות בתיק 4000: האם היו בכלל התנגדויות למיזוג בזק-יס? - כאן

נמצא מסמר נוסף בארון הקבורה של תיק 4000 התפור - כאן

נחשפה עוד עובדה חשובה בדרך אל ההלוויה של תיק 4000 - כאן

תיק 4000 לא הושלם: האם היועמ"ש קיבל את כל המידע הנחוץ לחקר האמת? - כאן

תיק 4000: גם תקנות התקשורת התומכות בגרסת נתניהו לא נכללו בחקירה - כאן

חשיפת שקרים נוספים בתיק 4000: הטעיית הציבור נמשכת ללא הרף - כאן

תיק 4000: נחוצה ועדת חקירה ממלכתית לגבי "אישום" שר התקשורת - נתניהו - כאן

תיק 4000: חשיפת "דבר ראשון" בעניין היועמ"ש - היבטים חמורים חדשים - כאן

תיק 4000: היועמ"ש לממשלה אישר "מיזוג" בזק-יס. צריך ועדת חקירה ממלכתית - כאן

אוסף הטעויות בתיק 4000: "אני מאשים" - לא חתרו כלל לגילוי המאת - כאן

שערוריית תיק 4000: איך יש 2 גרסאות שונות של כתב החשדות של היועמ"ש? - כאן

ערוץ 20: אבי וייס חשף טענות שגויות בכתב החשדות נגד רוה"מ בתיק 4000 - כאן

תיק 4000: חשיפת מסמך נוסף שיסייע גם הוא לחיסול תיק 4000 התפור - כאן

ערוץ 20: אבי וייס ואלי ציפורי חשפו שקרי הפרקליטות לגבי ההדלפות בתיק 4000 - כאן

תיק 4000: מתי מדוע ואיך הוא הפך מ"תיק בזק" ל"תיק תפור" ומחורר? - כאן

הספינים והשקרים בתיק 4000 חזרו. הם חלק מניסיון הפיכה שלטונית שיש לחקור - כאן

סודות ושקרים בפרקליטות והיועמ"ש: מי היה ב"ניגוד עיניינים" בתיק 4000? - כאן

תיק 4000 יושלך לפח האשפה של ההיסטוריה עקב חקירה רשלנית ללא מסמכים - כאן

תיק 4000: מסמר נוסף ענק לארון הקבורה שלו (פרי חשיפה של אלי ציפורי) - כאן

תיק 4000: בעיות זיכרון, חקירה משובשת ושקרים המכוונים להפיכה שלטונית! - כאן

חשיפות חדשות בעקבות הדלפת עדויות שלמה פילבר - "עד המדינה" בתיק 4000 - כאן






 
זרקור חברות
 
פורטינט
 
NORDVPN
 
Telecom Expert
 
טלקום אקספרטס
 
NordVPN
 
עדן אימון עסקי
 
כמה זה? השוואת מחירים
 
PIXABAY
 
Telecom Experts
 
טלי וייס
 
 
Slideshare Linkedin Twitter
Youtube Instagram Facebook
Google+ live Zappix
Bitly Vimeo Pinterest
אנדרואידאנדרואיד-ברקוד אפל ברקודאפל

 
  מהירות גלישה Your IP שירותנט
לייבסיטי - בניית אתרים