זיהוי דיבור – טכנולוגיה בתחילת דרכה, גם אחרי 40 שנות מחקר

דף הבית >> סקירות טכנולוגיות >> זיהוי דיבור – טכנולוגיה בתחילת דרכה, גם אחרי 40 שנות מחקר
זיהוי דיבור – טכנולוגיה בתחילת דרכה, גם אחרי 40 שנות מחקר
מאת: אבי וייס, 7.7.13, 00:30מכללת אפקה להנדסה
 
חשיפת המכשלות והטכנולוגיות בדרך לזיהוי דיבור מושלם בכל שפה ובכל מבטא. המוח האנושי עדיין טוב יותר מכל מכונה המזהה דיבור: רשמים מהכנס הבינלאומי Speech Processing 2013.
 
הכנס המקצועי היחיד בישראל לתחום זיהוי דיבור בפקולטה להנדסת חשמל במכללת אפקה להנדסה נערך בימים 1-2/07/13. היה זה הכנס השנתי הבינלאומי השלישי לתחום זיהוי הדיבור (Speech Processing 2013) בהשתתפות מאות מרצים, חוקרים, מומחים מהתעשייה וסטודנטים מכל רחבי העולם. ראיון בלעדי עם יוזם הכנס, פרופ' עמי מויאל כבר פורסם - כאן.
 
פרופ' מוטי סוקולוב, נשיא מכללת אפקה להנדסה: "אנו שמחים לארח כאן את פרופ' לורנס רבינר הנחשב ל'אבי' תחום זיהוי הדיבור בעולם, ואת פרופ' צין-יו לי הנחשב למומחה עולמי מוביל בתחום, וכן את כל שאר המומחים, שהגיעו אלינו מרחבי תבל. אנו, כמכללה מובילה בתחומים טכנולוגיים רבים, כשזיהוי הדיבור הוא רק אחד מהשטחים בהם אנו מובילים, גאים לארח כאן כנסים מקצועיים לדיון בנושאים הכי חמים על סדר היום של התעשייה".
 
זאב אלדמן, מנהל תחום המחשוב ומחקרי התוכנה, המדען הראשי, משרד הכלכלה: "אני מנהל, בין היתר, את תחום ההשקעות והמחקר בטכנולוגיות מתקדמות במדען הראשי, השקעות שנועדו לקדם את השגשוג הכלכלי של מדינת ישראל.
 
לפני כ- 30 שנה פנו אלינו שתי חברות ובקשו תמיכה בתחום בו אנו עוסקים היום. אחת ביקשה תמיכה בזיהוי דיבור לתא הטייס והשנייה לנושא דומה בתחום הצבאי. ניסינו לעזור להן בכלים, שהיו לנו אז. אולם, הראשונה כבר נעלמה מהמפה ולא קיימת, כי לא היו בה אנשי אקדמיה. גם השנייה כחברה נעלמה, אבל הייזמים שלה שינו כיוון והחליטו לעבור לתחום יותר רווחי והקימו את קבוצת DSP. זו חברה, שקמה על בסיס חברת CallTalk שנעלמה. DSP היא חברה ישראלית מאוד מצליחה עד היום. הסיבה: יש בה אנשי מחקר ואקדמיה.
 
מאז, תמכנו בחברות לא מעטות בתחום זיהוי הדיבור. אבל, ההצלחות היו מועטות. נראה שהמקום שבו הטכנולוגיה הצליחה בו, היה במקום שבו השימוש הצליח לעקוף את המגבלות והמכשלות של הטכנולוגיה. יש לנו כמה דוגמאות מוצלחות בישראל, למשל: נייס וורינט.
 
בנוסף, אם נסתכל על ניואנס, היא רכשה כמות נכבדה של חברות ישראליות מוצלחות (יחסית), שהיום הן חלק בלתי נפרד מניואנס.
 
גם כיום יש כמות לא קטנה של חברות המקבלות תמיכה מהמדען הראשי בתחום הזה. המגמה המובילה כיום בפיתוחים היא ביישום ממשק משתמש יותר חכם, במיוחד למכשירים החדשים והניידים. זה אתגר גדול למפתחים.
 
לאקדמיה יש חשיבות רבה בקידום התחום. הפיתוחים בשוק מובלים ע"י האקדמיה, בגלל שמדובר בתחום מובהק המתפתח תוך כדי מחקר. אנו מטפחים את הקשר בין העולם האקדמי לבין התעשייה בכמה תוכניות כמו: מגנ"ט ומגנ"טון. יש לנו עוד תוכניות משותפות לאקדמיה ולתעשייה. אני מאמין, שהאקדמיה יכולה להוביל את התעשייה להגיע להישגים גם בתחום הזה".
 
פרופ' עמי מויאל, יו"ר הכנס וראש המכון לעיבוד שפה, המכללה האקדמית להנדסה אפקה: "אני שמח לראות, שאנו מהווים את מקום המפגש השנתי הישראלי והעולמי לתחום פיתוח זיהוי הדיבור. בשנה שעברה הדגש בכנס היה על ה- Siri של אפל. השנה ניתן דגש לתחומים אחרים, דוגמת ממשק המשתמש ואבטחת הזיהוי הקולי.
 
אספנו כאן במאמץ רב את מיטב המומחים בעולם, להציג את הפיתוחים הכי חדישים בעולם. נציג גם פיתוחים של סטודנטים שלנו במכללה.
 
השנה נפתחו 5 קבוצות עבודה המשלבות בין המומחים מהתחום באקדמיה לבין מומחים ומפתחים מהתעשייה. אנו נאפשר לקבוצות ממוקדות לדון בנושאים המשיקים בין האקדמיה לתעשייה ונקווה להפרות את הדו-שיח בין האקדמיה לתעשייה בצורה כזו.
 
אנו באפקה ממשיכים לגדול. כיום אנו כמעט 20 איש בתחום זיהוי הדיבור, מהם 14 חוקרים – אנשי סגל, שמהם 7 הם בוגרים של מכללת אפקה ויש לנו 4 סטודנטים למחקר לתואר שני. בנוסף, אנו משתתפים בפרויקטים כמו מגנ"טון של המדען הראשי ומבצעים שת"פים רבים עם התעשייה, כולל עם מפא"ת (משרד הביטחון) וחוקרים מאוניברסיטאות אחרות בארץ ובעולם. יש כיום התעניינות רבה בתעשייה בתחום האבטחה ובתחומי השימושים של זיהוי דיבור. נכנסנו לפרויקט של DARPA (רפא"ל של ממשלת ארה"ב). זה היה ניסיון ראשון שלנו עם DARPA ונמשיך בו גם בשנה הבאה. אני מודה לכל התורמים, נותני החסויות והמסייעים להגשמת האירוע המקצועי הזה במכללה".
 
מגמות חדשות בעולם זיהוי הדיבור
פרופ' צין-יו לי, בי"ס להנדסת חשמל ומחשבים, הטכניון של ג'ורג'יה, אטלנטה ארה"ב: "בעשור האחרון אני עוסק רוב הזמן בתחום אחד חדש, שנדמה לי שכבר עומד להבשיל לפתרונות. פעם חשבו, שמדובר בתחום, שיהיו בו מיליארדי דולרים הכנסות שנתי. אולם, זה טרם קרה. יש עדיין הרבה מה לעשות, במיוחד באקדמיה, כדי לחקור ולקדם את תחום זיהוי הדיבור.
 
בפיתוחים שלי אני עובד בשת"פ עם כמה חוקרים ובראשם פרופ' סינסיקטצ'י ועם אחרים. התחום המרכזי בו אנו עובדים נקרא ASAT = Automated Speech Attributes Transcription. יש כבר יישומים של ASAT בשוק העולמי. זה תחום מבטיח.
 
הדיוק של זיהוי הדיבור עולה משנות ה- 70, במשך כ- 40 שנות מחקר, ורק כיום הוא מתקרב אולי ליכולת ההבנה האנושית. הייתה בעשור הקודם האטה בהתפתחות, למרות הכנסת מודלים מתמטיים ומערכות חישוביות חזקות לטיפול בתחום. השיפורים בדיוק היו קטנים מהצפוי. ב-שנת 2010 חזרנו לבסיס של מדע זיהוי הקול, חזרנו לתחום ה- Signal processing. זה התחום המביא את ההתקדמות.
 
יש כיום שתי מערכות המובילות את השוק: המערכת של IBM והדרגון של ניואנס. החברות המצליחות ביותר בעולם הן לדעתי ניואנס ו- SpeechWorks. יש הצלחות מסוימות בעולם התוכן של המכוניות, למשל GM עם ה- OnStar וגם בפורד. אלו מערכות Telematics המשתלבות עם המכונית. זה בתחילת הדרך ועם ניסיון מוגבל אך די מוצלח.
 
הרצון של Bell Labs בארה"ב, שהחלו לפתח את התחום הזה לפני כמה עשורים, היה להביא לפתרונות בתחום זיהוי הקול בעולם התקשורת. הם עדיין לא הגיעו להצלחה גדולה, בעיקר בגלל התלות בשפה. היישום העיקרי, שמצליח כיום, הוא בתחום מרכזי השירות.
 
הבסיס לרוב הפתרונות הם בסיסי נתונים ענקיים, שמנותחים בכלים מתמטיים. יש בכך מכשלות רבות. לעיתים יש בעיה במבטא, לעיתים ברעשי הרקע, לעיתים רעשים במערכת עצמה. כך יוצא, ש- Siri עצמה לא מבינה מבטאים שונים. יש דיוק לא רע בכמה שפות: באנגלית, מנדרינית וערבית. מעט פחות בספרדית. לשאר השפות - אין עדיין תשובה טובה.
 
כיום, נכנסנו לעולם ה- Big-Data. זאת, בגלל השונות הרבה של המידע הנצבר בתחום זה. אנו בשלבי זיהוי גבולות הגזרה והפרמטרים של התחום. אנו חוזרים לבסיס של 'חוק שנון' בתקשורת. זה דומה לחוק של Baye עם תהליך העיבוד של Markov.
 
מכאן אנו מגיעים ל- HMM = Hidden Markov Model. זה המודל המצליח ביותר עד כה לזיהוי דיבור. למודל המוכר של ASR, שיש בתעשייה, יש מגבלות והראשונה בהן היא, שהחיפוש נעשה מלמעלה למטה. בעיה שנייה היא הרגישות לתנאי השיחה. אם המיקרופון טוב, יש סביבה שקטה בעת הדיבור ודובר מדבר במבטא מקורי של השפה, אזי הזיהוי דיבור הוא די טוב.
 
אבל, במציאות יש מעט אנשים כאלה ומעט מצבים כאלה. הרוב הם Non-Native, מדברים בטלפון עם תנאי רעש סביבם וגם בקו ערוץ הדיבור. הבעיה השלישית והחמורה מכל היא הפירוש לא נכון של המילים. המחשב מנסה לנחש את המילים, בהיעדר מספיק מידע, כדי ליצור רצף שיחה. זה עובד רע בשיחה חופשית. בשיחה מובנית וסגורה זה יותר מוצלח.
 
לבני אדם יש יכולת להבין שפה עם הרבה פחות שגיאות. הגישה של מוח האדם עובדת מלמטה למעלה, בדיוק הפוך לצורת הניתוח, שיש כיום במחשב. לכן, למחשב יש עד פי 100 יותר שגיאות מאשר לניתוח של מוח האדם.
 
בפתרונות הקיימים היום בשוק אחוז השגיאה נע בין 4% ל- 70%, תלוי בתנאי השיחה והפיענוח שלה. זה רחוק מלהשביע רצון.
 
לכן, עלינו ללמוד מה המוח עושה, כדי להבין שיחה בכל מבטא ולראות איך מיישמים זאת במחשבים. יש חסמי כניסה רבים לתחום וסטודנטים, שרוצים לעשות דוקטורט, מתקשים להשיג הישגים משמעותיים בתחום זה. הכיוון, שאני מאמין בו, הוא ניתוח מהתחתית למעלה (Bottom-Up) של תכונות – Attributes. המערכת, שאנו מפתחים, מצויה בעולם ה- ASAT. זה בסיס היכול להצליח בכל סוג של שיחה ובכל מכשיר קצה.
 
ההשקעה הגדולה ביותר כיום היא בשיפור זיהוי התכונות – Attributes. הצלחנו עד כה להוריד את השגיאות ב- 30% וזה הרבה. אולם, עדיין עבודה רבה לפנינו. החלום שלי הוא ליצור מערכת אחת, שתתאים לכל השפות. מנוע אחד לכל. זה עדיין רחוק, אבל אני מקווה, שעוד בחיי אוכל להגשים את החלום הזה".
 
בתמונה (מימין): פרופ' צין-יו לי, פרופ' לורנס רבינר ופרופ' עמי מויאל 
כנס זיהוי דיבור מכללת אפקה להנדסה



 
 
Bookmark and Share


 

לוח מודעות
מחפשים הגנה מושלמת על הגלישה הניידת והנייחת ועל הפרטיות מפני כל תוקף? הפתרון הזול והטוב בעולם - כאן.

לוח אירועים וכנסים של עולם ההיי-טק - כאן.

מחפש מחקרים? מאות מחקרים עדכניים מהשנה האחרונה מצויים כאן

מחפש תוכנות חופשיות? תוכל למצוא משחקיםתוכנות לפרטיים ותוכנות לעסקיםתוכנות לצילום ותמונות, הכל בחינם.


מעוניין לבנות ולתפעל אתר אישי או עסקי מקצועי? לחץ כאן.


 




לוח האירועים המלא לגולשים מצוי כאן.

16-19/9/19 - DLD Tel Aviv Digital Conference 2019 

23/9/19 - FoodTech IL 2019  

28-29/10/19 - Smart Mobility Summit 2019 

17-24/11/19 - שבוע היזמות העולמי 2019  
 

הכי ניצפים 

דירוג הסמאטרפונים הטובים ביותר בעולם למאי 2019 עפ"י Business Insider - כאן

תאגיד השידור - "עלינו". איך עשו עלינו סיבוב והשאירו את אגרת הטלוויזיה - כאן

כל מה שלא מספרים לכם בתחום "השוק הסיטונאי" - פרק א': בזק - כאן

כל מה שלא מספרים לכם בתחום "השוק הסיטונאי" - פרק ג' - ההפסד הצרכני - כאן

כמה מפסידים בביצועים של הפס הרחב במעבר ל"שוק הסיטונאי"? - הרבה - כאן

למה מבלבלים את המוח לציבור בנושא המכונה "שוק סיטונאי"? - כאן

למה בכלל צריך להחליף / לרכוש נתב במעבר ל"שוק סיטונאי"? - כאן

איך אני יודע כמה מגהרץ יש בחיבור LTE? מי ספק הסלולר המהיר בישראל? - כאן

חשיפת המחדל המדהים המוסתר מהציבור של הרס רשתות הסלולר - כאן

חשיפת מה שאילנה דיין לא פרסמה ב"ערוץ 2" על תעלולי השר משה כחלון - כאן

איך רבע מיליון לקוחות נפלו בפח ועברו להסדר המכונה בטעות "שוק סיטונאי" - כאן

ההגנה המושלמת על הגלישה ניידת והנייחת ועל הפרטיות מפני כל תוקף - כאן

מבחן דרך: חיבור VPN - האם זו ההגנה המושלמת על הגלישה ועל הפרטיות? - כאן

המשך חשיפת הבלוף ששמו "מהפיכת הסלולר" ואיך מסרסים את הנתונים לציבור - כאן

כל מה שלא מספרים לכם בנוגע לחקירת "פרשת בזק-YES" ולמה ביבי לא בעניין - כאן

סיכום ביקור בסיליקון ואלי - למה 3 הגדולות משקיעות ומפתחות באותם תחומים - כאן

שלמה פילבר (עד לאחרונה מנכ"ל משרד התקשורת) - עד מדינה? הצחקתם אותי! - כאן

"יש אפליה בחקירה"? חשיפה: למה השר משה כחלון לא נחקר עד היום? - כאן

חשיפת חשד לשחיתות הדומה לזו של "תיק 4000" אך בתחום הסלולר - כאן

חשיפת ההונאה הגדולה שהובילה לכך שמוצרי התקשורת יקרים יותר בישראל - כאן

בלעדי לקוראי האתר: 1 ש"ח ליום שיחות וגלישה ללא הגבלה בחו"ל... - כאן

חשיפת מה שלא רוצים  שתדעו בעניין פריסת אנלימיטד (בניחוח בלתי נסבל) - כאן

השוק הקווי לקראת דעיכה ויצירת מונופול חדש (סלקום) על חורבות בזק והוט - כאן

חשיפה: איוב קרא אישר לקבוצת סלקום בדיוק מה שביבי אישר ל-Yes ולבזק - כאן

האם השר איוב קרא היה צריך בכלל לחתום על האישור, שנתן לקבוצת סלקום? - כאן

האם ביבי וקרא קבלו בכלל תמורה עבור ההטבות הרגולטוריות שנתנו לסלקום? - כאן

המסמכים בנושא בזק-Yes (תיק 4000) מוכיחים "תפירת תיק" לאיש הלא נכון! - כאן

עובדות ומסמכים המוסתרים מהציבור: האם ביבי כשר תקשורת עזר לקב' בזק? - כאן

מה מקור ה-Fake News שהביא לתפירת תיק לביבי והעלמת החשודים הנכונים - כאן

אחת הרגליים של "תיק 4000 התפור" התמוטטה היום בניצחון (כפול) של בזק - כאן

איך כתבות מפנקות הפכו לפתע לטובת הנאה שהיא מיסודות עבירת השוחד? - כאן

שערוריית הקנס הענק על בזק וחשיפת "תעודת הביטוח" של נתניהו בתיק 4000 - כאן

תיק 5000: סלקום - IBC לא תפרוס סיבים ותרכב על גב הרכוש הפרטי של בזק - כאן

ערוץ 20: "תיק תפור": אבי וייס חושף את מחדלי "תיק 4000" - כאן

התבלבלתם: גיא פלד הפך את כחלון, גבאי ואילת לחשודים המרכזיים בתיק 4000 - כאן

פצצות בתיק 4000: האם היו בכלל התנגדויות למיזוג בזק-יס? - כאן

נמצא מסמר נוסף בארון הקבורה של תיק 4000 התפור - כאן

נחשפה עוד עובדה חשובה בדרך אל ההלוויה של תיק 4000 - כאן

תיק 4000 לא הושלם: האם היועמ"ש קיבל את כל המידע הנחוץ לחקר האמת? - כאן

תיק 4000: גם תקנות התקשורת התומכות בגרסת נתניהו לא נכללו בחקירה - כאן

חשיפת שקרים נוספים בתיק 4000: הטעיית הציבור נמשכת ללא הרף - כאן

תיק 4000: נחוצה ועדת חקירה ממלכתית לגבי "אישום" שר התקשורת - נתניהו - כאן

תיק 4000: חשיפת "דבר ראשון" בעניין היועמ"ש - היבטים חמורים חדשים - כאן

תיק 4000: היועמ"ש לממשלה אישר "מיזוג" בזק-יס. צריך ועדת חקירה ממלכתית - כאן

אוסף הטעויות בתיק 4000: "אני מאשים" - לא חתרו כלל לגילוי המאת - כאן

שערוריית תיק 4000: איך יש 2 גרסאות שונות של כתב החשדות של היועמ"ש? - כאן

ערוץ 20: אבי וייס חשף טענות שגויות בכתב החשדות נגד רוה"מ בתיק 4000 - כאן

תיק 4000: חשיפת מסמך נוסף שיסייע גם הוא לחיסול תיק 4000 התפור - כאן

ערוץ 20: אבי וייס ואלי ציפורי חשפו שקרי הפרקליטות לגבי ההדלפות בתיק 4000 - כאן

תיק 4000: מתי מדוע ואיך הוא הפך מ"תיק בזק" ל"תיק תפור" ומחורר? - כאן

הספינים והשקרים בתיק 4000 חזרו. הם חלק מניסיון הפיכה שלטונית שיש לחקור - כאן

סודות ושקרים בפרקליטות והיועמ"ש: מי היה ב"ניגוד עיניינים" בתיק 4000? - כאן
 
זרקור חברות
 
PIXABAY
 
NORDVPN
 
Telecom Expert
 
טלקום אקספרטס
 
NordVPN
 
עדן אימון עסקי
 
כמה זה? השוואת מחירים
 
PIXABAY
 
Telecom Experts
 
טלי וייס
 
 
Slideshare Linkedin Twitter
Youtube Instagram Facebook
Google+ live Zappix
Bitly Vimeo Pinterest
אנדרואידאנדרואיד-ברקוד אפל ברקודאפל

 
 מפת הביטקוין   מהירות גלישה Your IP שירותנט
לייבסיטי - בניית אתרים