זיהוי דיבור – טכנולוגיה בתחילת דרכה, גם אחרי 40 שנות מחקר

דף הבית >> סקירות טכנולוגיות >> זיהוי דיבור – טכנולוגיה בתחילת דרכה, גם אחרי 40 שנות מחקר
זיהוי דיבור – טכנולוגיה בתחילת דרכה, גם אחרי 40 שנות מחקר
מאת: אבי וייס, 7.7.13, 00:30מכללת אפקה להנדסה
 
חשיפת המכשלות והטכנולוגיות בדרך לזיהוי דיבור מושלם בכל שפה ובכל מבטא. המוח האנושי עדיין טוב יותר מכל מכונה המזהה דיבור: רשמים מהכנס הבינלאומי Speech Processing 2013.
 
הכנס המקצועי היחיד בישראל לתחום זיהוי דיבור בפקולטה להנדסת חשמל במכללת אפקה להנדסה נערך בימים 1-2/07/13. היה זה הכנס השנתי הבינלאומי השלישי לתחום זיהוי הדיבור (Speech Processing 2013) בהשתתפות מאות מרצים, חוקרים, מומחים מהתעשייה וסטודנטים מכל רחבי העולם. ראיון בלעדי עם יוזם הכנס, פרופ' עמי מויאל כבר פורסם - כאן.
 
פרופ' מוטי סוקולוב, נשיא מכללת אפקה להנדסה: "אנו שמחים לארח כאן את פרופ' לורנס רבינר הנחשב ל'אבי' תחום זיהוי הדיבור בעולם, ואת פרופ' צין-יו לי הנחשב למומחה עולמי מוביל בתחום, וכן את כל שאר המומחים, שהגיעו אלינו מרחבי תבל. אנו, כמכללה מובילה בתחומים טכנולוגיים רבים, כשזיהוי הדיבור הוא רק אחד מהשטחים בהם אנו מובילים, גאים לארח כאן כנסים מקצועיים לדיון בנושאים הכי חמים על סדר היום של התעשייה".
 
זאב אלדמן, מנהל תחום המחשוב ומחקרי התוכנה, המדען הראשי, משרד הכלכלה: "אני מנהל, בין היתר, את תחום ההשקעות והמחקר בטכנולוגיות מתקדמות במדען הראשי, השקעות שנועדו לקדם את השגשוג הכלכלי של מדינת ישראל.
 
לפני כ- 30 שנה פנו אלינו שתי חברות ובקשו תמיכה בתחום בו אנו עוסקים היום. אחת ביקשה תמיכה בזיהוי דיבור לתא הטייס והשנייה לנושא דומה בתחום הצבאי. ניסינו לעזור להן בכלים, שהיו לנו אז. אולם, הראשונה כבר נעלמה מהמפה ולא קיימת, כי לא היו בה אנשי אקדמיה. גם השנייה כחברה נעלמה, אבל הייזמים שלה שינו כיוון והחליטו לעבור לתחום יותר רווחי והקימו את קבוצת DSP. זו חברה, שקמה על בסיס חברת CallTalk שנעלמה. DSP היא חברה ישראלית מאוד מצליחה עד היום. הסיבה: יש בה אנשי מחקר ואקדמיה.
 
מאז, תמכנו בחברות לא מעטות בתחום זיהוי הדיבור. אבל, ההצלחות היו מועטות. נראה שהמקום שבו הטכנולוגיה הצליחה בו, היה במקום שבו השימוש הצליח לעקוף את המגבלות והמכשלות של הטכנולוגיה. יש לנו כמה דוגמאות מוצלחות בישראל, למשל: נייס וורינט.
 
בנוסף, אם נסתכל על ניואנס, היא רכשה כמות נכבדה של חברות ישראליות מוצלחות (יחסית), שהיום הן חלק בלתי נפרד מניואנס.
 
גם כיום יש כמות לא קטנה של חברות המקבלות תמיכה מהמדען הראשי בתחום הזה. המגמה המובילה כיום בפיתוחים היא ביישום ממשק משתמש יותר חכם, במיוחד למכשירים החדשים והניידים. זה אתגר גדול למפתחים.
 
לאקדמיה יש חשיבות רבה בקידום התחום. הפיתוחים בשוק מובלים ע"י האקדמיה, בגלל שמדובר בתחום מובהק המתפתח תוך כדי מחקר. אנו מטפחים את הקשר בין העולם האקדמי לבין התעשייה בכמה תוכניות כמו: מגנ"ט ומגנ"טון. יש לנו עוד תוכניות משותפות לאקדמיה ולתעשייה. אני מאמין, שהאקדמיה יכולה להוביל את התעשייה להגיע להישגים גם בתחום הזה".
 
פרופ' עמי מויאל, יו"ר הכנס וראש המכון לעיבוד שפה, המכללה האקדמית להנדסה אפקה: "אני שמח לראות, שאנו מהווים את מקום המפגש השנתי הישראלי והעולמי לתחום פיתוח זיהוי הדיבור. בשנה שעברה הדגש בכנס היה על ה- Siri של אפל. השנה ניתן דגש לתחומים אחרים, דוגמת ממשק המשתמש ואבטחת הזיהוי הקולי.
 
אספנו כאן במאמץ רב את מיטב המומחים בעולם, להציג את הפיתוחים הכי חדישים בעולם. נציג גם פיתוחים של סטודנטים שלנו במכללה.
 
השנה נפתחו 5 קבוצות עבודה המשלבות בין המומחים מהתחום באקדמיה לבין מומחים ומפתחים מהתעשייה. אנו נאפשר לקבוצות ממוקדות לדון בנושאים המשיקים בין האקדמיה לתעשייה ונקווה להפרות את הדו-שיח בין האקדמיה לתעשייה בצורה כזו.
 
אנו באפקה ממשיכים לגדול. כיום אנו כמעט 20 איש בתחום זיהוי הדיבור, מהם 14 חוקרים – אנשי סגל, שמהם 7 הם בוגרים של מכללת אפקה ויש לנו 4 סטודנטים למחקר לתואר שני. בנוסף, אנו משתתפים בפרויקטים כמו מגנ"טון של המדען הראשי ומבצעים שת"פים רבים עם התעשייה, כולל עם מפא"ת (משרד הביטחון) וחוקרים מאוניברסיטאות אחרות בארץ ובעולם. יש כיום התעניינות רבה בתעשייה בתחום האבטחה ובתחומי השימושים של זיהוי דיבור. נכנסנו לפרויקט של DARPA (רפא"ל של ממשלת ארה"ב). זה היה ניסיון ראשון שלנו עם DARPA ונמשיך בו גם בשנה הבאה. אני מודה לכל התורמים, נותני החסויות והמסייעים להגשמת האירוע המקצועי הזה במכללה".
 
מגמות חדשות בעולם זיהוי הדיבור
פרופ' צין-יו לי, בי"ס להנדסת חשמל ומחשבים, הטכניון של ג'ורג'יה, אטלנטה ארה"ב: "בעשור האחרון אני עוסק רוב הזמן בתחום אחד חדש, שנדמה לי שכבר עומד להבשיל לפתרונות. פעם חשבו, שמדובר בתחום, שיהיו בו מיליארדי דולרים הכנסות שנתי. אולם, זה טרם קרה. יש עדיין הרבה מה לעשות, במיוחד באקדמיה, כדי לחקור ולקדם את תחום זיהוי הדיבור.
 
בפיתוחים שלי אני עובד בשת"פ עם כמה חוקרים ובראשם פרופ' סינסיקטצ'י ועם אחרים. התחום המרכזי בו אנו עובדים נקרא ASAT = Automated Speech Attributes Transcription. יש כבר יישומים של ASAT בשוק העולמי. זה תחום מבטיח.
 
הדיוק של זיהוי הדיבור עולה משנות ה- 70, במשך כ- 40 שנות מחקר, ורק כיום הוא מתקרב אולי ליכולת ההבנה האנושית. הייתה בעשור הקודם האטה בהתפתחות, למרות הכנסת מודלים מתמטיים ומערכות חישוביות חזקות לטיפול בתחום. השיפורים בדיוק היו קטנים מהצפוי. ב-שנת 2010 חזרנו לבסיס של מדע זיהוי הקול, חזרנו לתחום ה- Signal processing. זה התחום המביא את ההתקדמות.
 
יש כיום שתי מערכות המובילות את השוק: המערכת של IBM והדרגון של ניואנס. החברות המצליחות ביותר בעולם הן לדעתי ניואנס ו- SpeechWorks. יש הצלחות מסוימות בעולם התוכן של המכוניות, למשל GM עם ה- OnStar וגם בפורד. אלו מערכות Telematics המשתלבות עם המכונית. זה בתחילת הדרך ועם ניסיון מוגבל אך די מוצלח.
 
הרצון של Bell Labs בארה"ב, שהחלו לפתח את התחום הזה לפני כמה עשורים, היה להביא לפתרונות בתחום זיהוי הקול בעולם התקשורת. הם עדיין לא הגיעו להצלחה גדולה, בעיקר בגלל התלות בשפה. היישום העיקרי, שמצליח כיום, הוא בתחום מרכזי השירות.
 
הבסיס לרוב הפתרונות הם בסיסי נתונים ענקיים, שמנותחים בכלים מתמטיים. יש בכך מכשלות רבות. לעיתים יש בעיה במבטא, לעיתים ברעשי הרקע, לעיתים רעשים במערכת עצמה. כך יוצא, ש- Siri עצמה לא מבינה מבטאים שונים. יש דיוק לא רע בכמה שפות: באנגלית, מנדרינית וערבית. מעט פחות בספרדית. לשאר השפות - אין עדיין תשובה טובה.
 
כיום, נכנסנו לעולם ה- Big-Data. זאת, בגלל השונות הרבה של המידע הנצבר בתחום זה. אנו בשלבי זיהוי גבולות הגזרה והפרמטרים של התחום. אנו חוזרים לבסיס של 'חוק שנון' בתקשורת. זה דומה לחוק של Baye עם תהליך העיבוד של Markov.
 
מכאן אנו מגיעים ל- HMM = Hidden Markov Model. זה המודל המצליח ביותר עד כה לזיהוי דיבור. למודל המוכר של ASR, שיש בתעשייה, יש מגבלות והראשונה בהן היא, שהחיפוש נעשה מלמעלה למטה. בעיה שנייה היא הרגישות לתנאי השיחה. אם המיקרופון טוב, יש סביבה שקטה בעת הדיבור ודובר מדבר במבטא מקורי של השפה, אזי הזיהוי דיבור הוא די טוב.
 
אבל, במציאות יש מעט אנשים כאלה ומעט מצבים כאלה. הרוב הם Non-Native, מדברים בטלפון עם תנאי רעש סביבם וגם בקו ערוץ הדיבור. הבעיה השלישית והחמורה מכל היא הפירוש לא נכון של המילים. המחשב מנסה לנחש את המילים, בהיעדר מספיק מידע, כדי ליצור רצף שיחה. זה עובד רע בשיחה חופשית. בשיחה מובנית וסגורה זה יותר מוצלח.
 
לבני אדם יש יכולת להבין שפה עם הרבה פחות שגיאות. הגישה של מוח האדם עובדת מלמטה למעלה, בדיוק הפוך לצורת הניתוח, שיש כיום במחשב. לכן, למחשב יש עד פי 100 יותר שגיאות מאשר לניתוח של מוח האדם.
 
בפתרונות הקיימים היום בשוק אחוז השגיאה נע בין 4% ל- 70%, תלוי בתנאי השיחה והפיענוח שלה. זה רחוק מלהשביע רצון.
 
לכן, עלינו ללמוד מה המוח עושה, כדי להבין שיחה בכל מבטא ולראות איך מיישמים זאת במחשבים. יש חסמי כניסה רבים לתחום וסטודנטים, שרוצים לעשות דוקטורט, מתקשים להשיג הישגים משמעותיים בתחום זה. הכיוון, שאני מאמין בו, הוא ניתוח מהתחתית למעלה (Bottom-Up) של תכונות – Attributes. המערכת, שאנו מפתחים, מצויה בעולם ה- ASAT. זה בסיס היכול להצליח בכל סוג של שיחה ובכל מכשיר קצה.
 
ההשקעה הגדולה ביותר כיום היא בשיפור זיהוי התכונות – Attributes. הצלחנו עד כה להוריד את השגיאות ב- 30% וזה הרבה. אולם, עדיין עבודה רבה לפנינו. החלום שלי הוא ליצור מערכת אחת, שתתאים לכל השפות. מנוע אחד לכל. זה עדיין רחוק, אבל אני מקווה, שעוד בחיי אוכל להגשים את החלום הזה".
 
בתמונה (מימין): פרופ' צין-יו לי, פרופ' לורנס רבינר ופרופ' עמי מויאל 
כנס זיהוי דיבור מכללת אפקה להנדסה



 
 
Bookmark and Share


 


לוח מודעות
יזמים? יש לכם רעיון מבריק? נמשכת ההרשמה למחזור הבא של TLV Generator. ההרשמה - כאן

מחפשים הגנה מושלמת על הגלישה הניידת והנייחת ועל הפרטיות מפני כל תוקף? הפתרון הזול והטוב בעולם - כאן.

ניוזלטר שלישי של האתר הופץ לנרשמים לאתר - ניתן לצפייה כאן.

ניוזלטר שני של האתר הופץ לנרשמים לאתר - ניתן לצפייה כאן.

ניוזלטר ראשון של האתר הופץ לנרשמים לאתר - ניתן לצפייה כאן.

לוח אירועים וכנסים של עולם ההיי-טק - כאן.

מחפש מחקרים? מאות מחקרים עדכניים מהשנה האחרונה מצויים כאן

מחפש תוכנות חופשיות? תוכל למצוא משחקים, תוכנות לפרטיים ותוכנות לעסקים, תוכנות לצילום ותמונות, הכל בחינם.


מעוניין לבנות ולתפעל אתר אישי או עסקי מקצועי? לחץ כאן.


 




לוח האירועים המלא לגולשים מצוי כאן.

15.5.17 - Bynet Expo 2017

18/5/17 - Israel's Annual Programmatic Video conference 

15/6/17 - CRYPTODAY 2017 

25-29/6/17 - Cyber Week 2017  

3/7/17 - 2017 Afeka Conference for Speech Processing  

15-17/8/17 - אליפות ישראל לספורט אלקטרוני 2017  

2/11/17 - 28/10/17 - German Tel Aviv Week 2017  

 

הכי ניצפים 

דירוג הסמאטרפונים הטובים ביותר בעולם לאפריל 2017 עפ"י Business Insider - כאן

מה כן מקדם אתרים ועסקים באינטרנט? לא העלוקות שחיות סביב גוגל ופייסבוק - כאן

כל מה שלא מספרים לכם בתחום "השוק הסיטונאי" - פרק א': בזק - כאן

כל מה שלא מספרים לכם בתחום "השוק הסיטונאי" - פרק ג' - ההפסד הצרכני - כאן

כמה מפסידים בביצועים של הפס הרחב במעבר ל"שוק הסיטונאי"? - הרבה - כאן

מה שלא מספרים לכם: כיצד בזק תמרנה את מחירי השוק הסיטונאי עד 2018 - כאן

למה מבלבלים את המוח לציבור בנושא המכונה "שוק סיטונאי"? - כאן

למה בכלל צריך להחליף / לרכוש נתב במעבר ל"שוק סיטונאי"? - כאן

התרגיל לחיסול "השוק הסיטונאי" כבר כמעט מוכן, קוראים לו Vectoring - כאן

כל מי שכביכול "נטש את בזק" ב"שוק סיטונאי" יחזור לבזק תוך שנה-שנתיים - כאן

הפלופ הבא של "השוק הסיטונאי" שירות SLU (שבלעדיו הנוטשים יחזרו לבזק) - כאן

ביבי נתניהו הקשיב לקריאת Telecom News: פיטר לאלתר את אבי ברגר - כאן

חשיפת המספרים מאחורי משבר האנטנות: בשנה האחרונה פורקו 721 אנטנות - כאן

איך אני יודע כמה מגהרץ יש בחיבור LTE? מי ספק הסלולר המהיר בישראל? - כאן

חשיפת המחדל המדהים המוסתר מהציבור של הרס רשתות הסלולר - כאן

חשיפת מה שאילנה דיין לא פרסמה ב"ערוץ 2" על תעלולי השר משה כחלון - כאן

האם נטפליקס זקוקה לרישיון כדי לפעול, לשדר ולמכור שירותים בישראל? - כאן

איך רבע מיליון לקוחות נפלו בפח ועברו להסדר המכונה בטעות "שוק סיטונאי" - כאן

ההגנה המושלמת על הגלישה ניידת והנייחת ועל הפרטיות מפני כל תוקף - כאן

מבחן דרך: חיבור VPN - האם זו ההגנה המושלמת על הגלישה ועל הפרטיות? - כאן

TLV Generator נולד - התכנית שהופכת כל רעיון למוצר (MVP) תוך 120 יום - כאן

למה 95% מהסטארטאפים בישראל נכשלו, נכשלים וימשיכו להיכשל גם בעתיד - כאן

מה חלקו ואחריותו של ה-CTO למצב בו 95% מהסטארטאפים בישראל נכשלים? - כאן

האם ניתן לרפא את המחלה של כישלון מעל ל-95% מהמיזמים בישראל? - כאן

20 המובילים ומקבלי הצל"ש בשנת 2016 בעולם התקשורת וההייטק הישראלי - כאן
 
זרקור חברות
 
TLV-Generator
 
TLV-Generator
 
 
טלקום אקספרטס
 
NordVPN
 
עדן אימון עסקי
 
כמה זה? השוואת מחירים
 
TLV-Generator
 
TLV-GENERATOR
 
טלי וייס
 
 
 
Slideshare Linkedin Twitter
Youtube Instagram Facebook
Google+ live Zappix
Bitly Vimeo Pinterest
אנדרואידאנדרואיד-ברקוד אפל ברקודאפל

 
 מפת הביטקוין   מהירות גלישה Your IP שירותנט
לייבסיטי - בניית אתרים