סיקור מקיף

מחשב שקורא שפתיים

מדענים ברחבי העולם עומלים על פיתוח תוכנות מחשב שיקראו שפתיים – כמו ב”אודיסיאה בחלל” – עם יכולת פענוח טובה אף מזו של קורא שפתיים אנושי

ישראל בנימיני, מגזין “גליליאו”

בסרט “2001 אודיסיאה בחלל” יש סצנה שבה האסטרונאוטים חושדים כי המחשב HAL, השולט בספינה, מסכן את חייהם. המחשב יכול לראות ולשמוע אותם כמעט בכל מקום בספינה, אך הם מוצאים מקום שבו רק המצלמות פועלות, ושם מדברים על המצב. הם אינם יודעים כי המצלמות מאפשרות למחשב לקרוא את שפתיהם. זמן קצר אחר-כך נהרג אחד האסטרונאוטים בתאונה מצמררת, והאסטרונאוט האחר נאלץ לפרק את HAL כדי לשרוד.

האם מחשב קורא-שפתיים עשוי באמת להוות איום? מסתבר שלפחות עבור אנשים מסוימים, התשובה חיובית. באנגליה, ענף הפיתוח המדעי של משרד הפנים החל בתכנית מחקר של שלוש שנים יחד עם אוניברסיטת מזרח אנגליה (East Anglia) ועם אוניברסיטת סוריי (Surrey), שמטרתו לפתח מכונות היכולות להמיר בצורה אוטומטית צילומי וידיאו של אנשים מדברים לטקסט המכיל את המילים שנאמרו. מטרת משרד הפנים בשיתוף פעולה זה היא לבחון את האפשרות של שימוש בטכנולוגיה זו כדי להילחם בפשע.

קורה שבידי המשטרה צילומים ממרחק של חשודים, שבהם אי-אפשר לשמוע מה נאמר. המשטרה נעזרת לעתים במומחים לקריאת שפתיים, אך פרקליטי הגנה הצליחו בכמה מקרים להטיל ספק ביכולותיהם של המומחים ולהמעיט במשקל עדויותיהם. משרד הפנים מקווה כי טכנולוגיית קריאת-שפתיים תהיה אמינה יותר ותיתפש כאובייקטיבית יותר, וכך תעלה את מספר ההרשעות ותרחיק את הפושעים מהאזרחים שומרי החוק. מובן שקל לתאר גם תסריטים מאיימים המאפשרים לממשלות להקשיב לשיחות בכל מקום, באמצעות המצלמות המכסות כבר כיום שטחים ציבוריים נרחבים.

כל אחד קורא שפתיים

קריאת שפתיים עשויה לשמש לא רק לצורך גילוי סודות ומלחמה בפשע. למעשה, כולנו קוראי שפתיים במידה רבה, כפי שמוכיח אפקט מקגורק (McGurk). האפקט מופיע כאשר צופים בווידיאו שבו אדם משמיע הברות מסוימות, אבל על הפסקול של הווידיאו “מודבק” הצליל של הברות אחרות. לצופים נדמה כאילו הושמע צליל שלישי, שהוא באמצע: למשל, כאשר ההברה המצולמת היא “גָה” וההברה המושמעת היא “בָה”', אנו נוטים לשמוע “דָה”.

יש אשליות שנעלמות לאחר שהאפקט הוסבר, אך אפקט מקגורק נשאר גם לאחר שצופים בווידיאו פעמים אחדות, תוך שמיעה בלבד וראייה בלבד: ברגע שנחזור להסתכל ולהקשיב, ההברה תחזור להישמע “דָה”. מובן שרובנו מודעים לחשיבות של קריאת שפתיים גם בלי טריקים של עריכת וידיאו: הנטייה להסתכל בפניו של האדם שאיתו אנו מדברים אינה נובעת רק מנימוס, והיא מתחזקת כאשר קשה יותר לשמוע – לדוגמה, בחדר רועש, או אצל אנשים ששמיעתם חלשה.

אפשר לחשוב, אם כן, על שימושים של קריאת שפתיים ממוחשבת בסיטואציות שבהן הבנת דיבור ממוחשבת אינה מספיקה, כמו למשל במקומות רועשים. הטכנולוגיה של שליטה על מחשב באמצעות דיבור כבר קיימת, ואפילו כלולה במערכות הפעלה למחשבים אישיים.

אף על פי כן, היא לא זכתה לשימוש נרחב – אולי מפני שהיא רגישה לרעשים, ואולי מפני שאנשים אחרים רגישים לרעשים ששימוש כזה עשוי ליצור. גם ה”חיוג הקולי” הקיים כיום בטלפונים ניידים רבים אינו פופולרי, אולי מאותן סיבות. אם כך, אולי “דיבור שקט” (הנעת שפתיים בלא השמעת צלילים) יוכל להיות מובן באמצעות מצלמה המחוברת למחשב או לטלפון. קריאת שפתיים יכולה גם לשמש, בדומה למצב אצל אנשים רבים, ככלי תומך במנגנון העיקרי של זיהוי דיבור, כפי שהציעה ב-2003 חברת אינטל.

הבנת דיבור

קיימת תוכנה של חברת Synface המיועדת לכבדי שמיעה המדברים בטלפון, ומציגה להם דמות וירטואלית ששפתיה נעות בהתאם לצלילים שנקלטו. בשנת 2004 נערך ניסוי בטכנולוגיה זו, ונמצא כי השילוב של שמיעה בטלפון עם צפייה בתנועות השפתיים של הדמות הווירטואלית עזר ל-84% מהמשתתפים כבדי השמיעה לנהל שיחות בטלפון בצורה תקינה.

בניגוד ל-Synface, הדגש בפרויקט האנגלי הוא על הבנת הדיבור. Synface “מזיזה” את שפתי הפנים המוצגות על המסך בצורה המתאימה להברות הנשמעות, בלא שהדבר ידרוש זיהוי מדויק של אותן הברות ובלא כל ניסיון לזהות את המילה הנאמרת. בצורה זו מטילה Synface את המאמץ העיקרי על בינתו הטבעית של המאזין. לעומת זאת, מטרת הפרויקט האנגלי היא ליצור העתק טקסט של השיחה שנקלטה במצלמה, ובלא עזרת פענוח אנושי – אתגר גדול בהרבה.

מדוע זהו אתגר גדול? לכאורה, אם ידועה לנו סדרת ההגאים שהשמיע הדובר, כל שעלינו לעשות הוא לחבר אותם למילים – משימה שעשויה להיראות כקלה במבט ראשון. למעשה אין הדבר כך. נזכיר רק כמה מהסיבות: ראשית, צפוי שוני רב בקידוד המילים לתנועות שפתיים אצל הדובר (שוני הנובע ממבטאים שונים, מהרגלי דיבור או פשוט מדיבור מהיר – ידוע כי הצליל ותנועות השפתיים המשמשים לביטוי הברה כלשהי תלויים בהברות המבוטאות לפני ואחרי אותה הברה). צפויות גם שגיאות הנובעות מאיכות צילום מוגבלת ומפענוח הצילום.

כתוצאה מכך, ההברות המפוענחות יהיו לעתים קרובות שונות מההברות שהדובר התכוון לבטא. שנית, בדיבור נורמלי אין הפסקה בין מילים, ובלי זיהוי ההתחלה והסיום של כל מילה יש יותר מדי אפשרויות לפענח כל רצף של הברות (כאילו היינו מדפיסים מאמר זה בלא שימוש ברווחים ובלא אותיות סופיות). כדי לפענח את המילים, יש צורך בשילוב בו-זמני של כמה רמות של חשיבה ופענוח, הכוללות בין השאר הבנה של הקשר השיחה והמילים שסביר שייאמרו בה. כדי להשתכנע בכך, די לדמיין הקראה של רצף מילים אקראיות מהמילון, ובחינת מידת ההצלחה של קוראי שפתיים מומחים בפענוח הטקסט: אפילו בתנאים הטובים ביותר, יופיעו טעויות רבות בהכתבה כזו. טעויות רבות אפילו יותר יופיעו אם יבוטאו הברות אקראיות שאינן מצטרפות למילים כלשהן.

קריאת שפתיים קשה יותר מאשר פענוח דיבור קולי: לדוגמה, ברוב המבטאים באנגלית, תנועות השפתיים במשפט “Where there’s life there’s hope” זהות לתנועות השפתיים במשפט “where’s the lavender soap”. כדי לבחור בין האפשרויות נדרשת הבנה עמוקה של המצבים שבהם עשוי להיאמר כל משפט.

יכולותיהן של מערכות הבינה המלאכותית של היום עדיין רחוקות מהבנה זו, אף שלעתים אפשר להחליף אותה בכלים סטטיסטיים והסתברותיים מתקדמים (ראו “הכומר והבינה ההסתברותית”, “גליליאו” 69), המסייעים לבחור את הפענוח הנכון לפי שכיחות כל אחת מהמילים בנפרד, שכיחותם של צירופי מילים, והסיכוי שמילים או צירופים יופיעו בסיטואציות מסוימות. לדוגמה, השאלה על סבון הלוונדר מתאימה לשיחה בחנות תמרוקים יותר מאשר לשיחה בתחנת אוטובוס, במיוחד אם לא הוזכר סבון במשפטים אחרים באותה שיחה.

לכן, פענוח זה עבור השיחה בתחנת האוטובוס הוא אפשרי, אך יקבל הערכת הסתברות קטנה יותר. בסופו של דבר יוצגו חלק מה”התלבטויות” של התוכנה לאדם הקורא את תרשים השיחה, כך שגם כאן אנו מטילים חלק מהמאמץ על בינה טבעית. בכך אין הדבר שונה מעבודתם של מפענחי הקלטות, שאמנם ניחנו בבינה טבעית, אך לעתים קרובות אינם מכירים מספיק את ההקשר של השיחה ואת הידע וההנחות המשותפות למשוחחים. לכן הם נאלצים לפעמים להציג כמה אפשרויות לגבי המילה שנאמרה, גם כאשר המשוחחים עצמם, או אדם המתמצא יותר ברקע לאותה שיחה, אינם מתקשים כלל בזיהוי אותה מילה.

אתגרים והזדמנויות

בעבר כבר הוצגו תוכנות לקריאת שפתיים, אך רובן דרשו תנאי סביבה ומצבי צילום אידאליים, כמו תאורה מתאימה והפניית הפנים ישירות אל המצלמה. הפרויקט האנגלי שאפתני הרבה יותר, מכיוון שהוא חייב להימנע ממגבלות אלו כדי להשיג את מטרותיו. בצורה המשקפת את רמת האתגר שהוא ניצב בפניו, מגדיר ד”ר ריצ'רד הארווי (Harvey), מנהל הפרויקט, את המחקר כ”ניסיוני מאוד”.

עם זאת, הארווי יוכל להיעזר בעבודות רבות שנעשו בתחום זה, כמו למשל המאמר “מעקב-ראש תלת-ממדי עבור מערכת קריאת שפתיים ממוחשבת”, של גארת לוֹי (Loy) ושותפיו, שממנו נלקח האיור המלווה טור זה, שבו נראה מעקב אחר מצב הראש והפה כל עוד הפנים מוטות בזווית של 30 מעלות לכל היותר יחסית למצלמה.

כאשר מתמודדים עם תנאי צילום שאינם אידיאליים, נדרשים כמה שלבי עיבוד עוד בטרם ניגשים לפענוח תנועות השפתיים: יש לזהות היכן נמצאים אנשים בתמונה, לזהות את מיקום הראש, להתמקד באזור השפתיים, לעקוב אחר תנועות הראש תוך כדי דיבור, לזהות ככל האפשר את השפעתם של צללים ועצמים מסתירים, ולעבד את התמונה בצורה המנטרלת ככל האפשר את כל התנועות (פרט לתנועות השפתיים עצמן) ושינויי התאורה. מידע זה יועבר לתהליך של זיהוי ההברות שמבטא הדובר. תהליכים כאלה, כפי שכבר תואר, הם הסתברותיים, כך שלכל תנועה ישויכו כמה “ניחושים” אפשריים לגבי ההברה שבוטאה בה, ולכל ניחוש תשויך הסתברות.

השלב הבא הוא ניסיון להרכיב ניחושים אלה לפענוח עקיב של כל המילה הנאמרת – מה שדורש גם יצירת השערות עקיבוֹת לגבי הנקודות בזמן שבהן מסתיימת מילה אחת ומתחילה מילה חדשה. השערות אלו, בתורן, יכולות להנחות את תהליך הפענוח של ההברות הבאות או להביא לשינוי הערכת ההסתברות עבור הברות שכבר פוענחו. זהו כמובן השילוב הקלאסי של “מלמטה למעלה” ו”מלמעלה למטה” (bottom-up, top-down) הידוע גם מפסיכולוגיה קוגניטיבית, מחקר המוח וגם מתחומים אחרים בבינה מלאכותית.

אחד המשאבים שיעזרו למפתחים הוא הידע הרב שכבר נצבר על פענוח דיבור: גם שם קיים התהליך של זיהוי הסתברותי של הברות (ליתר דיוק, זיהוי פונמות: פונמה היא יחידה בסיסית של הגייה שעשויה להבדיל בין מילים, כלומר החלפה של פונמה אחת באחרת הופכת מילה אחת למילה שונה) ויצירת פענוחים עקיבים על-ידי שימוש במילון של מילים קיימות ושכיחותן.
מעֵבר לשימושים המשטרתיים, שאפשר לראות בהם תרומה לשיפור חייו של האזרח הישר אך גם איום על פרטיותו, מה עוד ייעשה אפשרי – לטוב ולרע – אם תעמוד לרשותנו תוכנה היכולה לקרוא שפתיים?

היסטוריונים יוכלו לנצל זאת כדי לסרוק מאגרים של סרטים אילמים, ובמיוחד “סרטים ביתיים” שצולמו בין 1920 ל-1970, שרובם לא כללו הקלטת צלילים (לאחרונה דווח על קריאת שפתיים ממוחשבת של סרטים שבהם צולם היטלר באחוזתו בהרי האלפים בזמן מלחמת העולם השנייה; התוכנה מצאה בין השאר קטע שבו היטלר מביע תיעוב כלפי הרמן גרינג).

אנשי שיווק ינסו לזהות מגמות ודעות לפי צילומי וידיאו ממצלמות שיוצבו באתרים הומי אדם. עיתונאים ינסו לגלות מה באמת אומרים פוליטיקאים כאשר המיקרופון סגור (זכורות התבטאויות שנקלטו במיקרופונים שלא בכוונת הדוברים, אצל פוליטיקאים ישראלים ואחרים), ו”פפראצי” ימצאו דרך חדשה לפלוש לפרטיותם של ידוענים. עם כל אלה, כאמור בראשית הטור, ייפתחו ערוצים חדשים לתיווך בין אדם לאדם ובין אדם לבין ציוד מחשוב ותקשורת.

פורסם במקור במגזין “גלילאו”

3 תגובות

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אתר זה עושה שימוש באקיזמט למניעת הודעות זבל. לחצו כאן כדי ללמוד איך נתוני התגובה שלכם מעובדים.