זיהוי ממוחשב

חוקרי בינה מלאכותית עובדים על האפשרות ללמד מחשבים לזהות את ארץ המוצא של אדם באמצעות ניתוח המבטא שלו

דוברי שפות שונות (או שלא) קנצלרית גרמניה אנגלה מרקל ומושל קליפורניה ארנולד שוורצנייגר בתערוכת סביט 2009. צילום: יחסי ציבור

ישראל בנימיני | מגזין גליליאו

לעתים קרובות אנו מצליחים לנחש את ארץ המוצא של אדם לאחר שנשמע אותו אומר רק כמה מילים. כמו יכולות אנושיות רבות, גם יכולת זו זוכה כעת לתשומת לבם של חוקרי בינה מלאכותית, השואפים ללמד מחשבים כיצד להתחרות בכישורי זיהוי המוצא האנושיים.

לאחרונה הציגה מעבדת לינקולן של המכון הטכנולוגי של מסצ'וסטס (MIT) תוכנה העושה צעד משמעותי בכיוון זה. התוכנה, שאותה פיתח פדרו טורס-קרסקווילו (Torres-Carrasquillo) ושותפיו בקבוצת טכנולוגיות מערכות מידע במעבדת לינקולן, יכולה להבדיל בין זוגות מבטאים נתונים. לדוגמא, אנגלית במבטא "כלל-אמריקאי" מול אנגלית במבטא הודי, או ספרדית של ילידי קובה מול ספרדית של ילידי פורטו-ריקו.

לדבריו של טורס-קרסקווילו, זוהי התוכנה הראשונה המצליחה להבדיל בצורה אוטומטית בין מבטאים שונים באותה שפה (להבדיל מתוכנות המספקות אנליזה של דגימות הדיבור למומחה אנושי, כדי לעזור לו להבדיל בין מבטאים). הישג זה הוא צעד נוסף בהתקדמות הרבה שהושגה בשנים האחרונות בזיהוי אוטומטי של שפה מדוברת. הבעיה המקבילה – זיהוי השפה שבה נכתב טקסט − קלה יותר, וקיימים בעבורה פתרונות רבים. דוגמה לתוכנה כזאת היא TextCat ,השואפת לזהות 69 שפות שונות מתוך טקסט כתוב, כולל אידיש, וֶלשית וטאמילית. אחד השימושים של פתרונות אלה הוא במנועי חיפוש, כדי לעזור למשתמש לחפש טקסטים בשפה מסוימת או כדי להציע תרגום לשפתו של המשתמש.

מודלים של שפה

TextCat משתמשת בטכניקה הנקראת "N-Gram". בטכניקה זו אפשר לאפיין את התכונות הסטטיסטיות של טקסט בשפה מסוימת על-ידי חישוב ההסתברות של הופעת סדרת אותיות באורך N, בעבור כמה ערכים של N, על-ידי סריקת טקסטים אופייניים באותה שפה. כאשר N=1, ההסתברות מבטאת את שכיחות האותיות בשפה הנתונה. לדוגמא, האות q מופיעה באנגלית בשכיחות של כ-0.1%, אך שכיחותה בספרדית היא 0.9% ובצרפתית 1.4%. לכן, אפשר להשתמש בשכיחות האות q בטקסט שאנו רוצים לזהות כדי לבחור בין ההשערות כי הטקסט כתוב באנגלית, בצרפתית או בספרדית (בכמה שפות אחרות הנכתבות באלפבית הלטיני, כמו טורקית, q אינה קיימת כלל). כמובן שבצורה דומה אפשר להשתמש גם בשכיחויותיהן של אותיות אחרות.

לניתוח לפי שכיחויות אותיות יש שימושים רבים (כמו בהצפנה, כפי שתיאר אדגר אלן פו בסיפורו "חיפושית הזהב" כבר בשנת 1843), אך אין בו די בעבור זיהוי שפות, מכיוון שהבדלי שכיחויות של אותיות בודדות בשפות השונות עלולים להיות לא מספיקים עבור הבחנה בין שפות קרובות.

לשם כך, יש צורך להשתמש גם בערכי N גבוהים יותר: ניתוח בעבור N=2 נותן את השכיחות של זוגות אותיות (לדוגמא, באנגלית שכיחות הזוג "TH" גבוהה פי 15 משכיחות הזוג "HT"), N=3 עוסק בשלשות של אותיות וכו'. ככל ש-N גדול יותר, טבלת השכיחויות גדולה יותר, וחלק מהסדרות הופך להיות נדיר מכדי לשמש בניתוח סטטיסטי של הטקסט הקצר שברצוננו לשהות, ולכן יש לבחור בקפידה את N ו"לדחוס" את הטבלאות כדי לכלול רק את המקרים השימושיים מבחינה סטטיסטית. (הערה: באלפבית המשמש את השפה האנגלית יש 26 אותיות אבל 262=676 זוגות אותיות ויותר מ-17,000 שלשות; נכון אמנם כי לא כל האפשרויות קיימות באנגלית – לדוגמא, לאחר q תבוא רק u – אך יש להתייחס גם לסימני פיסוק, ובראשם הרווח המפריד בין מילים.

כאשר מנתחים אוסף של טקסטים הידועים כשייכים לשפה נתונה בשיטה כמו N-Gram, מתקבל "מודל של השפה". מודל זה כמובן מחמיץ כמעט כל מה שחשוב בעבור אותה שפה לבלשן או למשתמש בשפה, וּודאי שאינו מכיל אף רמז על תחביר (שלא לדבר על דקדוק). למרות זאת, זהו "מודל מלא" של השפה, כלומר הוא מכיל את כל המאפיינים של השפה שאפשר לזהותם מתוך נקודת המבט של שכיחות ההופעה של סדרות אותיות (ולכן אפשר להשתמש במודל, לפחות כשעשוע, כדי לייצר טקסטים מתוך טבלאות השכיחויות על-ידי בחירה של האות הבאה לפי ההסתברות של הופעת כל אות לאחר האותיות שכבר בחרנו; בעבור N=4 מתקבל בדרך כלל טקסט שרבות ממילותיו אינן מובנות, אך הנראה לקורא האנושי כשייך לשפה שממנה נוצר המודל).

לאחר שנוצר מודל כזה בעבור כמה שפות, אפשר לזהות טקסט בשפה שאינה ידועה על-ידי ניתוח שכיחות ה-N-Grams באותו טקסט והשוואת שכיחויות אלו לשכיחויות שאותן מבטאים המודלים הידועים של השפות ה"מועמדות" (אותן שפות שבעבורן יש ברשותנו מודל). מכיוון שלא סביר כי נמצא מודל בעל שכיחות הזהה בדיוק לזו שבטקסט שלפנינו, נשתמש בכלים סטטיסטיים כדי לחשב את ההסתברות כי הטקסט מתאים לכל אחת מהשפות המועמדות.

זיהוי על-ידי מודל חלקי

לפי טורס-קרסקווילו, גישות היוצרות מודל מלא של השפה אינן מתאימות לזיהוי של מבטא. הוא מצביע על כך שהמודל אינו נדרש "להיראות כמו הנתונים" (באותו מובן שהמודל הנוצר על-ידי חישובי שכיחות של סדרות אותיות "נראה כמו" הטקסטים שנלקחו מהשפה הנתונה, כלומר שהמודל מייצג את התכונות הסטטיסטיות של שכיחויות באותה שפה). במקום זאת, מספיק שהמודל יוכל להבדיל בין שפות, אפילו אם הוא משתמש לצורך כך רק בחלק קטן מהתכונות של כל שפה.

לדוגמא, צלילי תנועה בספרדית קובנית ארוכים במקצת מהצלילים המקבילים בספרדית פורטוריקאית. לרוע המזל, קשה מאוד למצוא הבדל יחיד כזה שהוא גם משמעותי דיו כדי להבדיל בהסתברות גבוהה בין שני מבטאים וגם שכיח עד כדי כך שיהיה סביר למצוא אותו גם בקטעי שיחה קצרים. לכן יש למצוא אוסף של הבדלים כאלה, וכרגע השיטה אינה כללית: היא מחייבת יצירה של מנגנון הבחנה בעבור כל זוג מבטאים. מטרתם של החוקרים היא להגיע לתהליך כללי שיוכל להבדיל בין מבטאים רבים בצורה אמינה.

עבודתם של החוקרים מ-MIT שונה ממחקרים קודמים של אותה מעבדה בתחום זיהוי השפה בכך שהיא משתמשת ביחידות צליל קטנות יותר. המחקרים הקודמים ניתחו את דגימות הצליל ברמת הפונֶמה (phoneme – יחידה בסיסית של הגייה) והצורה שבה נהגית הפונמה במבטאים שונים (צורות שונות של הגיית אותה פונמה, בצורה שאינה משנה את משמעות המילה הנהגית, נקראות אלוֹפוֹנים – Allophones). באנלוגיה לשיטת זיהוי הטקסט הכתוב, המחקרים הקודמים התייחסו לפונמות כאילו היו האותיות של השפה המדוברת, ושאפו לזהות שפות ומבטאים לפי תכונות של פונמות וסדרות פונמות.

המחקרים החדשים "מפצלים את האטום" ובוחרים באותיות קטנות יותר: קטעים קצרים, באורך כמה אלפיות שנייה, שנדגמים מתוך הדיבור. שיטה זו משפרת את היכולת להבדיל בין צורות הגייה שונות במקצת של אותה פונמה (אלוֹפוֹנים) ומעלה את ההסתברות של זיהוי מבטא מתוך קטעי שיחה קצרים. כפי שניווכח בהמשך, קיימות סיבות מעשיות לצורך לזהות מבטא מוקדם ככל האפשר במהלך השיחה.

שילוב של GMM עם SVM

כדי לגלות דרך להבדיל בין מבטאים, הדגימות הקצרות מנותחות בטכניקה מקובלת בעיבוד אותות: זיהוי התדרים שמהם מורכבת כל דגימה, כך שהספקטרום של התדרים המשתתפים בדגימה הופך לתבנית המייצגת את הצלילים שהושמעו בשיחה באותן מילי-שניות (הטכניקה גם מנסה לאזן את ההבדלים בין גובה הקולות של דוברים שונים המדברים באותו מבטא).

מכיוון שלכל דגימה יש תבנית שונה במקצת של עוצמת התדרים המרכיבים אותה, האנלוגיה לאותיות רחוקה מלהיות מושלמת: ברוב השפות יש רק עשרות בודדות של אותיות, ובכל מקרה יש הבדלים ברורים בין כל זוג אותיות אפילו אם נכתבו בגופן שונה, אבל כל תבנית של צליל מדובר שונה מכל תבנית אחרת, וקשה לאתר את המקום המדויק שבו סוג תבנית אחד גובל בסוג אחר: המעברים הם רציפים. לכן נדרשות טכניקות סטטיסטיות ומתמטיות מתקדמות יותר מאשר טכניקות כמוN-Gram המשמשות לזיהוי שפה כתובה.

החוקרים של מעבדת לינקולן ב-MIT משתמשים בשילוב של שתי טכניקות כאלה, הזוכות לפופולריות רבה בשנים האחרונות: GMM (Gaussian Mixture Models) ו-SVM Support Vector) Machines). שתי השיטות מציגות כל תבנית כאוסף של מספרים, כך שאם 20 מספרים מייצגים כל דגימה, אזי אפשר לחשוב שנקודה אחת במרחב בן 20 ממדים מבטאת את הדגימה. המטרה היא למצוא דרך להבדיל בין הנקודות המבטאות דגימות מתוך מבטא אחד לנקודות המשויכות למבטא אחר. לשם כך יש לחלק את המרחב בין אזורים שמכילים אך ורק (או כמעט אך ורק) נקודות המייצגות דגימות של מבטא אחד ובין אזורים המכילים נקודות המשויכות למבטא השני.

GMM ו-SVM שונים בייצוג המתמטי של חלוקת המרחב ובדרך שבה מחושבת החלוקה האופטימלית. בעבור תוכנה זו, שיטת GMM אטית יותר אך מדויקת יותר מ-SVM, ושילוב שתי השיטות נמצא כמדויק ביותר – רמת השגיאות עמדה על 7% בלבד. מעניין מהי רמת השגיאות של מומחה אנושי…

שימושים מעשיים – פחות פרטיות, יותר ביטחון?

כאמור, התוכנה החדשה מצטרפת לפתרונות שכבר קיימים לזיהוי שפה, בין שהיא מדוברת ובין שהיא כתובה. אפשרות נוספת היא לזהות שפה מתוך צילומי וידאו של הדוברים, גם ללא הקלטת הצלילים עצמם. תוכנה לקריאת שפתיים, שפותחה באוניברסיטת מזרח אנגליה (UEA: University of East Anglia). מאפשרת לזהות את השפה המדוברת. אחד מראשי הקבוצה שפיתחה את התוכנה, פרופ' סטיבן קוקס (Cox), ציין כי הממצאים התאימו לאינטואיציה שלפיה גם כאשר אותו אדם דובר שפות שונות, תנועות הפנים שלו יהיו שונות משפה לשפה. לדוגמא, התוכנה מצאה כי "עיגול שפתיים" נפוץ יותר בזמן דיבור בצרפתית, בעוד שדיבור בערבית כולל תנועות לשון מודגשות יותר.

מעבר להצלחה האקדמית ולהתקדמות בחיקוי עוד יכולת שהיתה בעבר נחלתם הבלעדית של בני אדם, לתוכנות כאלה יש גם שימושים מעשיים. לפחות מקצת משימושים אלה קשורים למעקב ולהאזנה. הדוגמא הראשונה, המופיעה בדיווח לעיתונות על התוכנה לזיהוי המִבטאים, עניינה קצין משטרה אמריקאי המיירט שיחה בספרדית שבה מקבל סוחר סמים הודעה על משלוח חדש. השוטר מזהה כי משגר המשלוח דובר ספרדית במבטא דרום-אמריקאי, אך אם היה יכול לשייך את המבטא למדינה ספציפית, היה יכול להשתמש במידע זה כדי להנחות את המשך החקירה.

אותו דיווח לעיתונות מזכיר גם את התרומה הפוטנציאלית של זיהוי המִבטא למערכות תרגום אוטומטיות בין שפה לשפה, כדי שמערכות כאלה יטעו פחות בהבנת המילים וייעזרו בניואנסים המועברים בין בני אדם בעזרת המבטא. ברור כי כל עוד מערכות תרגום אוטומטי הן עדיין בגדר מדע בדיוני, מרבית המימון והמוטיבציה לפיתוח של זיהוי מבטאים יבואו מתחומי אכיפת החוק וההתגוננות מפני טרור.

בצורה דומה, זיהוי שפת הדובר בצילומי וידאו, כמו תוכנת קריאת השפתיים שפיתחה אותה קבוצה, עשוי לאתר במצלמות אבטחה (שבהדרגה מכסות חלקים גדולים מהמרחב הציבורי) אנשים בעלי מאפיינים אתניים אשר רשויות האכיפה והביטחון קושרות אותם לקבוצות פשע וטרור, אפילו כאשר הרוב המוחלט של הנמנים עם קבוצות אתניות אלה חפים מכל פשע. מצד אחד, זוהי עוד עליית מדרגה ביכולת ההגנה על הציבור, ומצד שני חדירה מדאיגה לפרטיות של לפחות חלק מאותו ציבור. בדילמה זו, כל מדינה בוחרת לעצמה את האיזון שנראה להנהגתה כנכון וכמוסרי ביותר, אבל כלל לא ברור האם ההנהגה מספקת לאזרחי המדינה מידע על תהליך ההחלטה ותוצאותיו.

גם אם היינו חיים בעולם אוטופי שבו איומים של פשיעה וטרור אינם קיימים, כדאי היה לתת את הדעת על כך שברוב המקרים העובדה שאנו מזהים את מבטאם של אנשים אחרים עלולה להוביל אותנו למסקנות סטריאוטיפיות – חיוביות או שליליות – על אותם אנשים.

גם כאשר זיהוי המוצא אינו מוביל לגזענות, נדרשת לעתים החלטה מודעת כדי להתעלם מהסטריאוטיפים המקובלים ולהתמקד בפרט העומד לפנינו. כיום, רוב האינטראקציות שלנו עם מחשבים ותוכנות אינן חושפות אותנו לסכנה זאת, כפי שמבטאת הקריקטורה שבה נראה כלב היושב מול מסך מחשב ואומר לחברו "באינטרנט, אף אחד לא יודע שאתה כלב". עם זאת, אפשר כבר עתה למצוא לפעמים טיפול שונה על רקע מוצא או מצב חברתי, כמו אתרי אינטרנט המסרבים למכור או לספק מידע לגולשים הגרים במדינות מסוימות, או חברות ביטוח שתוכנות הערכת הסיכון שלהן מתבססות על נתונים סוציו-אקונומיים, כולל מקום מגורים. האם יהיה זה נכון ללמד את המחשבים שלנו גם כיצד לזהות מוצא ומבטא, בצורה שעשויה להוביל להתנהגות בהתאם לאותו זיהוי?

ישראל בנימיני עובד בחברת ClickSoftware בפיתוח שיטות אופטימיזציה מתקדמות