שיחות עם מכונות

כבר היום משוחחות תוכנות עם בני אדם ומובילות אותם למסעדה, לכתובת שחיפשו או לפגישה במשרד. אך עדיין יש גבול להבנת הנשמע, ואי הבנה יכולה להסתיים בכישלון מביך ואפילו מסוכן

מוח מלאכותי: איור ויקיפידיה. רשיון CC (ראו בתחתית הדף קישור למקור)

ישראל בנימיני | גליליאו

אם ובנה הקטן מגיעים למרפאה, ואת פניהם מקבל מסך מחשב. על המסך מופיעה דמות אישה, המייצגת תוכנה שמקבלת את הבאים. פני הדמות נראים כמכוונים את המבט אל האם ולאחר מכן אל הילד, והשפתיים נעות בתיאום עם קול הבוקע מהרמקולים: "ברוכים הבאים. אני בקשר עם הרופאים הטובים ביותר בעולם. האם את כאן בשבילך או בשביל הילד?"

זוהי הדגמה שפיתחה קבוצת המחקר של חברת מיקרוסופט בעבור הצורה שבה עשויים להתנהל בעתיד מרכזים רפואיים (ראו כאן). כדאי לשים לב כי התוכנה זיהתה שניגשו אליה שניים יחד, את מיקום הראשים של כל אחד, ולפי הבדלי הגובה החליטה שאחד מהם הוא ילד. כדי ליצור תחושה של אינטראקציה, הפנים משנות את הבעתן ואת כיוונן בהתאם לדברים הנאמרים.

האם אומרת "הילד. יש לו שלשול", והדמות המייצגת את התוכנה עונה: "אני מצטערת לשמוע זאת." לאחר מכן היא מפנה את המבט אל הילד, מבררת מה שמו וגילו ומוודאת עם האם כי המידע נקלט היטב, ואז שואלת את הילד "האם הרגשת עייף בזמן האחרון?" התוכנה ממשיכה לשאול עוד שאלות הרלוונטיות לתלונה, וביניהן: האם הופיעו כאבי בטן או חום? האם הילד איבד ממשקלו לאחרונה? התוכנה משתמשת במילים המתאימות לאדם שאליו היא פונה. לאחר שהיא שואלת את האם: "האם הוא התלונן על כאבי בטן?" והאם אינה בטוחה, שואלת התוכנה את הילד "כואבת לך הבטן, חמוד?" לבסוף היא אומרת לאם כי אין כל סיבה לדאגה, וקובעת תור לרופא ליום המחרת.

העוזר שיכול לנבא מתי תסתיים שיחת טלפון

את ההדגמה הזו פיתחה קבוצתו של אריק הורביץ (Horvitz), מדען בחברת מיקרוסופט, כדי להמחיש את הפוטנציאל של אינטראקציה בין בני אדם למכונות הנראות כבני אדם ומדברות כמותם. ליד הכניסה למשרדו של הורביץ מוצבת תוכנה דומה המתפקדת כמעין עוזר אישי: כשמגיע מבקר, התוכנה יכולה לומר לו אם הורביץ פנוי, נמצא בפגישה או מדבר בטלפון. היא יכולה גם לנבא מתי תסתיים שיחת הטלפון, כשהיא נעזרת בין השאר בהיסטוריה של שיחות טלפון אחרות שקיים הורביץ עם אותו אדם, ובפעילותו של הורביץ תוך כדי השיחה הנוכחית. (האם הוא משתמש במחשב במהלכה?)

התוכנה עשויה אפילו לפתוח בשיחת חולין עם המבקר, מזכירה לו מתי ובאיזה הֶקשר נפגש לאחרונה עם הורביץ ושואלת אם צפה במשחק ההוקי האחרון של הקבוצה העירונית. אם ההמתנה מתמשכת, היא יודעת לאילו שיחות אפשר להפריע (הורביץ התיר לתוכנה להפריע לשיחותיו עם בכירים במיקרוסופט…) ומתי הורביץ זקוק לריכוז מלא, למשל כאשר הוא מדבר עם שותפים למחקריו.

האישה שהתנדבה לתרום את פניה לתוכנה זו עובדת במיקרוסופט, ונתקלת לפעמים באנשים שמזהים אותה מהמסך שליד משרדו של הורביץ. היא מספרת שבדרך כלל זה משעשע אותה, אבל כשאותם פנים שימשו גם למשחק טריוויה שהוצב בקפיטריה של הבניין, היא חשה אי נוחות כאשר הדמות הווירטואלית שלה ניצחה אותה במענה על השאלות שהוצגו…

משלבת הבעות פנים ומשנה את טון וקצב הדיבור

התוכנה שפותחה במעבדתו של הורביץ מדגימה שילוב של ייצוג ויזואלי של פנים מדברות עם אינטראקציה בשפה אנושית. הפנים מוסיפות לשיחה אמינות ומוחשיות, ומאפשרות גם תוכן חדש של תקשורת לא מילולית על-ידי שליטה בהבעות הפנים הממוחשבות ובכיוון המבט. לצד התקדמויות אחרות בתחום התקשורת הלא מילולית, הכוללות הסקת מסקנות מתוך טון הדיבור והבעות הפנים של המשתתפים האנושיים בשיחה, הוספת גינונים אנושיים לדיבור הממוחשב (גיוון של הפרוזודיה – טון וקצב הדיבור, שילוב של הגיות לא מילוליות כמו "אה" ו"המממ.."), פיתוחים כאלה מביאים את השיחות עם מכונות לרמה גבוהה של הצלחה, לפחות בשימושים מסוימים.

מחקרים הראו כי ככל שהתוכנה כללה מאפיינים אנושיים יותר, המסר שהעבירה התקבל טוב יותר. המלצות בנושאי בריאות היו יעילות ביותר כשנתן אותן רובוט שנכח פיזית בחדר, פחות מכך כשניתנו על-ידי צילום וידאו של אותו רובוט, ופחות עוד יותר כאשר נתן אותן צילום סטטי של הרובוט שרק שפתיו נעו.

גם ללא התקדמויות אלו, טכנולוגיית האינטראקציה המדוברת כבר מגיעה להישגים מרשימים. טכנולוגיה זו מאפשרת כבר כמה שנים ללקוח של חברת תעופה להתקשר ולומר למענה הממוחשב: "אני רוצה שני מקומות במחלקת תיירים בטיסה מחרתיים מדנבר לשיקגו", גם אם יבחר סדר אחר של מילים, יהסס, יחזור על עצמו וכו' (אם מילה כלשהי לא תובן או שהלקוח לא יציין פרט חשוב, התוכנה תדריך אותו בשאלותיה).

כיום התוכנה אינה מחייבת התקנה על שרתי מחשבים גדולים ומהירים: הדור החדש של מערכת הבידור והתקשורת SYNC, שמתקינה חברת פורד בחלק מהמכוניות שהיא מייצרת, מסוגל להבין מגוון רחב של פקודות: בחירת כתובת על-ידי אמירות כמו "המסעדה האיטלקית הקרובה ביותר" או "רחוב 14 פינת השדרה השישית, ניו-יורק", ולאחריה "קח אותי לשם"; בחירת מוזיקה שאפשר לשמוע ברדיו או לשלוף מהתוכן המאוחסן במכונית על-ידי אמירת שמו של ערוץ רדיו, או של שיר (או אמן, או תקליט); ושאילתות כמו "תוצאות ספורט עדכניות" או "מחירי דלק". יכולות אלה זמינות בשפות רבות – אנגלית (אמריקנית ובריטית), צרפתית (אירופית וקנדית), ספרדית, פורטוגזית (אירופית וברזילאית), גרמנית, איטלקית, הולנדית וסינית-מנדרינית.

מבינים אפילו רומנטיקה

דוגמה נוספת לתוכנה שאותה מפעילות שאילתות קוליות היא סירי (Siri), אפליקציה למכשירי אייפון. אפליקציית סירי אינה מפענחת בעצמה את הנאמר: היא מקליטה את הבקשה ואז שולחת אותה לשרתי מחשבים של חברת Nuance (החברה שפיתחה את הטכנולוגיה של SYNC). מחשבים אלה "מתרגמים" את הנאמר לטקסט הנשלח לשרתי המחשבים של חברת סירי, ואלה מבצעים את השלב הבא: ניחוש מושכל של כוונת הדובר וביצוע בקשתו.

אם הבקשה היא "הזמֵן שני מקומות במסעדה רומנטית במרחק הליכה מביתי למחר בשמונה בערב", תפנה התוכנה לאתרי אינטרנט העוסקים ברישום ודירוג מסעדות, תסנן את המסעדות לפי מיקום (סירי יודעת היכן גר המשתמש ומה נחשב כ"מרחק הליכה"), ותחפש מסעדות שבתיאורן או בביקורות הגולשים עליהן מופיעה המילה "רומנטי". לאחר מכן היא תבדוק, בעבור המסעדות שעמדו בקריטריונים אלה, האם אפשר להזמין מקום ביום ובשעה הרצויים, על-ידי פנייה לאתרי אינטרנט המספקים שירות של הזמנת מקומות.

בתיאור זה אפשר לראות כיצד העבודה מחולקת בין מחשבים ותוכנות, שאת כל אחד מהם מפעילה חברה אחרת ובמודלים עסקיים מגוונים, תוך כדי שימוש בכך שכולם זמינים ב"ענן" של שירותים מבוססי אינטרנט.

תוכנה שבירה

כמו אנשים, התוכנות המתוארות כאן מסוגלות גם לטעות. בכתבה בעיתון "ניו-יורק טיימס" מוזכר משתמש של סירי שביקש להזמין מקום במסעדה יפנית מסוימת, אך סירי טעתה בהבנת שם המסעדה והפנתה אותו לשירות ליווי המתמחה בנערות אסיאתיות (המשתמש נשבע לכתב העיתון שלא זו היתה כוונתו).

ההשלכות של אי הבנה יכולות להיות גם קשות יותר, במיוחד כאשר המערכת מגיעה לגבול היכולת שלה. נדמיין אדם המתקשר למערכת הממוחשבת של חברת התעופה ומבקש להוביל מטען מניו-יורק ללונדון: כלב בגודל בינוני. אם התוכנה אינה יודעת שאין זו בקשה רגילה, היא עשויה להתייחס רק לגודל ומשקל החבילה בלי להתייחס לתנאי הסביבה הנדרשים לכלב, לחוקים המסדירים הכנסת בעלי חיים לאנגליה וכו'. ייתכן כי גם פקיד אנושי לא היה יודע מהו התהליך הנדרש, אך הוא ודאי היה יודע כי זהו מקרה חריג, שיש להעבירו לטיפול של גורם מתאים בחברת התעופה. לתוכנות של היום קשה הרבה יותר לדעת מתי הן חוצות את גבול היכולת וההבנה שלהן.

התכונה של מערכת הפועלת בהצלחה בתוך תחומים מסוימים אך נכשלת ללא אזהרה מחוץ לאותם גבולות נקראת "שבירות" או "פריכות" (brittleness). מגבלה זו נעשית מסוכנת יותר ככל שאנו נותנים יותר אמון באותה מערכת: כאשר האופי הממוחשב של המערכת ברור ובולט, כפי שקורה בדיאלוג טלפוני מהסוג של "להזמנות לחץ 1, לבירורים לחץ 2", המשתמש האנושי מפתח ציפיות נמוכות וייזהר מלחרוג מגבולות התוכנה (הוא כמובן אינו מכיר בדיוק את הגבולות, אך בדרך כלל יצמצם את ציפיותיו עוד הרבה מעבר לנדרש). ככל שהאינטראקציה נעשית טבעית ונוחה יותר, קל יותר להעביר את נטל ההבנה והזהירות אל המערכת. מבחינה זו, תוכנות המבינות ונעזרות בשינויי טון והבעת רגשות בדיבור, הבעות פנים וכו' עשויות לגרום לאדם העומד מולם להתייחס אליהן כאילו גם הן אנושיות.

בעיות אלו מסבירות מדוע התוכנה שהזכרנו בפתיחת הדברים ושמשמשת כמזכירה רפואית היא רק הדגמה: מה יקרה אם התוכנה טועה כאשר היא קובעת תור לבדיקה למחרת, ואינה מזהה מצב הדורש טיפול מיידי? אם התוכנה טעתה ובכך גרמה לתוצאות שליליות, מיהו האחראי לנזקים מבחינה משפטית – המתכנת? הרופא שסיפק את הידע לתוכנה? הרופא שהציב את התוכנה במשרדו?

ככל שהתוכנה משכנעת יותר ומצליחה יותר, כך התרומה שלה עשויה להיות משמעותית יותר. לרוע המזל, גם הסכנות הכרוכות בכישלונות התוכנה עשויות להיות גדולות יותר. כדי להתגבר על מחסומים כאלה, התוכנה צריכה אולי לא רק להפעיל היגיון אלא גם לחשוב. זהו כמובן האתגר הגדול והרחוק של תחום הבינה המלאכותית כולו.

ישראל בנימיני עובד בחברת ClickSoftware בפיתוח שיטות אופטימיזציה מתקדמות

הכתבה המלאה התפרסמה במגזין גליליאו, אוקטובר 2010

קישור למקור התמונה