סיקור מקיף

הפתעה מלאכותית

מהי הפתעה, מה חשיבותה, מודלים קוגנטיביים ורגשיים, ואיך עולם התוכנה משתלב בתהליך

הרובוט דומו
הרובוט דומו

הפתעה היא תגובה למצב שלא צפינו אותו מראש. אם אין לך כל ציפייה לגבי העתיד, לא תוכל להיות מופתע, אבל קשה לדמיין קיום כזה. לצפות איך יתפתח המצב בעתיד, לתכנן לפי ציפיות אלו, לבדוק אם הציפיות התממשו ולתקן את התכניות בהתאם – תיאור זה ממצה מגוון רחב של התנהגויות של חיות ושל בני-אדם, וכן של פעולות של מערכות מכניות ואלקטרוניות.

בלא ניבוי המצב העתידי לא נוכל להתאים את תכניותינו למצבים שבהם סביר שנמצא את עצמנו. הצורך להשוות בין התוצאה שנצפתה לבין התוצאה שקרתה בפועל נובע מכך שהידע שלנו אינו מושלם, ולכן גם הניבויים שלנו אינם יכולים להיות מושלמים. למעשה, יש סיבות תיאורטיות לחשוב שניבויים אינם יכולים כלל להיות מושלמים – אם כתוצאה מהאקראיות של פיזיקת הקוואנטים ואם כתוצאה מהמתמטיקה של מערכות כאוטיות, שמופיעה גם בפיזיקה הקלאסית.

החשיבות שבגורם ההפתעה

התנהגות של ניבוי ותיקון אינה חייבת להיות מסובכת: לדוגמה, נניח כי שלב מסוים בתהליך הייצור דורש מרובוט תעשייתי להזיז את הזרוע 25 מעלות ימינה. התוכנה תחשב כי כדי להגיע לתזוזה כזו, יש להפעיל את המנוע המתאים בסדרה של 1,500 אותות ספרתיים, שכל אחד מהם מקדם את הזרוע בשיעור קטן בכיוון הנכון.

מתכנני הרובוט לא יסתפקו בכך: הרובוט כולל גם חיישן אחד לפחות המודד את מיקום הזרוע בפועל. תוך כדי התנועה, התוכנה תשווה את המקום שבו צפויה להיות הזרוע (לפי האותות שנשלחו למנוע) עם המקום שבו נמצאת הזרוע לפי הדיווח מהחיישן. ייתכן שיידרש תיקון קל, כתוצאה מכך שאף אחד ממרכיבי המערכת אינו מושלם. מנגנון תיקון כזה הוא מנגנון משוב קלאסי.

נניח שאכן, כתוצאה מהמשוב, יופעל המנוע ב-1,498 אותות במקום ב-1,500 עד להגעת הזרוע למיקום הנדרש. אם “טעות” כזו (של רק מעט יותר מעשירית האחוז) היא בתוך תחומי התכנון המקורי, סביר שרוב האנשים יסכימו כי זוהי פעולה תקינה שלא תפתיע את מתכנני הרובוט – או את הרובוט עצמו, אילו היתה לו יכולת להיות מופתע.

אבל ייתכן גם מצב אחר: לאחר שעברה שליש מהדרך, הזרוע עוצרת ואותות נוספים אינם גורמים לה להמשיך בדרכה. זהו מצב שאינו צריך לקרות. מה היינו רוצים שהרובוט יעשה במצב כזה? האם על התוכנה להמשיך לנסות להפעיל את מנועי הרובוט כדי להביא את הזרוע ליעדה? נראה שעדיף לעצור את התהליך, ואף להסיט חזרה את הזרוע, כפי שקורה כאשר דלתות המעלית מתחילות להיסגר ונתקלות במכשול, וכפי שקורה לנו – הרבה יותר מדי פעמים – עם מערכת ההפעלה במחשב. אפשר גם לדמיין רובוט משוכלל מפנה מצלמות אל האזור הבעייתי כדי לנסות לפענח מה גרם לעצירה. אילו היה זה אדם שהיה עוצר פעולה שגרתית כאשר זו לא התפתחה בצורה הנורמלית, מסלק את ידיו מהמקום שבו היו ומפנה את כל תשומת לבו אל אותה פעולה, היינו מפרשים את התנהגותו כגילוי של הפתעה.

אם כך, אפשר לראות את ההפתעה כמשרתת צורך חשוב: הצורך לגלות כי קרה משהו השונה מהותית מכל מה שציפינו לו; להגיב תגובה מהירה עוד בטרם פענחנו את השוני ואת הסיבה – מכיוון שייתכן כי שוני זה מהווה סיכון לנו או להצלחת המשימות שאנו מנסים לבצע; ולגייס משאבים כדי להבין את המצב וליצור תכנית פעולה חדשה. משאבים אלו עשויים להיות קוגניטיביים (הפניית קשב), סנסוריים (הפניית חיישנים), מוטוריים (הפעלת תנועות מתאימות) או אנרגטיים. ברור שהפניה כזו של משאבים משפיעה על פעולות אחרות המתבצעות באותו הזמן, ועשויה להגביר את צריכת האנרגיה או ליצור סיכונים נוספים (למשל: כאשר הצורך במידע נוסף מחייב את החיה הניצודה להוציא את ראשה מהמחבוא). לכן, ההפתעה גוררת תגובה של עוררות כללית המשפיעה על כל מרכיבי ההתנהגות, ומביאה פעילות שגרתית אל “אור הזרקורים” של המודעוּת והתכנון.

מודלים קוגניטיביים של הפתעה

בכנס העשרים של IJCAI (International Joint Conference on Artificial Intelligence), הכנס הבינלאומי לבינה מלאכותית, שנערך בהודו בינואר 2007, הוצג מאמר בשם “הפתעה כקיצור-דרך לציפייה”. המאמר, מאת מישל פיונטי (Piunti), כריסטיאנו קסטלפרנצ'י (Castelfranchi) ורינו פלקונה (Falcone) מהמכון למדעים וטכנולוגיות קוגניטיביים באיטליה, מציע מודל התנהגותי שבו ההתנהגות אינה מבוססת רק על למידה סטטיסטית, אלא גם על ייצוג של “אמונות”, “מטרות” ו”ציפיות”.

למידה סטטיסטית מקשרת בין פריטי מידע כך שאפשר להשתמש בקישור כזה לניבוי: אם ב-80% מהמקרים שבהם רובוט עבר באזור X הוא מצא שם חפצים מהסוג שהוטל עליו לאסוף, כאשר הרובוט יבחן פעולות שונות הוא יוכל לדרג את הפעולה “תנועה לכיוון X” כבעלת עדיפות גבוהה, כתוצאה מהערכה כי יש סבירות גבוהה שיוכל למצוא שם את הפריטים שהוא מחפש. ההבדל בין למידה כזו לבין יצירת “אמונה” (belief) הוא עדין אך משמעותי: קשר סטטיסטי יכול להיות בעל חוזק כלשהו, וכל פריט מידע נוסף יכול להקטין או להגדיל את חוזק הקשר. לכן קשה להגדיר איזה מידע חדש יכול להיות מוגדר כהפתעה. לעומת זאת, “אמונה” מעלה את הקשר לדרגת ניבוי, כך שכל פריט מידע הסותר את הניבוי יהווה הפתעה. מובן שלא כל אמונה חזקה באותה מידה, וככל שהאמונה “חזקה” יותר, מידע הסותר אותה צריך להוות הפתעה גדולה יותר.

לפי המודל הפסיכו-אבולוציוני של וולף מאייר (Meyer), המהווה חלק מהתשתית התיאורטית של מחקר זה, אירועים הגורמים להפתעה מפעילים את התהליך הזה: ראשית, המידע מהחושים או מהחיישנים מזוהה כמהווה הפתעה מעבר לסף מסוים. כתוצאה מכך, מופסקים או מעוכבים תהליכים קוגניטיביים אחרים, כדי להפנות משאבים לחקירת האירוע. במקביל לחקירת האירוע, ננקטות גם פעולות מיידיות המכוונות לאיסוף מידע נוסף (כמו זקיפת אפרכסות האוזניים בחיות רבות) או להיערכות למשמעויות אפשריות של ההפתעה (לדוגמה, יצורים שבהם התגובה הראשונה לרעש מפתיע היא היצמדות לקרקע וקפיאה במקום). בהמשך, כתוצאה מחקירת המידע הראשוני והמידע הנוסף שהתקבל, מתעדכנות האמונות וכתוצאה מכך נוצרות ציפיות חדשות ומטרות חדשות.

מודלים רגשיים של הפתעה

המודל של שילוב הרגשות בתהליך קבלת ההחלטות קיבל תימוכין גם מעבודתם של חוקר המוח אנטוניו דמסיו (Damasio) וקבוצתו. הם טוענים כי המוח קורא את התגובות הרגשיות (כמו דופק והזעה) ואז מגיע להחלטה, שהיא בדרך-כלל נכונה. אם מערכת קריאה ואינטגרציה זו, האונה הקדם-מצחית, נפגעת, האדם יודע להסיק מסקנות תיאורטיות נכונות, אך נוטה לטעויות קשות ביישום של המסקנות לגבי עצמו.

בעשור האחרון נוצרו בסיסים תיאורטיים וניסוייים להבנת התפקיד של רגשות בקבלת החלטות וביצירת ציפיות. מחקרים בנוירו-פסיכולוגיה ובתחום החדש של נוירו-כלכלה ( Neuroeconomics – המפגש של מדעי הכלכלה עם מדעי המוח) מראים כי רגשות יכולים לשמש כמנגנון המפעיל עוררות ועוזר לעבור במהירות בין התנהגויות, כמו למשל בין איסוף מידע, איסוף מזון או תגובות הגנתיות. זוהי הכוונה בביטוי “קיצור-דרך” בכותרת המאמר: כפי שהתברר לכלכלנים בעשורים האחרונים, גם במקרה הלא-מציאותי של קיום מידע מושלם, מגבלות של זמן ומשאבים קוגניטיביים אינן מאפשרות ניתוח מלא והסקת כל המסקנות ה”מתחבאות” באותו מידע. מצבים רגשיים כמו הפתעה משמשים כאסטרטגיה לניהול יעיל של חלוקת הזמן והמשאבים בין ניתוח לבין פעולה, כאשר המידע אינו שלם, ואפילו המידע שכבר הושג, ניתוחו עדיין לא הושלם במלואו.

הסוכן והמאורה

כדי לבחון את האפקטיביות של מודלים אלה, החליטו פיונטי ועמיתיו למחקר להתחיל בהגדרה של סביבה פשוטה ושל “סוכנים” פשוטים הפועלים בתוכה. “סוכן”, בהקשר זה, הוא עצם – וירטואלי או פיזי – שיש לו יכולת לאסוף מידע, לפעול על פי המידע שקיבל וליצור אינטראקציה עם סביבתו. החוקרים יצרו תוכנה המדמה סביבה וירטואלית המיוצגת במפה דו-ממדית, שבה קירות ומכשולים מגבילים את מסלולי התנועה האפשריים. בשלושה אתרים בתוך סביבה זו מופיעים שלושה סוגי “מזון”, בתדירות שונה. לכל סוג מזון יש טיב שונה עבור הסוכן. מטרת הסוכן היא לנוע על המפה, למצוא מזון ולהביא אותו למקום מוגדר (שאפשר לחשוב עליו בתור “המאורה”). כאשר המזון מגיע למאורה, הסוכן מרוויח אנרגיה שכמותה תלויה בכמות המזון, בטיב המזון ובזמן שעבר מרגע האיסוף עד רגע הגעתו למאורה.

הסביבה כוללת גם סכנות, שבמקרה זה מוגדרות כ”מדורות”. מדורות מופיעות בתחילה כ”עשן”, המשמש כאזהרה, ואז מתפתחות ל”להבה” היכולה להזיק לסוכן בכך שהיא מפחיתה מהאנרגיה שלו. מדורות נפוצות יותר בחלקים מסוימים של המפה מאשר באחרים. מדורה שהופיעה במפה יכולה גם לנוע ולהגיע למקומות אחרים.

בכל רגע, הסוכן יכול להחליט באיזו מהירות לנוע וכמה אנרגיה להפנות לחיישניו. ככל שהחיישנים מקבלים אנרגיה גבוהה יותר, הם יכולים לחוש מוקדם יותר בסכנות ובמזון. מובן שגם תנועה מהירה צורכת אנרגיה רבה יותר מאשר תנועה אטית. כאמור, תנועה מהירה עשויה להביא את המזון מהר יותר למאורה ולכן להגדיל את רווח האנרגיה. אפשר להסיק, אם כן, שאף שהסביבה שתוארה כאן פשוטה לאין שיעור מסביבות “אמיתיות”, היא מספיק מורכבת כדי ליצור אתגרים קשים לתכנון ולהתנהגות.

סוכן בעל מצבים רגשיים

המאמר מציג השוואה בין שני סוכנים. הסוכן הראשון קיבל את השם SEU (Subjective Expected Utility), משום שבכל רגע הוא בוחר מבין הפעולות האפשריות (תנועה, שינוי מהירות, שינוי האנרגיה המוקצית לחיישנים, איסוף מזון וכו') אותה פעולה הצפויה להביא לתועלת (utility) הגבוהה ביותר, לפי הידע החלקי והסובייקטיבי של אותו סוכן.

הסוכן האחר קיבל את השם MS (Mental States) כי נוסף על מנגנון ה-SEU, הוא כולל גם “מצבים נפשיים”. המצבים האפשריים של סוכן זה הם “נורמלי”, “משועמם”, “מרוגש”, “זהיר” ו”סקרן”. כל מצב משפיע בצורה שונה על חישוב התועלת הצפויה מהפעולות האפשריות, ולכן מוביל להתנהגות שונה. הגורם המשפיע על מעבר בין מצבים אלה הוא הופעתם של אירועים המהווים הפתעות חיוביות או שליליות. סדרה של הפתעות חיוביות תשפיע על הסוכן לעבור למצב “מרוגש”, שבו הערכת התועלת של פעילויות המביאות לאיסוף מהיר של “מזון” תהיה גבוהה יותר מההערכה הנגזרת ממנגנון ה-SEU, ולכן עשויה לגבור על הערכת מרכיבי הסיכון של אותן פעולות. בדומה לכך, הצטברות של הפתעות שליליות תוביל למצב רגשי “זהיר”, שבו הדגש הוא על הימנעות מסיכונים.

אין להסיק מתיאור זה כי אותו “סוכן” – תוכנת מחשב הפועלת בתוך סימולציה ממוחשבת של סביבת קיום פשוטה – הוא באמת בעל רגשות בני-השוואה לרגשות אנושיים. אילו היה הדבר כך, היינו אולי צריכים להסס בטרם נכבה את המחשב, או “נדליק” להבות המאיימות לשרוף את הסוכן שלנו. כאן, המונח “מצב רגשי” משמש רק כדי להיעזר באנלוגיה למודלים קוגניטיביים ופסיכו-אבולוציוניים.

עם זאת, האנלוגיה מעניינת מספיק כדי שנוכל לתהות, בצורה דומה לשאלות עבור בני-אדם: מה התועלת בהטיית השיפוט על-ידי המצב הרגשי? האם בחינה רציונלית וחסרת פניות של מיטב המידע העומד לרשותנו אינה עדיפה על החלטה “רגשית”?

ניצחון הרגש על הרציונל

מתברר שההטיה הרגשית היא אכן המנגנון העדיף, לפחות על פי תוצאותיו של מחקר זה. עבור סביבות “בטוחות” (עם מספר קטן של להבות), סוכן MS פעל בצורה “סקרנית” יותר, וכתוצאה חקר את סביבתו וניצל את מקורות המזון בצורה יעילה יותר. עבור סביבות “מסוכנות”, סוכן MS פעל רוב הזמן במצב הרגשי “זהיר”, וכך נמנע מהנזק שספג סוכן SEU.

אפשר להקשות כאן: אם המצב הרגשי מתבטא בהתנהגות המתאימה את עצמה למאפייני הסביבה (כמו שכיחות הסכנות ושכיחות מקורות המזון), האם לא היה נכון יותר לשפר את התוכנה של הסוכן כך שתכלול חישובים לגבי מאפייני סביבה אלה, תלמד אותם ותשתמש בהם כדי להגיע לאותן החלטות יעילות מבלי להזדקק לרעיון של “מצבים רגשיים”?

המצבים הרגשיים כפי שהוגדרו במחקר זה הם בהכרח פחות מדויקים, מכיוון שאין להם עוצמה או שילוב – הסוכן אינו יכול להיות 20% סקרן ו-30% מרוגש. כותבי המאמר אינם מתייחסים לכך, אבל נראה לי כי מודל כזה ללמידה רציונלית של מאפייני הסביבה אינו נכון, גם מכיוון שהוא אינו כללי אלא דורש פיתוח ספציפי עבור כל שינוי בהתנהגות הסביבה, בחיישנים וכו'; וגם כי בעולם האמיתי יש עלות גבוהה לשיפורים קוגניטיביים, במונחים של צריכת אנרגיה ושל אדפטציות מיוחדות (כמו המאפיינים הייחודיים של האדם הקשורים לגודל הראש). “קיצור הדרך” של השימוש ברגשות הוא תחליף יעיל לשיפורים כאלה.

תוכנה שמבינה מתי אדם מופתע

הסוכן שתואר לעיל הוא תוכנה שאין לה כל אינטראקציה עם בני-אדם, אבל רוב התוכנות פותחו כדי לשרת צרכים אנושיים ולתקשר עם משתמשים. תוכנות כאלה יכולות לתקשר בצורה יעילה יותר אם יכללו מודלים קוגניטיביים שיוכלו לחזות מה יפתיע את המשתמש.

המגזין רב-ההשפעה Technology Review , המוצא לאור על-ידיMIT (המכון הטכנולוגי של מסצ'וסטס), מפרסם מדי שנה דו”ח מיוחד המציין עשר טכנולוגיות חדשות הצפויות להשפיע על העולם. בין הטכנולוגיות שנבחרו עבור שנת 2008 נמצא גם הרעיון של יצירת מודלים להפתעה. הדוגמה שמביאים כותבי הדו”ח היא חיזוי תנועה.

הרעיון עצמו פשוט, אם כי קשה למימוש: אם נאסוף מידע רב המתאר את מהירות התנועה בחלקים גדולים מרשת הכבישים והרחובות, כמה פעמים בכל שעה, במשך שנה ויותר, נוכל לענות על שאלות כמו “כמה זמן ייקח לי להגיע מביתי למרכז העיר ביום רביעי הבא אם אצא בשש בערב?”. התשובה אינה בהכרח אותה תשובה שתתקבל עבור כל יום חול באותה שעה: ייתכן שליום רביעי יש פרופיל שונה מאשר לימי שבוע אחרים, או אולי יום רביעי הקרוב הוא היום האחרון לפני סוף חודש, וכו'. זהו שימוש אופייני, אם כי מאתגר, לטכנולוגיות של “כריית מידע”, שהמשותף להן הוא סקירה של כמויות גדולות של מידע כדי לזהות תבניות אופייניות ולהסיק מסקנות. טכנולוגיות אלה משתמשות לעתים קרובות ברעיונות ובאלגוריתמים מתחום הבינה המלאכותית. כמה חברות מסחריות מספקות תוכנה כזו עבור חיזוי תנועה.

לפחות חברה אחת – Inrix – שואפת לספק למשתמשיה מידע שיעזור להם יותר. מפתחי התוכנה, שהחלה את דרכה כפרויקט פנימי של מיקרוסופט, הגיעו למסקנה כי כאשר תושב מקומי רוצה לדעת מה מצב התנועה, יש דברים רבים שהוא כבר יודע. אם השאלה נשאלת בשעות העומס, אין טעם לספק רשימה ארוכה של דרכים שכצפוי התנועה בהן עמוסה ואטית. הרבה יותר שימושי לאותו נהג לשמוע על דרכים שבצורה מפתיעה צפויות להיות נוחות לנהיגה בשעה הקרובה. לשם כך יש צורך במודל קוגניטיבי של הפתעה: מה צפוי אדם לדעת, ומה גודל הפער בין הציפייה לבין המציאות שדי בו להוות הפתעה? התשובות לשתי השאלות שונות מאדם לאדם, ולכן התוכנה מאפשרת לכל משתמש להתאים את התנהגות התוכנה לפי הידע שלו ולפי העדפותיו האישיות.

כותבי הדו”ח מסכימים עם מפתחי Inrix כי גישה זו היא כללית וכי יש לה פוטנציאל לתרומה משמעותית לצורה שבה נעבוד עם מחשבים בעתיד. אם נשתמש במנוע חיפוש כדי ללמוד על נושא כלשהו, ואם אותו מנוע חיפוש כבר למד מספיק עלינו כדי לנחש בצורה מושכלת מה אנחנו כבר יודעים על אותו נושא, אנו נעדיף לקבל רק את המידע המפתיע. חשוב להדגיש כי מידע מפתיע אינו רק כזה שאינו ידוע לנו, אלא גם כזה שהוא מנוגד לציפיות שלנו. יכולת כזו היא כנראה עדיין רחוקה, אבל שימושים קרובים הרבה יותר עשויים להיות בתחומים הקלאסיים של עיבוד וניתוח מידע: מכל הגרפים והטבלאות המספריות המגיעים לשולחנו של חוקר מודיעין, או משקיע בבורסה, או מנהל שיווק, מהו המידע הלא-צפוי, המפתיע, הרומז כי משהו חדש קורה ומזמין לבדוק אם נוצרו סיכונים או הזדמנויות חדשות? ייתכן שבקרוב נוכל לצפות מהתוכנה שלנו לשלוף פריטים כאלה ולהסב אליהם את תשומת לבנו.

תוכנה שמפתיעה את מפתחיה

כל מתכנת מופתע מפעם לפעם מהתנהגות התוכנה שכתב, אבל בדרך-כלל זוהי תוצאה של טעות בתכנות (“באג”). כשפרופ' מייקל ליטמן (Littman) מאוניברסיטת ראטגרס בניו-ג'רזי הופתע מהתנהגות הרובוט שבנה, הסיבה לכך היתה שונה, כפי שמתועד בסרטון שהעלה לאתר youtube. סרטון זה זכה במקום הראשון בקטגוריית “וידיאו קצר”, בתחרות שנערכה במסגרת כנס האגודה האמריקנית לבינה מלאכותית בשנת 2007.

מטרתו של ליטמן היתה ליצור רובוט לומד. הרובוט היה AIBO, הכלבלב הידוע של חברת סוני, והתוכנה ששלטה בו ניסתה למצוא עבור הרובוט דרך החוצה מתוך חדרון סגור וחשוך. בחדרון היה מתג שלחיצה עליו פתחה את הדלת ואפשרה את היציאה, אבל לא היה אפשר לזהות את המתג בחשכה. מתג אחר היה מואר, ולחיצה עליו הדליקה את האור בחדרון כך שעיניו של הרובוט יכלו לגלות את מתג היציאה.

הרובוט הושם בחדר החשוך כמה פעמים, ובכל פעם הועמד בכיוון שונה ובמקום שונה. לאחר ניסיונות אלו, התוכנה הצליחה ללמוד דרך מהירה לצאת מהחדר, אבל זו לא היתה הדרך שלה ציפה ליטמן – הרובוט מצא שיטה מהירה יותר מאשר הליכה אל מתג התאורה, לחיצה עליו ואז הליכה אל מתג פתיחת הדלת. הקוראים ירצו אולי לעצור לרגע ולחשוב מהי אותה שיטה מהירה.

לפני התשובה, הנה רמז: מה היה קורה אילו כל ניסיון היה מתחיל כאשר הרובוט היה נמצא במקום ובכיוון קבועים? מה היה יכול הרובוט ללמוד אז?

והתשובה: הכלבלב האלקטרוני למד לכוון את עיניו אל המתג המואר, למקם את גופו בזווית הנכונה יחסית לאותו מתג, וללכת אחורה עד שחלקו האחורי לחץ על מתג פתיחת הדלת.

טור זה עסק בהפתעה כמנגנון חסכוני להחלטה מהירה בתנאי אי-ודאות; בהפתעה כמנגנון לתקשורת יעילה; ובהפתעה כתוצאה בלתי נמנעת של מערכות מורכבות ודינמיות. אולי אין זה צריך להפתיע אותנו כאשר אנו מוצאים את מושג ההפתעה קשור בצורה כה עמוקה לבינה מלאכותית – הרי זה כה אנושי להיות מודעים לכך שהמידע שבידינו הוא תמיד חלקי ולא-מדויק, ולחיות עם מודעות זו על-ידי איזון בין הימנעות מהפתעות לא-נעימות לבין משיכה אל החדש והמפתיע.

ישראל בנימיני עובד בחברת ClickSoftware בפיתוח שיטות אופטימיזציה מתקדמות