סיקור מקיף

האם למערכות בינה מלאכותית באמת יש שפת סתרים משלהן?

חוקרים בארה”ב העלו את הטענה המסקרנת כי ייתכן שמודל DALL-E 2 המציא שפת סתרים משלו כדי שיבין תיאורי עצמים.

מאת: ארון ג’יי סנוסוול, עמית מחקר בתר-דוקטורט, משפט חישובי ואחריות AI, אוניברסיטת קווינסלנד לטכנולוגיה

בינה מלאכותית מציירת.  <a href="https://depositphotos.com. ">צילום: depositphotos.com</a>
בינה מלאכותית מציירת. צילום: depositphotos.com

דור חדש של מודלים של בינה מלאכותית (AI) יכול לייצר תמונות “יצירתיות” לפי דרישה על סמך הנחיית טקסט. תוכנות  כמו Imagen, MidJourney ו-DALL-E 2 מתחילות לשנות את האופן שבו תוכן יצירתי נוצר עם השלכות על סוגיות זכויות היוצרים והקניין הרוחני.

בעוד שהתפוקה של מודלים אלה מרשימה לעתים קרובות, קשה לדעת בדיוק כיצד הם מפיקים את התוצאות שלהם (בעיה שמלווה את עולם ה-deep learning כולו ואין לה עדיין תשובה, אם כי מספר חברות ובהן IBM טוענות לפיתוח מערכות שיספקו הסברים אך עדיין אף מערכת כזו לא יצאה לשוק). בשבוע שעבר, חוקרים בארה”ב העלו את הטענה המסקרנת כי ייתכן שמודל DALL-E 2 המציא שפת סתרים משלו כדי שיבין תיאורי עצמים.

חוקרים הזינו את DALL-E 2 בבקשה ליצור תמונות המכילות כיתובי טקסט, ולאחר מכן הזינו את הכיתובים המתקבלים (ג’יבריש) בחזרה למערכת, החוקרים הגיעו למסקנה ש-DALL-E 2 חושב ש-Vicootes פירושו “ירקות“, בעוד ש-Wa ch zod rea מתייחס ל”יצורי ים שלווייתן עשוי לאכול“. טענות אלה מרתקות, ואם הן נכונות, יכולות להיות להן השלכות חשובות על אבטחה ויכולת פרשנות עבור סוג זה של מודל AI גדול. אז מה בדיוק קורה?

האם ל-DALL-E 2 יש שפת סתרים?

ל- DALL-E 2 אין כנראה “שפת סתרים”. אולי מדויק יותר לומר שיש לו אוצר מילים משלו  – אבל גם את זה אנחנו לא יכולים לדעת בוודאות.

קודם כל, בשלב זה קשה מאוד לאמת טענות כלשהן לגבי DALL-E 2 ומודלים גדולים אחרים של בינה מלאכותית, מכיוון שרק לקומץ חוקרים ואנשי מקצוע יצירתיים יש גישה אליהם. כל תמונה שמשותפת באופן פומבי (בטוויטר למשל) צריכה להתקבל עם גרגר מלח גדול למדי, מכיוון שהן “נקטפו” על ידי אדם מבין תמונות פלט רבות שנוצרו על ידי הבינה המלאכותית.


גם בעלי גישה יכולים להשתמש במודלים אלה רק בדרכים מוגבלות. לדוגמה, משתמשי DALL-E 2 יכולים ליצור או לשנות תמונות, אך אינם יכולים (עדיין) לקיים אינטראקציה עמוקה יותר עם מערכת הבינה המלאכותית, למשל על ידי שינוי הקוד מאחורי הקלעים. משמעות הדבר היא ששיטות “בינה מלאכותית הניתנת להסבר” להבנת האופן שבו מערכות אלה פועלות אינן ניתנות ליישום, וחקירה שיטתית של התנהגותן היא מאתגרת.

אז מה קורה?

אפשרות אחת היא שביטויי “ג’יבריש” קשורים למילים משפות שאינן אנגלית. לדוגמה, Apoploe, שנראה כי הוא יוצר דימויים של ציפורים, דומה ללטינית Apodidae, שהוא השם הבינומי של משפחה של מיני ציפורים. הדבר נראה כמו הסבר מתקבל על הדעת. לדוגמה, DALL-E 2 אומן על מגוון רחב מאוד של נתונים שנלקחו מהאינטרנט, שכללו מילים רבות שאינן באנגלית.

דברים דומים קרו בעבר: מודלים גדולים של בינה מלאכותית בשפה טבעית למדו במקרה לכתוב קוד מחשב ללא הכשרה מכוונת.

האם הכל קשור לאסימונים?

נקודה אחת שתומכת בתיאוריה הזו היא העובדה שמודלים של שפת בינה מלאכותית לא קוראים טקסט כפי שבני אדם קוראים. במקום זאת, הם מפרקים טקסט קלט ל”אסימונים” (TOKENS) לפני עיבודו.

לגישות אסימונים  שונות יש תוצאות שונות. ההתייחסות לכל מילה כאל אסימון נראית כמו גישה אינטואיטיבית, אך גורמת לצרות כאשר לאסימונים זהים יש משמעויות שונות (כמו האופן שבו ” match ” (גפרור, אך גם מערכה במשחק א.ב.) פירושה דברים שונים  במשחק טניס או בהצתת שריפה.).

מצד שני, ההתייחסות לכל דמות כאל אסימון מייצרת מספר קטן יותר של אסימונים אפשריים, אך כל אחד מהם מעביר מידע הרבה פחות משמעותי.

DALL-E 2 (ומודלים אחרים) משתמשים בגישת ביניים הנקראת קידוד זוג בתים (BPE). בדיקת ייצוגי ה-BPE עבור חלק ממילות הג’יבריש מצביעה על כך שגישה זו יכולה להיות גורם חשוב בהבנת “השפה הסודית”.

לא כל התמונה

“שפת הסתרים” יכולה גם להיות רק דוגמה לעיקרון “זבל נכנס זבל יוצא”. DALL-E 2 לא יכולה להגיד “אני לא יודע על מה אתה מדבר”, אז היא תמיד תיצור איזושהי תמונה מטקסט הקלט הנתון.

כך או כך, אף אחת מהאפשרויות הללו אינה מספקת הסברים מלאים למה שקורה. לדוגמה, נראה שהסרת תווים בודדים ממילות ג’יבריש משחיתה את התמונות שנוצרו בדרכים ספציפיות מאוד. ונראה שמילות ג’יבריש בודדות לא בהכרח משתלבות כדי לייצר תמונות מורכבות קוהרנטיות (כפי שהיו עושות אם באמת הייתה “שפה” סודית מתחת למכסה המנוע).

למה זה חשוב

מעבר לסקרנות האינטלקטואלית, ייתכן שאתם תוהים אם כל זה באמת חשוב.

התשובה היא כן. “השפה הסודית” של DALL-E היא דוגמה ל”מתקפה יריבה” נגד מערכת למידת מכונה: דרך לשבור את ההתנהגות המיועדת של המערכת על ידי בחירה מכוונת של קלטים שהבינה המלאכותית לא מטפלת בהם היטב.

אחת הסיבות לביצוע למתקפות כאלה היא שהן מאתגרות את האמון שלנו במודל. אם הבינה המלאכותית מפרשת מילות ג’יבריש בדרכים לא מכוונות, היא עשויה גם לפרש מילים משמעותיות בדרכים לא מכוונות. הדבר גם גורם לחששות ביטחוניים. DALL-E 2 מסננת טקסט קלט כדי למנוע ממשתמשים לייצר תוכן מזיק או פוגעני, אך “שפת סתרים” של מילות ג’יבריש עשויה לאפשר למשתמשים לעקוף מסננים אלה.

מחקר שנערך לאחרונה גילה “ביטויי מתג  עבור מודלים מסוימים של בינה מלאכותית – ביטויי שטות קצרים כמו “zoning tap fiennes” שיכולים לגרום באופן אמין למודלים לכתוב תוכן גזעני, מזיק או מוטה. מחקר זה הוא חלק מהמאמץ המתמשך להבין ולשלוט באופן שבו מערכות למידה עמוקה מורכבות לומדות מנתונים.

לבסוף, תופעות כמו “השפה הסודית” של DALL-E 2 מעלות חששות לפרשנות. אנחנו רוצים שהמודלים האלה יתנהגו כפי שאדם מצפה, אבל לראות תפוקה מובנית בתגובה לג’יבריש מבלבל את הציפיות שלנו.

מאירים אור על החששות הקיימים

אתם ודאי זוכרים את המהומה שהתעוררה ב-2017 סביב כמה צ’אט-בוטים בפייסבוק ש”המציאו את השפה שלהם“. המצב הנוכחי דומה בכך שהתוצאות מדאיגות – אך לא במובן של “סקיינט בא להשתלט על העולם”.

במקום זאת, “השפה הסודית” של DALL-E 2 מדגישה את החששות הקיימים לגבי החוסן, האבטחה ויכולת הפרשנות של מערכות למידה עמוקה.

למאמר ב-The Conversation

עוד בנושא באתר הידען:

תגובה אחת

  1. כשמתרגמים את האסימון character לעברית בקונטקסט הנ”ל צ”ל אות ולא דמות.
    הדגמה יפה:)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אתר זה עושה שימוש באקיזמט למניעת הודעות זבל. לחצו כאן כדי ללמוד איך נתוני התגובה שלכם מעובדים.