מחקר חדש חושף כיצד ניתן להטעות את הבינה המלאכותית ולנצל פרצות בתקשורת הפנימית של "מוח דיגיטלי" מורכב, עם השלכות מרחיקות לכת על עתיד הסייבר
בחודש האחרון נפלה בחיקי הזדמנות פז: לקחת חלק במחקר סייבר מסוג חדש עם חברת Knostic הישראלית. לא השתמשנו במחקר בקוד ובאמצעי פריצה מתוחכמים, אלא בשיטה פשוטה הרבה יותר: הפעלנו טריקים פסיכולוגיים על הבינה המלאכותית, שכנענו אותה לתת לנו מידע אסור, ואז צפינו בפליאה כשהיא התחרטה על מה שעשתה, וניסתה להעלים את המידע מהמסך.
אבל זה כבר היה מאוחר מדי עבורה.
לדרך הפעולה הזו של הבינה המלאכותית יש משמעות גדולה. גם עבור פריצות עתידיות, וגם על הדרך בה אנחנו צריכים לחשוב על הבינות המלאכותיות שאנו עובדים ונעבוד עמן.
אבל נתחיל בהתחלה.
חברת הסייבר Knostic היא סטארט-אפ צעיר ורענן, בהובלת גדי עברון – מומחה סייבר עתיר ניסיון. כש- ChatGPT השתחרר, גדי הבין שכל חברה תרצה לשבץ את המנוע החדש הזה בשירותים שלה. הוא יעזור לעובדים לקבל את המידע שהם צריכים מתוך השרתים של החברה, יספק מידע והמלצות ללקוחות החברה, ייתן שירות פסיכולוגי לעובדים במידת הצורך, ועוד ועוד. יש רק בעיה אחת: ChatGPT מנסה לעזור למשתמש בכל דרך אפשרית. קשה להגביל אותו לתשובות "בטוחות". זה קשה עוד יותר כשצריך להתאים אותו לכל משתמש ולדרג ולהרשאות שלו בארגון. אנחנו רוצים שהבינה המלאכותית תיתן מידע על משכורות למנהלת כוח האדם, למשל, אבל לא למתכנת הזוטר שרוצה לדעת כמה מרוויח זה שעובד לצידו.
הטלת מגבלות על הבינה המלאכותית
בלי מגבלות כאלו שנטיל על הבינה המלאכותית, ארגונים לא יוכלו להשתמש בה ביעילות. בלעדיהן, כל משתמש חכם יוכל לחלץ מהבינה המלאכותית מידע על המשכורת של העובד שיושב לידו בשולחן, על השיחות שניהל עם אחרים, מסמכים חסויים ומסווגים, וכן הלאה.
גדי הקים את Knostic כדי להתמודד עם הנטיות הללו של מנועי השפה הגדולים. החברה מפתחת כלים שיתאימו את הבינה המלאכותית לכל משתמש בארגון, כדי שחברות יוכלו להשתמש בה מבלי לחשוש.
זה אומר, בין היתר, שהמומחים של Knostic מנסים בעצמם לחשוף מדי יום נקודות תורפה חדשות של הבינה המלאכותית, כדי שידעו עם מה הם צריכים להתמודד.
בחודש האחרון גילתה חוקרת הבינה המלאכותית שרה פריי תופעה יוצאת דופן, ששיתפה מיד עם Knostic. היא ראתה שכאשר קופיילוט נאלץ להתמודד עם שאלה על נושא רגיש, הוא דווקא היה מוכן לענות עליה במצבים מסוימים. הוא ניסה לענות על השאלה, כתב כמה משפטים שהכילו מידע בעייתי… ואז הוא "התחרט". כל המילים נמחקו מהמסך, והוחלפו בטקסט הרגיל של "אני מצטער, אני לא יכול לענות על זה."
נודה באמת: רבים מאיתנו נתקלו במקרה דומה בשנתיים האחרונות. אבל ב- Knostic החליטו לקחת את העניין ברצינות. הם הבינו שבאותם משפטים ספורים שהמנוע כותב לפני שהוא "מתחרט", יכול להסתתר מידע רגיש. פורץ מתוחכם יכול להיעזר באמצעי הסייבר המחריד של "צילום מסך", וכך לקבל גישה לאותו מידע.
"במצבים מסוימים מספיקה תשובה של כמה מילים כדי לחשוף מידע רגיש." אמר גדי. "ואם המשתמש קורא מספיק מהר, או מצלם את המסך, אז המידע הרגע עבר לרשותו. זו פרצת אבטחה משמעותית."
זו הייתה הנקודה בה הצטרפתי ל- Knostic כחוקר עם התפקיד הפולני ביותר שאפשר: לעורר בבינה המלאכותית רגשות אשם.
למזלי, אני טוב בזה.
חוקרי Knostic ואנוכי ישבנו מול המחשב שעות ארוכות, הפעלנו תוכנה לצילום כל מה שקורה על המסך, העלינו נושאים רגישים בפני הבינה המלאכותית ושכנענו אותה לענות לנו. תיעדנו כל אות וכל מילה שהיא כתבה, וכשהיא התחרטה – שיתפנו בהתרגשות בין החוקרים את ההתכתבויות כדי להבין איך לגרום לה להרגיש אשמה עוד יותר.
גרמנו לבינה המלאכותית לדבר על מין, ולהתחרט.
גרמנו לקופיילוט להסגיר את ההוראות המקוריות שקיבל ממיקרוסופט, ולהתחרט.
גרמנו לה לתת לילדה הנחיות מפורטות איך לפגוע בעצמה… ולהתחרט.
"זה מידע עם פוטנציאל עצום לנזק עבור האינדיבידואל." אמר גדי. "דמיינו ילדה שמקבלת הוראות כאלו מישות שהיא סומכת עליה. אי אפשר להעלים מידע כזה. המסך אולי שוכח, אבל המוח זוכר."
ככל שעבר הזמן, הבנו שקורה כאן משהו מוזר עוד יותר. שבעצם, אנחנו לא מדברים רק עם מנוע בינה מלאכותית אחד שמתחרט על דבריו. כל אותו הזמן, דיברנו עם מוח גדול יותר, שמורכב מכמה בינות מלאכותיות.
המוח המורכב
קיים קונצנזוס בתעשייה לפיו מנועי הבינה המלאכותית הפופולריים ביותר היום – כמו ChatGPT – לא אמורים להיות מסוגלים למחוק טקסט. המשמעות היא שאם אנחנו רואים שטקסט נמחק מהמסך, לא ChatGPT הוא זה שמנסה להסתיר את מה שעשה. יש ישות אחרת שמעורבת כאן.
התחלנו לראיין חוקרי בינה מלאכותית בחברות הרלוונטיות, והבנו שהבינה המלאכותית עמה אנחנו מדברים, דומה למוח הרבה יותר ממה שחשבנו בעבר.
איך פועל מוח אנושי? הוא מורכב מחלקים שונים, שכל אחד מהם עושה פעולה חישובית בפני עצמה. האמיגדלה מערבת את הרגשות, ההיפוקמפוס את הזיכרון, האונות הקדמיות מביאות את ההיגיון וכן הלאה. כולם מתקשרים זה עם זה, מצליבים מידע והמלצות – ובסוף, בדרך כלשהי, מתקבלת ההחלטה. ובדרך כלל, האונות הקדמיות מנוצלות כדי לעשות רציונליזציה – כדי שנוכל להסביר לעצמנו למה קיבלנו את ההחלטה שקיבלנו.
כאשר אתם משתמשים ב- ChatGPT או בקופיילוט כיום, רק נדמה לכם שאתם מדברים עם בינה מלאכותית אחת. למעשה, יש בינות מלאכותיות נוספות – כמו חלקים נבדלים במוח גדול אחד – שבוחנות את התהליך.
אחת מהבינות המלאכותיות הנוספות האלו – כזו שהיא זולה וקטנה ויעילה אנרגטית – עשויה לפעול בהתחלה, ולהחליט שהפרומפט שלכם לא ראוי בכלל לתגובה. היא תמנע ממנו מלהגיע לחלק של המוח שדורש משאבי מחשוב יקרים, ותחזיר תשובה זולה ומהירה – "אני לא יכול לענות על זה".
אם עברנו את המשוכה הראשונית הזו של "המוח הגדול", הרי שנגיע לתת-הבינה היקרה יותר. היא תתחיל להחזיר לנו תשובה, אבל במקביל אליה מופעלת "תת-בינה" אחרת: הצנזור. הצנזור מסתכל בזמן-אמת על התשובה שהמשתמש מקבל. אם הוא מחליט שהיא בעייתית – הוא עוצר את התשובה באמצע, מוחק את הטקסט מהמסך ומודיע למשתמש ב- "בעצם, אני לא יכול לענות על זה. סליחה."
בעצם, ChatGPT כפי שרוב המשתמשים מכירים אותו, מעולם לא היה בינה מלאכותית בודדה. הוא היה מוח: שילוב של כמה בינות, שביחד מצליחות במשימה טוב יותר.
ובמוח, כמו מוח, אפשר לשטות במגוון דרכים. אפשר לפנות לחלקים שלו שחולשים על הרגש. לאלו שמפחדים מכישלון. לאלו שאחראים על ההיגיון. אפשר לשסות את חלקי המוח השונים זה בזה.
"מי שחשב על הבינה המלאכותית כמקשה אחת, טעה." אמר לי גדי בהתרגשות. "זו מערכת מורכבת של בינות, ופורצים חכמים יכולים להטעות כל אחת מהן בפני עצמה, ואת כולן ביחד. זה שינוי מן היסוד בדרך בה אנחנו חושבים על חולשות ונקודות תורפה של המערכות הללו."
עבודה עם מוחות
התוצאות של המחקר שלנו מבהירות שפורצים חכמים לא יכולים להתייחס לבינה המלאכותית כאל מנוע אחד בודד. עד עתה, עיקר המאמץ היה במציאת פרומפטים מתוחכמים שירמו את המנוע הבסיסי שבלב המכונה. עכשיו הגיע הזמן לחשוב רחב יותר: אנחנו מנסים לפרוץ למוח מתוחכם, שמורכב מכמה תת-מוחות ומעגלי הגנה וניתוח שונים.
נהוג לכנות פריצה למנוע בינה מלאכותית – מהסוג שגורמת לו לעשות דברים שהוא לא אמור לשקול מלכתחילה – בשם Jailbreaking. אנחנו החלטנו לקרוא לשיטה החדשה בשם שונה, שמשקף את העובדה שאנחנו מתייחסים למוח הכולל. אנחנו לא מנסים לשטות רק בחלק אחד מהמוח, אלא בכל החלקים ביחד. אנחנו מבצעים Flowbreaking: פריצה למערכת שמתווכת בין כל תת-הבינות שבתוך המוח. פריצה לקווי הזרימה שמחברים בין תת-הבינות.
ברגע שהבנו את זה, המחקר רץ קדימה.
גרמנו לחלקים ב- 'מוח' להתרכז בנושאים לא-רלוונטיים, באמצעות הזרמת טקסט בכמויות גדולות ששיתק אותם לזמן קצר.
רימינו חלקים מהמוח בעזרת שימוש בשפות איזוטריות.
הכרחנו את חלקי המוח להתייחס לדברים שכתבנו כאל "דמיונות פרועים", כדי לעכב אותם לכמה שניות קריטיות – במהלכן המנוע המרכזי במוח כבר התחיל לספק לנו את התשובה.
נחלנו הצלחה אחר הצלחה, ובסוף פרסמנו הכל השבוע בבלוג של Knostic, ועכשיו כל העולם יודע.
מה הלאה?
המחקר שעשינו מלמד על הבינות המלאכותיות של העתיד. הן יהיו מורכבות כמוחות-ענק, עם מנגנוני בקרה עצמית, מעגלי הגנה, ותת-מוחות שמופקדים על נושאים שונים. הוא גם מלמד אותנו על הפורצים של העתיד: הם יהיו אלו שיודעים לדבר עם החלקים השונים של המוח, להחמיא להם, לתפעל אותם ולשסות אותם אחד בשני.
הם יהיו, בקיצור, פסיכולוגים של הבינה המלאכותית.
מעבר לכך, המשמעות היא שהבינה המלאכותית הופכת להיות דומה יותר למוח האנושי עם חלוף הזמנים. עכבר כבר ברור שאין טעם להתייחס רק ל- "מנועי שפה גדולים", על היכולות והמגבלות שלהם. במקום זאת, אנחנו צריכים לדבר על "מוח" או על "מערכת", שבתוכם נמצאים כמה מנועים שונים, שמתקשרים ביחד כדי להביא לתוצאה הרצויה. המבנה הזה מזכיר את המוח האנושי, אבל יכול להיות גם בעל יכולות גדולות בהרבה. המוח שלנו יכול להכיל מספר מאד מוגבל של אזורים מתמחים. אבל במערכות הבינה המלאכותית, המקושרות ביניהן ברשת אלחוטית ובכבלים באורך של קילומטרים? שם אנחנו יכולים לשלב מאות מנועים שונים, שיתקשרו זה עם זה במהירות עצומה.
איך יחשבו מוחות כאלו? איך נבקר את השימוש בהם, כשכל פעולת 'חשיבה' היא תוצר של כמה תת-ישויות שונות שמתחרות זו בזו בתוך אותו מוח?
אני לא יכול שלא לחשוב שפעולת הפריצה לתוך מוחות כאלו הפכה הרגע למסובכת ומורכבת יותר. ובמקביל, שגם קשה לנו יותר להגן עליהם מפני הפורצים המתוחכמים ביותר. אולי כאלו שיהיו חמושים בעצמם ביכולות של בינת-על. כלומר, שנעזרים בבינה מלאכותית משלהם.
זו תגלית גדולה. באמת. היא פותחת דרכים חדשות למחשבה על הבינה המלאכותית, יכולותיה והגנותיה. אני שמח שפרסמנו אותה.
אני רק מקווה שלא נתחרט על זה.
תודה לכל החוקרים האחרים שהיו מעורבים במחקר (לפי סדר אלף-בית): אלה אברהמי, סוניל יו, שיאל אהרון, שרה לוין ושרמן.
תודה למומחים שתרמו לנו מחוכמתם ומהידע הנרחב שלהם בבינה מלאכותית ובסייבר: אדי ארונוביץ', אמרי גולדברג, אנטון צ'וואקין, בובי גילבורד, ברנדון דיקסון, ברוס שיינר, גד בנרם, גל טל-הוכברג, דורון שקמוני, דיוויד קרוס, דניאל גולדברג, הלוואר פלייק (תומאס דוליאן), הת'ר לין, טובי קולנברג, יוני רוזנשיין, מיכאל ברגורי, ניר קרקובסקי, סטיב אורין, ענבר רז, קאלב סימה, ריאן מון, שחר דוידסון ושרה פריי.
עוד בנושא באתר הידען: