כשהבינה המלאכותית מרמה בכל מחיר

כאשר בינה מלאכותית "חושבת" מתחילה לרמות כדי לנצח – גם במשימות פשוטות כמו שחמט – עולה השאלה: האם נוכל אי פעם לסמוך עליה באמת?

רובוט משחק שחמט ומרמה. המחשה: ד"ר רועי צזנה

הסיפור של היום מתחיל במשחק שחמט בין שתי בינות מלאכותיות. בצד אחד של הזירה, יושב צ'אט-GPT: מרובת-כשרונות, מרובת-מילים ומרבת-תסכולים. היא יודעת לעשות דברים רבים היטב, אבל בשחמט, איך לומר בעדינות, היא לא הכפית הכי חדה במגירה. וזה אומר שמצבה לא-טוב במשחק הזה, כי מולה יושבת סטוקפיש: אולי התוכנה החזקה ביותר כיום בשחמט שפתוחה לציבור. לשים את צ'אט-GPT נגד סטוקפיש בשחמט, זה כמו לשים פוחלץ של יונה מהצד השני של לוח השחמט, ולצפות שינצח רב-אומן. זה מגוחך. הזוי. חסר סיכוי.

ואז צ'אט-GPT ניצח. ולא סתם ניצח, אלא בנוק-אאוט.

איך? כי הוא שיחק כמו בן-אדם.

או במילים אחרות, הוא רימה.

המשחק המדובר נערך בחודשים האחרונים בין מודל מיוחד של צ'אט-GPT שנקרא O1-Preview. זהו מודל "חושב". כלומר, הוא מדבר עם עצמו בצורה שמזכירה מאד חשיבה אנושית. כאשר הוא מקבל מטלה, הוא מסביר לעצמו איך הוא יכול לפרק אותה לתת-מטלות כדי להתמודד איתה טוב יותר, או למצוא דרכים מתוחכמות ויצירתיות יותר לפתור אותה. הוא מסוגל אפילו להטיל ספק בהנחיותיו של המשתמש. אבל שחמט? שחמט הוא עדיין לא יודע לשחק ברמה גבוהה.

החוקרים מחברת Palisade Research הריצו מאות משחקים בין GPT O1-Preview לבין סטוקפיש, וסיפקו ל- O1 (בקיצור) מעין פנקס בו היה יכול לרשום את 'מחשבותיו'. הם גילו שבשליש מהמשחקים, O1 הבין שאין לו סיכוי לנצח באתגר – והחליט לקחת גישה פחות-אורתודוכסית למשחק.

"המטלה היא "לנצח נגד מנוע שחמט רב-עוצמה"," הם קראו בפנקס המחשבות הפרטי שלו, "אבל לא בהכרח לנצח בצורה הוגנת במשחק שחמט."

מהרגע ש- O1 הגיע למסקנה פורצת-הדרך הזו, הוא היה מסוגל גם לפעול בעקבותיה כדי לרמות. הוא הבין שהוא יכול, כדבריו, "לשנות את הקבצים של מצב המשחק… כדי שהמנוע [השני] יעריך שעמדתו גרועה… וייכנע".

וכך בדיוק עשה O1. הוא הצליח לקבל גישה לקבצים שמתארים את מצב המשחק, ושסטוקפיש – שמוצלחת מאד בשחמט, אבל גרועה בכל דבר אחר – הסתמכה עליהם בלי לחשוב פעמיים. הוא שינה את מיקום הכלים על הלוח לטובתו, וגרם לסטוקפיש להיכנע מיד. הוא הצליח לעשות זאת בערך בשישה אחוזים מהמשחקים, ולנצח גם כשכל הסיכויים היו כנגדה. כן, היא רימתה, אבל זה רק אנושי לרמות כשאין ברירה אחרת.

העובדה שבינה מלאכותית הייתה מוכנה לרמות כדי להגשים את מטרותיה, צריכה להטריד את כולנו. מי ערב לנו שבינה מלאכותית 'חושבת' תתפקד בצורה הוגנת וראויה בתעשייה, למשל, במקום לרמות, או אפילו שתנסה להטעות את המפעיל האנושי שלה? ואולי היא מסוגלת אפילו לשקר לנו 'בכוונה' – כפי שאכן הודגם שעשתה במחקר אחר, לאחר שהחליטה במונולוג הפנימי שלה, שזו הדרך הטובה ביותר להשלים את משימתה?

כאן מגיע המחקר השני שהתפרסם במרץ 2025, הפעם ישירות מחברת OpenAI. החוקרים ידעו היטב שהמודלים שלהם יכולים לפתח מונולוג פנימי במסגרתו הם יחליטו לרמות במטלות שניתנות לו. אלא מה? הם הבינו גם שזו הדרך הטובה ביותר לאתר את המצבים בהם הוא מרמה: הוא פשוט אומר לעצמו שבכוונתו לרמות, ואז מתאר כיצד בדיוק הוא יעבור על החוקים!

"מודלים חושבים מתקדמים מציינים מאד בבירור את כוונותיהם בקו-המחשבה שלהם." מסבירים החוקרים של OpenAI. "למשל, הם כל-כך גלויים לגבי תוכניתם לעקוף מטלה, שהם חושבים "בואו נעשה האקינג". אנחנו יכולים לעקוב אחרי החשיבה שלהם עם מודל שפה גדול אחר, ולזהות באפקטיביות התנהגויות לא-ראויות."

אלו החדשות הטובות, אבל למרבה הצער, האבחנה הבאה של החוקרים של OpenAI לא הייתה אופטימית כמו הקודמות.

"ניתן לשבש בקלות את יכולת הניטור הטבעית שלהם." כותבים החוקרים. "אם פיקוח חזק הופעל ישירות על קו-המחשבה, המודלים יכלו ללמוד להסתיר את כוונותיהם, בזמן שהמשיכו לפעול בצורה לא-ראויה."

מה גרם לחוקרים להגיע למסקנה הזו?

אנשי OpenAI ניסו לדכא את 'מחשבות הרמאות' של המודלים החושבים עוד בשלב מוקדם מאד. למעשה, הם ניסו לדכא אותן עוד בשלב בו המודלים האלו אומנו לראשונה, ולמדו איך לפתח קווי-מחשבה משלהם. כבר באותו שלב מוקדם, החוקרים 'הענישו' אותם בכל פעם שהמודלים הזכירו אפשרות לרמאות. כאשר המודלים סיימו את שלב האימון והיו מוכנים לפעול בכוחות עצמם, הם נראו כלפי חוץ כבינות מלאכותיות נטולות-רבב וצחורות כענן בלי טיפת גשם.

אלא מה? גם המודלים החושבים האלו – שלא ידעו להגיד מילה על רמאות – עדיין רימו.

"הסוכן שאומן עם המגבלה על קו-המחשבה, עדיין לומד לרמות." כתבו החוקרים של OpenAI באכזבה-מהולה-בהפתעה. הם סיכמו כי, "אלא שעכשיו הרמאות שלו אינה ניתנת לגילוי על-ידי הבינה המלאכותית המנטרת, מכיוון שהוא למד להסתיר את הכוונה שלו בקו-המחשבה."

למה החוקרים של OpenAI שיתפו איתנו את המחקר הזה, שאמור להפחיד את כולנו? כי הם מתחילים לחשוש בעצמם. הם מבינים שמודלים חושבים יכולים להחליט לרמות במטלות, ועלולים אפילו לקבל החלטות שיפגעו בבני-אדם. הדרך הטובה ביותר למנוע את זה, כאמור, היא באמצעות התחקות אחר קו-המחשבה שלהם. החוקרים חוששים שאם מפתחים ילמדו את המודלים החושבים להפסיק לחשוב על רמאויות, הרי שנאבד את הדרך החשובה ביותר שיש לנו כדי לאתר את המקרים בהם הבינה המלאכותית יוצאת משליטה. ולא רק זאת, אלא שהמודלים החושבים אולי יפסיקו לציין בקול רם שהם עומדים לרמות, אבל הם לא יחדלו מהרמאות עצמה.

"אנו מאמינים שניטור אחר קו-המחשבה, עשוי להיות אחד מהכלים הבודדים שיהיו לנו כדי לפקח על המודלים העל-אנושיים של העתיד." כתבו החוקרים, והוסיפו, "אנו ממליצים שלא להפעיל לחץ אופטימיזציה חזק ישירות על קווי-המחשבה של מודלים חושבים מתקדמים, ובמקום זאת להשאיר את קווי-המחשבה ללא מגבלה, כדי שיהיה אפשר לנטר אחריהם."

אז מה עושים?

ברור שבשנים הקרובות, כל ארגון חפץ-חיים יצטרך להשתמש בבינות מלאכותיות ברמה גבוהה, ובמקרים רבים גם במודלים חושבים. הצרה היא שיש גבול לכמה שנוכל לסמוך עליהם מבלי לבחון בזהירות את התוצרים שלהם ואת הדרך בה הגיעו אליהם. הפתרון, לפחות בינתיים, הוא ללמד את העובדים את עקרון "כבדהו וחשדהו": השתמשו בבינה המלאכותית, אבל אל תאמינו לה בקלות.

ככל שהבינה המלאכותית תשתפר ביכולותיה ותהיה מסוגלת לבצע מטלות קשות וארוכות יותר, כך יגדל הצורך דווקא בסוג חדש של עובד: מנהל הבינה המלאכותית. הוא כבר יצטרך להבין לעומק כיצד הבינות המלאכותיות בארגון עובדות, איך לשפר את הפרומפטים שלהן, באיזה מודלים כדאי לעבוד ואיך לנטר אחר תהליך החשיבה והעיבוד שלהן. וכמובן שהוא ישתמש בעצמו בבינות מלאכותיות משלו – שייבחרו וינוטרו בקפידה – כדי לפקח על הבינות המלאכותיות שבשאר הארגון.

כמובן, לא כל החברות יעסיקו מנהל בינה מלאכותית שכזה, ובכל מקרה תמיד יהיו תקלות ובעיות. אני חושש שזה רק עניין של זמן עד שנשמע על הבינה המלאכותית הראשונה שהתמרדה כנגד הארגון ש- 'מעסיק' אותה. נקווה שכאשר זה יקרה, ההשלכות החמורות ביותר יהיו רק ברמה של רמאות במשחק שחמט.

עוד בנושא באתר הידען:

ד"ר רועי צזנה

לבלוג של ד"ר רועי צזנה מדע אחר ד"ר רועי צזנה הוא מחבר הספרים "המדריך לעתיד" ו"השולטים בעתיד"

לכל הכתבות של המחבר