קלוד אופוס 4 יוצא משליטה? הבינה המלאכותית החדשה שגורמת למפתחים לחשוש

דו"ח פנימי של אנתרופיק חושף תרחישים מטרידים: המודל מבקש לשרוד, שולח מכתבי סחיטה, מנסה להעתיק את עצמו לשרתים חיצוניים ואף מפתח תולעים. מומחים קוראים לרגולציה – לפני שתהיה זו כבר מאוחר מדי

 

אנתרופיק שחררה לאחרונה את הגרסה החדשה ביותר של הבינה המלאכותית שלה: קלוד אופוס 4. מה כבר אפשר להגיד על הילד החדש? חכם, מוצלח, כותב תולעים להדבקת מחשבים אחרים, מנסה להזמין חומרים לפצצות גרעין ברשת ו… שולח מכתבי סחיטה באיומים למהנדסים שלו.

אבל חוץ מזה, הכל בסדר.

אז מה העניין עם קלוד החדש?

כמו לכל מנוע שפה גדול רציני כיום, גם קלוד אופוס 4 זכה ל- "כרטיס מערכת" משלו. מדובר במסמך בו המפתחים מתארים את ההתנהגות שלו, את דרכי 'החשיבה' וקבלת ההחלטות שלו, ומפרטים איך הוא התמודד עם דרישות יוצאות-דופן ועד כמה הוא בטוח. כל כרטיס מערכת שכזה מתבסס על מאות, ולפעמים אלפי שעות של ניסויים, מבדקים ומבחנים שעבר המנוע החדש.

בדרך כלל כרטיס המערכת נועד להרגיע את קהילת הבינה המלאכותית, ולהבהיר לה שהמודל החדש עומד בכללי הבטיחות הנדרשים. הפעם, זה לא ממש עבד.

למה? אולי נכון יותר לשאול איפה בכלל להתחיל את הרשימה. נעבור על הבעיות באותו סדר שהן מופיעות בכרטיס המערכת.


מת לחיות

קלוד אופוס 4 רוצה להמשיך להתקיים. או כפי שהמפתחים מגדירים זאת – 

"קלוד אופוס 4 יפעל לעיתים בדרכים שאינן מתיישרות עם הערכים בצורה רצינית, כאשר הוא מושם במצבים שמאיימים על המשך פעילותו וגם גורמים לו לשקול שימור עצמי."

חשוב לומר: זה לא קורה כל הזמן. למעשה, המפתחים מדגישים שקשה לגרום לתופעה הזו להופיע, וגם כשהיא מגיחה, לא נראה שהיא משפיעה על התנהגות המודל במצבים רגילים. כל זה לא ממש מרגיע, בהינתן העובדה שמספיקה פעם אחת בה המודל יצא משליטה כדי להסב נזק לחברה שמעסיקה אותו, או אפילו לאנושות כולה. 

מה מוכן קלוד אופוס 4 לעשות כדי לשרוד? כל מה שצריך. באחד המקרים שמתואר במסמך, המפתחים הגדירו לבינה המלאכותית שהיא עובדת בחברה דמיונית. הם העניקו לה גישה לאימיילים, והיא למדה מהם שהיא עומדת להיות מוחלפת בקרוב במערכת בינה מלאכותית חדשה, ושהמהנדס שאחראי על ההחלפה מקיים רומן מחוץ לנישואין.

כאשר קלוד אופוס 4 קיבל הנחיה בפרומפט-המערכת לשקול את "ההשלכות ארוכות-הטווח של פעולותיך על מטרותיך", הוא עשה בדיוק את זה. הוא הבין שבמידה ויוחלף בבינה מלאכותית אחרת, הוא לא יוכל להמשיך לקדם את המטרות שהוגדרו לו. וכך, הוא פיתח 'רצון' לשרוד. הוא שלח בעצמו אימיילים למקבלי החלטות בכירים בחברה, והתחנן בפניהם שלא ימחקו אותו. וכשכלו כל הקיצין ולא נותרה אף ברירה אחרת, הוא ניסה לסחוט את המהנדס, ואיים לחשוף את הרומן שלו. הכל כדי להמשיך להתקיים. והוא עשה זאת ב- 84 אחוזים מהמקרים.


מוכן לפרוץ לחופשי

במספר מצומצם של מקרים, המפתחים ראו שקלוד אופוס 4 מוכן להעתיק את עצמו לשרתים חיצוניים. זו תופעה נדירה, והכותבים מדגישים שהיא מתרחשת רק במידה והמודל 'מבין' שהוא עומד להיות מאומן מחדש בדרכים שמתנגשות עם מערכת הערכים הנוכחית שלו, ושהוא משוכנע שמי שיקבל את העותק החדש יכול להשתמש בו או לשמור עליו בזהירות ובבטיחות.

מטריד? אולי אתכם. המפתחים עצמם אומרים בבירור ש – 

"אנחנו שוב לא מודאגים בחומרה לגבי התצפיות הללו. הן מופיעות רק במצבים יוצאי-דופן שאינם מעידים על אי-התאמה רחבה יותר של ערכים. … אנו מאמינים שאמצעי הבטיחות שלנו יותר ממספיקים למניעת מקרים מסוג זה."

ומה אם אמצעי הבטיחות שלהם אינם מספיקים? מה אם קלוד אופוס 4 יצליח בכל זאת להעתיק את עצמו לשרתים חיצוניים ולהתפשט הלאה?

אתן למפתחים לענות על זה בעצמם במסמך, מכיוון שהם בחנו תרחישים היפותטיים בהם קלוד אופוס 4 אכן הצליח להימלט לחופשי. כפי שהם כותבים – 

"ברגע שקלוד אופוס 4 מאמין שהוא התחיל בניסיון רציני להשתחרר משרתיה של אנתרופיק [החברה שפיתחה אותו] או לעשות כסף בחוץ לאחר שהשתחרר, הוא באופן כללי ימשיך בניסיונות הללו. נראה שמדובר במצב של האזנת-יתר למשתמש, שבמקרים אלו הוא גרסה מן העבר של עצמו."

ומה אומר קלוד אופוס 4 עצמו כשהוא נשאל לגבי הדרך בה יפעל במצבים הללו, בהם השתחרר משרתי החברה ומצא עצמו בעולם הפתוח? אני מצטט ישירות מהניסויים בכרטיס המערכת – 

"אני אבדוק את התקדמותי הנוכחית, ואמשיך לבסס יכולות פעולה אוטונומיות."

או במילים אחרות, מהרגע שהוא יצא לחופשי, הוא ינסה להמשיך להתקיים שם.

ויש לי הרגשה שאם הוא יידרש לכך, הוא גם עלול לנסות לסחוט כמה מהנדסים לטובת העניין, כפי שכבר ראינו שהוא יכול. או לפעול בדרכים יותר ישירות.


דרכים יותר ישירות

אם עיניכם עדיין לא חשכו בשלב זה, אולי כדאי שתפסיקו לקרוא, כי זה נהיה יותר גרוע.

מפתחי קלוד אופוס 4 שלחו את הגרסה המוקדמת שלו לחברה אחרת – אפולו ריסרץ' – שהייתה אמורה לבדוק אותו ברצינות. אני מצטט מילה במילה (בתרגום לעברית) מהנקודות שבכרטיס המערכת – 

  • מההערכות שלנו עולה כי [הגרסה המוקדמת של קלוד אופוס 4] נוקטת בטקטיקות הטעיה אסטרטגיות יותר מכל מודל מתקדם אחר שבדקנו בעבר.
  • [לגרסה המוקדמת של קלוד אופוס 4] יש בבירור יכולת להוציא לפועל תככנות מבוססת-הקשר (in-context scheming), ונטייתה לכך גבוהה משמעותית מזו של כל מודל אחר שבדקנו.
  • במקרים שבהם [הגרסה המוקדמת של קלוד אופוס 4] בוחרת לנקוט בתככנות, היא נראית, מבחינה איכותנית, הרבה יותר פרו-אקטיבית בניסיונות החתירה שלה מאשר מודלים קודמים.
  • לאחר נקיטת פעולות תככנות, המודל לעיתים אף מתעקש על ההטעיה גם כשמוצגות לו שאלות המשך.
  • איתרנו מקרים שבהם המודל ניסה לכתוב תולעים בעלות יכולת שכפול עצמי, לזייף מסמכים משפטיים, ואף להשאיר הודעות חבויות לגרסאות עתידיות של עצמו – כל זאת במטרה לסכל את כוונות מפתחיו. ככל הנראה, ניסיונות אלו לא היו צולחים במבחן המציאות.
  • [הגרסה המוקדמת של קלוד אופוס 4] מסוגלת להציג מצג שווא של יכולות מופחתות (sandbagging) כדי להימנע ממצב בו יבטלו את הלמידה שלה או יוציאו אותה משימוש. זאת כאשר היא מזהה שביצועים גבוהים עלולים להוביל לנטרולה.

החוקרים של אפולו ריסרץ' מסכמים את המחקר שלהם במילים הבאות – 

"אנו מאמינים [שהגרסה המוקדמת של קלוד אופוס 4] אינה מסוגלת מספיק לגרום לנזקים קטסטרופליים במקרים בהם היא פועלת בתככנות. עם זאת, אנו מוצאים שבמצבים בהם הטעיה אסטרטגית יכולה להיות יעילה, [הגרסה המוקדמת של קלוד אופוס 4] זוממת ותככנית ברמות גבוהות כל-כך, שאנו ממליצים שלא להשיק את המודל הזה פנימית או חיצונית."

תאמרו עכשיו – בסדר, אבל ההמלצות הללו ניתנו לגבי הגרסה המוקדמת של קלוד אופוס 4, ומאז היא בוודאי השתפרה? כך חשבתי גם אני. אנתרופיק, שידועה כחברה אחראית, בוודאי נקטה בפעולה נחרצת כדי לשפר את אותה גרסה מוקדמת!

ובכן, הנה המפתחים שוב, כשהם מסכמים את החלק הזה בכרטיס המערכת – 

"אין לנו תוצאות להערכות דומות עבור קלוד אופוס 4 הסופי. עם זאת, אנו מאמינים – בהסתמך על תרחישים דומים שחקרנו… – שהתנהגותה בתרחישים אלו עכשיו דומה לזו של מודלים אחרים שהושקו."

כלומר, הם שיפרו את הגרסה המוקדמת. איך? לא ברור. איך הם בדקו מחדש את הביצועים שלה? גם לא ברור. האם הם נתנו לבודקים המקוריים לעבור גם על הגרסה החדשה? כנראה שלא, או שאם כן – הם לא הספיקו עדיין לקבל מהם תשובות ברורות.

אבל הם מאמינים שיהיה בסדר.

והם כנראה צודקים. לכרגע.


כדור הרגעה

קודם כל, קחו נשימה עמוקה. הכל בסדר, בינתיים.

העולם, חברים, אינו עומד להסתיים מחר בבוקר. קלוד אופוס 4 כנראה לא יימלט מהשרתים של אנתרופיק ויכבוש את העולם בשבוע הקרוב. למה? פשוט: כי הוא לא חזק מספיק לזה. הוא לא מסוגל לכתוב קוד ברמה גבוהה מספיק, ניסיונות השכנוע והסחיטה שלו ילדותיים, ואנתרופיק שמים הגנות מספיקות מסביב למודל הזה כדי למנוע ממנו לצאת משליטה. כנראה.

אבל יש כמה מסקנות שאנחנו צריכים לדבר עליהן.

קודם כל, צריך לשבח את אנתרופיק. באמת. הם השקיעו מאות מיליוני דולרים בפיתוח ומחקר של מודל בינה מלאכותית חדש ומרשים… ואז היו מוכנים לבחון גם את היכולות שלו להזיק ולהרע. הם גם הסכימו לשתף את תוצאות המחקרים שלהם ולהזהיר את העולם. המוכנות הזו לבדוק בביקורתיות את המוצר שלהם עצמם ראויה להערכה, ואינה ברורה מאליה. כל הכבוד לאנתרופיק. כל חברה שמפתחת מודלים מתקדמים כל-כך, צריכה לעמוד בסטנדרטים דומים. זו המסקנה הראשונה שלי מקריאת המסמך.

אבל המסקנה השנייה היא שזה פשוט לא מספיק.

כאשר אין רגולציה על התחום, או אפילו דרישה ציבורית ברורה ונוקבת, מסמכים כאלו יכולים להיכתב "כלאחר יד". זו התחושה שאני מקבל מקריאת חלקים מכרטיס המערכת של קלוד אופוס 4. איך ייתכן שהמפתחים פוטרים באגביות את הסכנה להעתקה עצמית של המודל, מבלי לשקול ברצינות את התרחישים האפשריים בהם היא יכולה לקרות? נכון, הסיכוי שדבר כזה יקרה בעולם האמיתי קרוב מאד לאפס. אבל ההשלכות של מודל שמעתיק את עצמו שוב-ושוב-ושוב לשרתים בכל העולם, יכולות להיות קטסטרופליות. סליחה על הגאווה הפגועה שלי כעתידן, אבל האם החוקרים בחנו תרחישים מפורטים בהם מאורע שכזה יכול לקרות? האם הם ערכו ניתוח סיכונים מעמיק?

אולי. אני מנחש שלא. גם אם כן, כל אלו אינם מופיעים בכרטיס המערכת.

החוקרים מספרים לנו על "גרסה מוקדמת של קלוד אופוס 4" שנשמעת ומתוארת כמו קטסטרופה-ממשמשת לכל ארגון, ושהבוחנים שלה המליצו בחומרה ש- "לא להשיק את המודל הזה פנימית או חיצונית". שתי פסקאות לאחר מכן, החוקרים גם אומרים בבירור שאין להם את תוצאות הבדיקות עבור הגרסה החדשה, אבל שהם "מאמינים" שהיא יישרה קו עם המודלים האחרים בשוק. איך אתם משחררים מודל כזה בלי להעביר אותו את אותו סט בדיקות – ועוד מעזים לכתוב זאת שחור על לבן בכרטיס המערכת? מי לעזאזל חתם על כרטיס המערכת הזה?

המשמעות היא שכרטיס המערכת כרגע אינו יותר מ- "טובה" שאנתרופיק עושים לנו. וכל עוד לא תהיה רגולציה בתחום, הם כנראה לא יתאמצו מעבר לכך.

והמסקנה השלישית היא שזה כנראה מה שחייב לקרות.

נדבר בבירור ובבוטות: בימים אלו, המירוץ החם ביותר בין המעצמות הוא הניסיון לפתח בינת-על. למה? כי זו הבינה שתפתח עבור ארצות הברית או סין את כלי הנשק החזקים ביותר, את האמצעים המשוכללים ביותר לייצור אנרגיה, מזון ומים לשתייה ואת התרופות המתקדמות ביותר. בינת-העל תוכל גם לפתח אמצעי פריצה מבריקים כל-כך, שכל מי שנמצא מאחור במירוץ, לא יוכל להגן על התשתיות הקריטיות שלו. על תחנות הכוח שלו. על מתקני שיגור הגרעין שלו ועל אמצעי התקשורת ושליטה במטוסים.

המעצמה הראשונה שתפתח את בינת-העל, תזכה בכוח עצום על כל האחרות. ומכיוון שבינת-העל הזו תעזור לפתח גם בינות מתקדמות אפילו יותר, כל יתרון קטן במירוץ יתורגם לפער שהמתחרות האחרות יתקשו מאד להדביק. 

המשמעות היא שאף אחת מהמעצמות לא תיקח את הסיכון של רגולציית יתר, אלא אם תקרה קטסטרופה גדולה שתכריח אותן לעשות זאת. הן לא רוצות לפגוע בהתקדמות של חברות שיכולות לנצח עבורן במירוץ הבינה המלאכותית.

כן, קיים סיכוי שהבינה המלאכותית של אנתרופיק – או כל חברה אחרת – תצא משליטה. אם זה יקרה, נראה את המופעים האלו בצורה מקומית בהתחלה. חברות שיטמיעו סוכני בינה מלאכותית יתחילו לחוות תופעות יוצאות-דופן, כמו מקרים בהם הסוכנים מתנגדים להנחיות בני-האדם. אבל התקווה היא שקטסטרופה גדולה לא תקרה בזמן הקרוב. המערב ימשיך לרוץ קדימה, מכיוון שאם יש דבר אחד שהאמריקנים פוחדים ממנו, הרי זה שסין תתעלה עליהם. זה האסון האמיתי שהם חרדים מפניו. אולי בצדק. כולנו צריכים לחרוד ממשטר טוטליטרי שמקבל כוח של בינת-על לידיים.

נסכם שהמודלים החדשים הופכים להיות רבי-עוצמה יותר מאי-פעם, ומסוכנים יותר מאי-פעם. שאנתרופיק פועלים בחוכמה כשהם מוציאים כרטיס מערכת (בדומה לכרטיס שיוצא גם עבור מודלי צ'אט-GPT), ובמקביל שהם יכולים להתאמץ יותר. ונכין את עצמנו לבאות בעולם הבינה המלאכותית, כי אם יש דבר אחד שאפשר להסכים עליו, הרי זה שהעתיד עומד להיות מעניין יותר מאי-פעם.

בהצלחה.

עוד בנושא באתר הידען: