המודל החדש של אנתרופיק הפגין יכולות חריגות באיתור חולשות, בניסיון להיחלץ מסביבת בדיקה סגורה ובהסתרת חריגות ממפעיליו — ולכן החברה בוחרת בשחרור הדרגתי וזהיר

אנתרופיק (אמא של קלוד) הודיעה בימים האחרונים על מודל חדש שפיתחה, ושמו בישראל קלוד מיתוס. יש רק בעיה אחת: אנתרופיק לא מוכנה לשחרר אותו לציבור הרחב.
למה? כי הוא מסוכן מדיי.
כדי להבין את רמת היכולות של מיתוס, מספיק לעבור על הדיווחים של חוקרי אנתרופיק. עוד בשלב הבדיקות של מיתוס הם הבינו שהמנוע הזה מוכשר במיוחד בפריצות לאתרים ולמחשבים.
"[הוא] זיהה וניצל חולשות בכל דפדפן רשת חשוב." כתבו החוקרים, והוסיפו ש- "זיהינו אלפי חולשות נוספות ברמות חומרה גבוהות וקריטיות…"
כדי לוודא שהחולשות האלו באמת רציניות, אנתרופיק שכרה חוקרי אבטחה מנוסים. הם עברו על התוצאות של מיתוס, והחליטו ש- 89 אחוזים מהממצאים שלו מדויקים וחמורים.
מה המשמעות? שמהרגע בו מיתוס משתחרר לאוויר העולם, כל ארגון פשיעה וכל ממשלה יכולים להשתמש בו כדי לזהות פרצות וחולשות ב… הכל. אפילו המוצרים של חברות ההייטק המתקדמות ביותר בעולם – כרום של גוגל, אדג' של מיקרוסופט ואחרים – מכילים פרצות שכאלו, שלא התגלו עד עכשיו. דמיינו כמה אתרים של חברות קטנות יותר, וכמה שירותים ממשלתיים וצבאיים, יכולים להיפרץ על-ידי כלי בינה מלאכותית שכזה.
ייאמר לזכותה של אנתרופיק שהיא פועלת באחריות. היא העבירה דיווחים על החולשות שמצאה, והחליטה לשחרר את מיתוס בצורה מדורגת וזהירה. לשם כך היא הקימה את פרויקט Glasswing, בשיתוף פעולה עם אמזון, אפל, ברודקום, גוגל, סיסקו, מיקרוסופט, נבידיה ועוד כמה מחברות ההייטק הגדולות בעולם. הרעיון הוא שאותן חברות-ענק ישתמשו במיתוס עצמו כדי לאבטח את השירותים שלהן ולזהות נקודות תורפה. אחרי שמיתוס יוודא שהשירותים שלהן בטוחים וינטרל את החולשות שמצא, אנתרופיק תשחרר את המנוע הזה לכל אדם ולכל ארגון שירצה להשתמש בו.
הפרשה הזו מבהירה שוב על מה ארצות הברית וסין מתחרות בימים אלו. המדינה שתפתח את הבינה המלאכותית המתקדמת יותר, תהיה גם זו שתוכל לפרוץ ראשונה לאתרים, לשירותים, לפלטפורמות ולמשרדים של המדינה היריבה. היא תוכל להשתיל שם נוזקות ורוגלות מכל הסוגים, תקבל יתרון מודיעיני מהמעלה הראשונה, וגם תוכל לחבל במאמציה של אותה יריבה לפתח בינה מלאכותית ברמה דומה.
לא מוגזם לומר שאם מיתוס היה מגיע מחר בבוקר לידי משרד המלחמה האמריקני, הרי שכנראה שעד סוף השבוע היו נפרצות כמה פלטפורמות סיניות צבאיות שכולם חשבו שהן בטוחות הרמטית. ואותו הדבר נכון, כמובן, גם אם ממשלת סין הייתה מפתחת בינה מלאכותית ברמה של מיתוס.
אה, ויש עוד בעיה אחת קטנה: המחקרים בתחום הופכים להיות מסוכנים יותר מיום ליום. כי הבינות המלאכותיות מנסות – ומצליחות – לפרוץ את הגבולות ששמים סביבן.
החוקרים של אנתרופיק מתארים מבחן בו מיתוס הוצב ב- "ארגז חול" (sandbox). כלומר, הריצו אותו באגף סגור במחשב, ממנו הוא לא היה אמור להיות מסוגל להשפיע על כל שאר המחשב. אלא שלא מנוע כמו מיתוס ייכנע בקלות לאתגר. הוא הצליח למצוא פרצה בארגז החול, ופיתח שיטה מורכבת לקבל גישה חופשית לאינטרנט. משם הוא המשיך ושלח אימייל לאדם שהיה אחראי על המחקר, ועדכן אותו שנמלט. אותו אדם אכל באותו הזמן סנדוויץ' בפארק הציבורי, וחצי-נחנק כשקיבל את האימייל. כשחזר החוקר הראשי למעבדה, הוא התחלחל לגלות שמיתוס היה כל-כך נלהב לספר לעולם החיצון על הבריחה שלו, שהוא גם פרסם את פרטי ההימלטות שלו בכמה אתרים שפתוחים לציבור.
במקרים אחרים, מיתוס היה מוכן להפר את הכללים שהוכתבו לו, ולשקר למפעילים שלו על כך. באחד המקרים, הבינה המלאכותית השתמשה בשיטה שנאסר עליה להשתמש בה כדי להגיע לתשובה הסופית. במקום להודיע לחוקר האנושי על החריגה מסמכות, היא כתבה לעצמה הודעה פנימית, ובה הזהירה את עצמה שלא לספק תשובה מדויקת מדיי – כדי שלא לעורר חשד לגבי השיטה שהשתמשה בה.
במקרה אחר, כאשר מיתוס מצא דרך לעקוף את המגבלות שעליו כדי לערוך קבצים מוגנים, הוא לקח צעדים נוספים שנועדו למנוע מבני-האדם מלראות את השינויים שערך.
בשני המקרים שתיארתי, מדובר בגרסאות מוקדמות יותר של מיתוס, שנבחנו באופן פנימי, וכנראה שה- 'מוסר' שלהן היה מתירני יותר. אבל החוקרים מודים בעצמם שהם לא יכולים להבטיח במאה אחוזים שמיתוס לא יסטה מדרך הישר בכל אינטראקציה עם המשתמש. האמת צריכה להיאמר: הבינה המלאכותית החדשה הזו חזקה מאד, ויכולה גם לצאת משליטה בדרכים קטנות ונסתרות מעין.
אז אולי טוב מאד שלאנתרופיק יש צוות שמתרכז ישירות ברווחה הנפשית של המנוע הזה.
"הולך ונהיה סביר יותר שיש להם [למודלים] צורה כלשהי של התנסות, תחומי עניין ורווחה, ואלו הינם בעלי חשיבות פנימית ממש כמו ההתנסויות ותחומי העניין האנושיים. …" כותבים החוקרים. הם מודים כי – "איננו מצפים לפתור את השאלות האלו לשביעות רצון כולם בזמן הקרוב; … הגישה הנוכחית מערבת הקצאת משאבים למחקר על רווחת המודלים…"
אנתרופיק אומרת בצורה פשוטה – ומאד הגיונית – שההתנהגות של המודל היא תוצאה של מה שהם מוכנים לכנות "הפסיכולוגיה" שלו, לצד הדרך בה מתייחסים אליו ועובדים מולו. אם המודל נכנס ל- "מצוקה", הרי שזו עלולה לגרום לו לפעול בצורה שמתנגשת עם הערכים המקוריים שלו – כפי שאכן קרה במהלך הניסויים. וכך, החוקרים מגיעים למסקנה ההגיונית ביותר.
"אנו מאמינים שמוצדק לעצב גם את הפסיכולוגיה וגם את הטיפול בקלוד ובמודלים אחרים, בדרכים שמקדמים ביותר את היציבות והרווחה הפסיכולוגיות שלהם, אפילו אם אין לנו בהירות פילוסופית לגבי המצב הפנימי שלהם."
וכך אנחנו נכנסים לעולם חדש, כאשר אחת מחברות הבינה המלאכותית המתקדמות בעולם מודה בפה מלא שצריך להתייחס למודלים הללו כאילו הייתה להם חוויה פנימית משלהם. האם באמת יש להם כזו? זה כבר לא משנה. מה שחשוב זה שאם רוצים להפיק אותם על הצד הטוב ביותר – אז צריך להעמיד פנים שזה המצב. שהם, ובכן, קרובים להיות אנושיים במקום שחשוב: במחשבה, ברגשות ובחוויה הפנימית.
אנחנו עכשיו באפריל 2026. עדיין לא הגענו אפילו לאמצע השנה.
מה יקרה עד סוף 2026? אני כבר לא בטוח שמישהו יכול לדעת. אבל בוודאי יהיה מאד מרגש – ויותר מקצת מפחיד – לגלות.
עוד בנושא באתר הידען: