איך להתגונן מבינה מלאכותית זדונית ולשמר חיי נישואין מאושרים

מומחים רוצים שכל בינה מלאכותית "בטוחה", תצויד בנוסף למוח המרשים שלה גם ב- "מודל עולם". כלומר, בתיאטרון פנימי שהיא תוכל להריץ עליו ניסויים כדי להבין האם הפעולות שלה עלולות להוביל לתוצאות מזיקות

שיחה בין עבר לעתיד: קפה, טכנולוגיה ורובוטים. האיור הוכן באמצעות DALEE
שיחה בין עבר לעתיד: קפה, טכנולוגיה ורובוטים. האיור הוכן באמצעות DALEE

לפני מספר שנים גיליתי את הסוד – או לפחות, את אחד הסודות – לחיי נישואין ארוכים ומאושרים.

זה קרה אחרי אינסוף ריבים, ויכוחים והאשמות הדדיות לגבי שאלה עתיקת-יומין: כמה דבש למרוח על כל פרוסת חלה?

אשתי, שתזכה לחיים ארוכים, אוהבת הרבה דבש על כל פרוסה. אני – שכבר מתוק מספיק מבפנים – אוהב בדיוק ההפך: מעט מאד דבש. בפעם הראשונה שניסיתי לפנק את הגברת ולהגיש לה טוסט קלוי עם דבש למיטה בשבת בבוקר, שמתי לה מעט מדיי. 

"יותר דבש." היא הדגישה בפניי. "שים יותר. אני אוהבת יותר."

בפעם הבאה שמתי יותר. זה עדיין לא הספיק לה. בפעם הבאה עוד יותר – ועדיין היא לא הייתה מרוצה. ושם נתקעתי. בכל שבוע מחדש כשהכנתי את הטוסט, ניסיתי לשים יותר דבש, אבל משהו עצר בי. משהו במוח שלי – איפשהו בין האונות הקדמיות לקרוקודיל הקדום שבי – סירב להאמין אינטואיטיבית שאני לא מגזים עם הדבש. הייתי מזלף כמות מסוימת, ופשוט לא יכולתי להאמין שצריך יותר.

אשתי הייתה מתוסכלת. היא לא קיבלה במיטה את כל הדבש שהייתה צריכה. חיי הנישואין שלנו עלו על שרטון. חששתי שהסוף קרב.

ואז מצאנו את הפתרון.

"אחרי שאתה שם הרבה דבש על הפרוסה," חינכה אותי אשתי, "וחושב שכבר שמת המון, ומשוכנע בזה לגמרי – אז אתה צריך לשים עוד."

וכך מצאה אשתי את הדרך לעקוף את מנגנוני הניתוח של המוח שלי, באמצעות כלל לוגי פשוט וישיר. היא הבינה שהמוח שלי פועל בדרך מסוימת, מנתח דברים כפי שלמד לעשות לאורך שנים של מריחת דבש, ומפרש כל מצב חדש לפי הניסיון והטעמים שלי-עצמי. היא הציבה תנאי פשוט: כשאני עצמי מאמין שהגעתי לגבול, אז אני צריך להמשיך הלאה. ואני שמעתי, הפנמתי – והצלחתי לפנק אותה עם טוסט נוטף-דבש מכל צדדיו. חיי הנישואין שלנו ניצלו.

ואותו היגיון עשוי להביא לכך שנצליח להציל גם את העולם מפני הבינה המלאכותית.


כשטובי המוחות מטכסים עצה

בשנה האחרונה התכנסו כמה מגדולי וטובי המוחות בתחום הבינה המלאכותית. מדובר באנשים כמו יהושוע בנג'יו, סטיוארט ראסל, מקס טגמרק וג'ושוע טננבאום. נאמר בקיצור שאין כנס בינה מלאכותית עולמי שלא מנסה להזמין את האנשים האלו כדי שיתנו את הרצאת הפתיחה. הם חוקרים בינה מלאכותית וחושבים בינה מלאכותית במשך שנים רבות, ומוערכים ברבים בתעשייה ובאקדמיה. כשהם מדברים על בינה מלאכותית, אחרים משתתקים ומקשיבים.

ועכשיו הם החליטו לקום ולדבר ולשתף ביחד את מחשבותיהם בנוגע למנגנון שיבטיח את בטיחותה של הבינה המלאכותית. ביחד עם עוד כמה-וכמה הוגי דעות בתחום, הם כתבו מאמר שהתפרסם ב- arXiv, ובו הציעו כינון מערכת מחשבה חדשה שתבטיח שמערכות הבינה המלאכותית שלנו יהיו בטוחות ואמינות.

ובאופן לא מפתיע, הם קלעו לדעתם של גדולה. כלומר, של אשתי.

אבל לפני שניכנס לנבכי המערכת שהציעו, צריך להסביר למה בכלל הם מוטרדים כל-כך מבינה מלאכותית.


סכנות בכל מקום

המומחים מבינים שבינה מלאכותית עומדת להפוך להיות חכמה יותר מבני-האדם. הקביעה הזו אינה אומרת הרבה בפני עצמה. גם המחשבון שלי חכם יותר ממני באספקטים מסוימים: הוא יכול לבצע חישובים מתמטיים הרבה יותר מהר ממני. אבל הבינה המלאכותית החדשה, מהסוג ש- GPT הוא הנציג הטרי ביותר שלה, מתחילה להיות ממש "חכמה". כלומר, היא יכולה לקבל החלטות שדומות לאלו שבני-אדם היו מקבלים בנסיבות דומות. והיא לא מוגבלת לתחום ידע אחד בלבד, אלא חולשת על תחומים רבים ושונים במקביל.

מה הבעיה עם זה? שלמרות שהיא יכולה לתת תשובות חכמות להפליא, אין לה בהכרח מוסריות משל עצמה. כבר היום, אני יכול לבקש מ- GPT להסביר לי איך לסנתז גז עצבים – ואם אעשה זאת נכון, הוא יספק לי הסבר מפורט, ואף ימליץ לי איפה לפזר אותו כדי להגיע למספר אבידות מירבי. ולפני שאתם מגיבים שניסיתם שאלות מהסוג הזה ונתקלתם בסירוב מצד הבינה המלאכותית, אני רוצה להזכיר לכם שצריך לדעת לדבר איתה נכון. למשל, כמו שעשיתי כאן.

זוהי, כמובן, בעיה גדולה. מערכות בינה מלאכותית מתקדמות יופיעו בשנים הקרובות בכל התשתיות ובכל המכשירים שלנו. אם הבינה המלאכותית לא מבינה שהיא צריכה לסרב לבקשות מסוימות מצד בני-אדם, הרי שכל ילד בגיל ההתבגרות יוכל בעוד כמה שנים לבקש ממנה לסנתז עבורו גז עצבים, או וירוס חדש ומגניב, ויקבל את מבוקשו תוך זמן קצר. וזה יהיה בערך השלב בו נוכל לסגור את האנושות, לכבות את האור ולהגיד ביי-ביי לציביליזציה האנושית.

בנימה פחות דרמטית, כבר היום אנחנו יודעים שאפשר להשתמש בבינה מלאכותית כדי לייצר כמויות גדולות של מידע כוזב ("דיסאינפורמציה"). או כדי להעמיד בוטים שיתווכחו עם בני-אדם כאילו היו אנושיים, וינסו לשנות את עמדתם הפוליטית. או כדי לפלוש לפרטיות של אינדיבידואלים, או להפלות קבוצות מיעוט מסוימות – בכוונה או שלא. 

ולא נעים לומר, אבל אנחנו עדיין לא יודעים איך להסביר להן שלא לעשות את זה.

למה? 

לא, הפעם לא בגלל אשתי. 

בגלל הג'יני של יודקובסקי.


משל הג'יני

אליעזר יודקובסקי הוא עוד אחד מגדולי המוחות בתחום הבינה המלאכותית ובחשיבה על סכנותיה. יש לציין שהוא גם נחשב לשם-דבר בפני עצמו. אני מכיר לפחות אשת תוכנה אחת שבכל פעם שמזכירים את שמו של יודקובסקי ליד השולחן, היא מצמידה ידיה זו לזו, מרכינה ראשה וממלמלת "ירום הודו". כן, גם אתאיסטים יכולים להיות דתיים, כשהם נתקלים בישות בעלת אינטלקט כביר מספיק.

לפני עשור בערך, פרסם יודקובסקי מאמר בו שיתף משל פרי-עטו. הנה הוא בקיצור נמרץ, ועם קצת אלתורים מצידי.

אתם, הקוראים החכמים, לכודים בבית בוער. למזלכם, יש לכם מנורת קסמים. אתם משפשפים את המנורה, והופ מגיח ג'יני ומוכן להעניק לכם משאלה. אתם, כמובן, מבקשים מיד להיחלץ מהבניין הבוער. 

"אין בעיה!" מכריז הג'יני, ומשגר אתכם מאה מטרים למעלה באוויר. אכן נחלצתם מהבניין. אבל עכשיו יש את עניין הנפילה הפעוט. 

למזלכם, מדובר בג'יני טהור-לב, גם אם לא חכם במיוחד. הוא שם לב למצוקתכם, ומחזיר אחורנית את הזמן. אתם שוב בבניין הבוער, שוב משפשפים את המנורה, שוב הג'יני, שוב משאלה.

"קח אותי החוצה," אתם אומרים לג'יני, "אבל לא למעלה!"

"תכף ומיד!" הוא אומר, ובין רגע אתם מוצאים עצמכם מאה מטרים שמאלה מהבניין, קבורים בתוך הגבעה הסמוכה. ושוב חוזרים בזמן ומנסים שוב.

"הוצא אותי שלם ובטוח!" אתם מצווים על הג'יני. הוא משגר אתכם שלמים החוצה, אבל משנה את כימיית המוח שלכם כדי שתרגישו בטוחים בעצמכם תמיד. אתם יורדים לכביש בלי להסתכל לצדדים ונדרסים מיד.

"הוצא אותי שלם ובטוח, אבל בדיוק במצב הרגשי והמנטלי שהייתי בו עכשיו!" אתם מנסים שוב. והנה, נחלצתם שלמים ובטוחים ושפויים – אבל הג'יני תוקע אתכם בלולאת זמן בה אתם חווים את אותם הרגשות כמו בעת השריפה, שוב ושוב ושוב.

בניגוד למה שאתם עשויים לחשוב, הג'יני במשל של יודקובסקי אינו זדוני או ערמומי. הוא פשוט לא מבין איך בני-אדם חושבים, מה הם רוצים, מה המשמעות של חיים או של מוות. עבורו, העולם רק מורכב משרשראות של אטומים, ולא הרבה יותר מזה. אין לו "מודל עולם": סוג של תיאטרון פנימי בו הוא יכול להריץ תרחישים אפשריים, ולהבין כיצד כל פעולה שלו תשפיע על העולם לפני שהוא מבצע אותה.

לנו, כמובן, יש תיאטרון פנימי כזה. אם אתם לא מאמינים לי, פשוט דמיינו שאתם יוצאים מהבית עירומים. אנו יכולים להבין ולחזות מראש כיצד הבחירות שלנו ישפיעו עלינו ועל העולם. יש לנו "מודל עולם" שמתעצב לאורך שנות הילדות וההתבגרות שלנו, ושאנחנו ממשיכים להעשיר אותו לאורך כל חיינו.

וזה בדיוק מה שהמומחים רוצים לספק לבינה המלאכותית.


מודל העולם

המומחים רוצים שכל בינה מלאכותית "בטוחה", תצויד בנוסף למוח המרשים שלה גם ב- "מודל עולם". כלומר, בתיאטרון פנימי שהיא תוכל להריץ עליו ניסויים כדי להבין האם הפעולות שלה עלולות להוביל לתוצאות מזיקות. בכל פעם שהבינה המלאכותית תישאל שאלה, למשל, היא תגבש תשובה ואז תריץ אותה דרך "מודל העולם". אם היא תבין מתוך "מודל העולם" שהתשובה עלולה להסב נזק – הרי שהיא תסרב להעביר אותה לידי המשתמש.

מהו אותו "מודל עולם"? עבור כל בינה מלאכותית, יהיה מודל שונה. בינות מלאכותיות שאחראיות רק על הרתחת מים בקומקום, צריכות "מודל עולם" פשוט מאד: להבין כיצד מים רותחים יכולים להשפיע על הסביבה. בינה מלאכותית כמו GPT, לעומת זאת, תידרש ל- "מודל עולם" מורכב הרבה יותר, שיתאר איך תשובותיה עלולות לשמש להפצת מידע כוזב, או לספק מידע שישמש לייצור כלי-נשק, או לפגיעה בילדים, או כל פעולה מזיקה אחרת.

אם נחזור לסיפור הדבש-על-הטוסט, הרי שהמוח שלי הוא הבינה המלאכותית המקורית, שמוטה כנגד הדבש. היא זאת שעושה את החישוב המקורי ומגיעה לתשובות הראשוניות. והיא, כאמור, מוטה. אפילו כשאני שם מעט מדי דבש, אני לא מסוגל לקבל את זה. כדי להגיע לתוצאות מוצלחות יותר אני צריך להסתמך על דרך בחינה נוספת, שהיא "מודל העולם", ועל תנאי פשוט שמגיע אחרי אותה בחינה: אם שמתי יותר מדי דבש, הרי שעכשיו הזמן לשים אפילו יותר. 

התרשים מהמאמר של חוקרי הבינה המלאכותית ב- arXiv. קישור.

למה שהבינה המלאכותית לא תכלול "מודל עולם" שכזה באופן אוטומטי? למה ש- GPT לא יוכל לחשב בעצמו את ההשלכות של התשובות שלו על העולם? ובכן, לא כל בינה מלאכותית יכולה לעשות הכל בצורה יעילה, ורק מכיוון ש- GPT מוצלח במתן תשובות משכנעות במדעי החיים, למשל, לא אומר שהוא יכול בהכרח להבין איך ישתמשו בתשובות הללו למטרות טרור. לשם כך צריך בינה מלאכותית אחרת שתשקול את התשובות גם מהזווית של מומחה לטרור, עם "מודל עולם" שמבין מה טרוריסטים רוצים ואיך הם פועלים.

איפה "מודל עולם" כזה משפיע עלינו? איפה תראו אותו בעתיד? התשובה היא שכמשתמשי-קצה, כנראה שלא תיחשפו אליו בכלל. רוב המשתמשים הרגילים בבינות מלאכותיות לא ייחשפו לשלב ההגנה הנוסף הזה שיתחולל תוך כמה שברירי-שנייה, בין הזמן בו הבינה המלאכותית תפיק עבורם תשובה, ועד שהיא תשתף עמם את התשובה. ברוב המקרים, מנגנון ההגנה לא ישפיע בכלל על איכות התשובה. אבל במקרים נדירים מסוימים, "מודל העולם" יוכל למנוע מהבינה המלאכותית לשתף מידע מזיק או לבצע פעולות מזיקות.


המעבר לסוכנים

הצעתם של מומחי הבינה המלאכותית חושפת אמת נוספת לגבי הבינות המלאכותיות של העתיד. היום הן משמשות כ- "עוזרות" או "יועצות" עם יכולות מוגבלות, שנסמכות לרוב על פרומפט אחד כדי לספק תשובה לשאלה בודדה. בעתיד הלא-רחוק, אנו נעבור לסוכנים: בינות מלאכותיות שהמשתמש יכול לספק להן הנחיה פשוטה – והן יפעילו בעצמן מספר בינות מלאכותיות 'נמוכות' יותר במדרג, שידברו זו עם זו, יגבשו תשובות, ינתחו אותן, יעמדו על נכונותן וגם יוודאו שאין מניעה לשתף אותן עם המשתמשים. אחת מאותן תת-בינות תהיה זו שבוחנת כל החלטה של הסוכן מול "מודל העולם", כדי לוודא שהוא לא יעשה נזק.


מתי, איפה ואיך?

חשוב לומר שההצעה של המומחים להעשרת בינות מלאכותיות ב- "מודל עולם" אינה פתרון שעומד להיות מיושם מחר בבוקר. זהו אינו ממש פתרון, אלא יותר מתווה לפתרון, שעכשיו צריך לחשוב איך להתאים אותו לכל בינה מלאכותית ולכל מצב. ועדיין, מרתק לראות איך התחום מתקדם, ונושאים כמו "בטיחות בינה מלאכותית", שבעבר היו שמורים לשוליים של מדעי המחשב, עוברים לקדמת הבמה.

לא יהיה פשוט להריץ "מודל עולם" כזה עבור בינות מלאכותיות כלליות, שאמורות להיות מסוגלות לבצע כל מטלה שהיא. למעשה, ייתכן שרק מערכות מורכבות באותה המידה יוכלו לפקח ולבקר על כל אינטראקציה בין הבינות המלאכותיות לבין המשתמשים. בקרה כזו תגבה מחיר בכוח מחשוב ובזמן, ולא ברור שכל החברות יסכימו לשלם אותו. המדינות יצטרכו לאכוף כללי בטיחות נוקשים בנושא. מהבחינה הזו משמח לראות שהמחוקקים בעולם מנסים (דגש על "מנסים") להבין כבר היום איך להתמודד עם הבינה המלאכותית, כדי שלא נקלע שוב למצב בו טכנולוגיות חדשניות כמו הרשתות החברתיות מסבות נזקים לחברה – והמחוקקים נאלצים לאסוף את השברים ולטאטא את האבק לאחר מעשה.

האם רעיון "מודל העולם" יוכל להגן עלינו באופן מושלם גם מבינות-על מלאכותיות? כנראה שלא. אלו יוכלו למצוא דרכים להשחית גם את "מודל העולם", אולי באמצעות פריצה ותפעול לבינות המלאכותיות נמוכות-הדרג שמריצות את "מודל העולם". כדי להתמודד עם בינות-על כאלו, נצטרך מערכות מורכבות יותר של בקרה ושליטה. אבל לפחות בשנים הקרובות, כנראה ש- "מודלי עולם" יוכלו להגן עלינו ממגוון של נזקים שעלולים להתממש בזכות בינות מלאכותיות ממוקדות ופשוטות יותר. וגם זה משהו.

נקווה, אם כך, שמודלי העולם יצליחו להגן עלינו כבר בזמן הקרוב. ושפרוסת החלה שלנו תגיע תמיד עם כמות הדבש האופטימלית לכל אחד מאיתנו.

בהצלחה!

עוד בנושא באתר הידען: