מאמר עדכני מראה שהניבוי הטוקן־אחר־טוקן יוצר שיעור שגיאות מובנה, שמועצם על ידי מדדי הערכה בינאריים שמתגמלים ניחוש; פתרונות מבוססי ספי-ביטחון מצמצמים הזיות אך פוגעים בחוויית המשתמש ומייקרים חישוב — ולכן ברוב השימושים הצרכניים הבעיה תישאר

מחבר: ווי שינג, מרצה בכיר, בית הספר למדעים מתמטיים ופיזיקליים, אוניברסיטת שפילד DOI: 10.64628/AB.kur93yu6h
המאמר המחקרי האחרון של OpenAI מאבחן בדיוק למה צ'אטGPT מודלי שפה גדולים אחרים "ממציאים דברים" – תופעה המוכרת בעולם הבינה המלאכותית כ"הזיות". הוא גם מגלה מדוע הבעיה עלולה להיות בלתי־פתירה, לפחות מבחינת המשתמשים.
המאמר מציע את ההסבר המתמטי המחמיר ביותר עד כה לשאלה, מדוע מודלים אלו מצהירים בביטחון על שקרים. הוא מראה כי אין מדובר רק בתופעת לוואי מצערת של אופן האימון הנוכחי של בינות מלאכותיות – אלא במשהו בלתי־נמנע מבחינה מתמטית.
חלק מהבעיה נובע מטעויות בנתוני הבסיס שעליהם אומנו המערכות. אבל לפי ניתוח מתמטי של אופן הלמידה, החוקרים מוכיחים שגם עם נתוני אימון מושלמים, הבעיה תישאר.
האופן שבו מודלים לשפה מגיבים לשאלות – באמצעות ניבוי מילה אחת בכל פעם על סמך הסתברויות – מייצר טעויות באופן טבעי. למעשה, החוקרים מראים ששיעור השגיאה הכולל ביצירת משפטים גבוה לפחות פי שניים משיעור השגיאה של אותה מערכת בשאלות פשוטות של כן ולא, משום שהטעויות מצטברות על פני מספר ניבויים.
במילים אחרות, שיעור ההזיות תלוי ביכולת של מערכות ה־AI להבחין בין תשובות נכונות לשגויות. מאחר שבעיות סיווג כאלה הן קשות מטבען בתחומים רבים של ידע, ההזיות הופכות לבלתי־נמנעות.
עוד התברר שככל שמודל נחשף פחות לעובדה מסוימת בזמן האימון, כך הסיכוי להזות לגביה עולה. לגבי ימי הולדת של אישים, למשל, נמצא שאם 20% מהתאריכים מופיעים פעם אחת בלבד בנתוני האימון, אזי המודלים אמורים לטעות לפחות ב־20% מהפעמים שיישאלו עליהם.
ואכן, כשחוקרים שאלו מודלים עדכניים על יום ההולדת של אדם קליי (Adam Kalai), אחד ממחברי המאמר, המודל DeepSeek-V3 סיפק שלוש תשובות שגויות שונות בשלושה ניסיונות שונים: "03-07", "15-06" ו־"01-01". התאריך האמיתי בסתיו – אף אחד מהם לא היה קרוב.
מלכודת ההערכה
מדאיג יותר הוא ניתוח המאמר לשאלה מדוע ההזיות ממשיכות למרות מאמצי אימוני המשך נרחבים (כמו מתן משוב אנושי רב לפני שחרור המערכת לציבור). המחברים בחנו עשרה מדדי ביצוע מרכזיים לבינה מלאכותית, בהם כאלה של גוגל, OpenAI וגם טבלאות דירוג מובילות. התברר כי תשעה מתוך עשרה המדדים משתמשים במערכות ניקוד בינאריות שמעניקות אפס נקודות על ביטוי של חוסר ודאות.
כך נוצרת, לדבריהם, התופעה שכשמערכת אומרת "אני לא יודע", היא מקבלת את אותו הציון כמו תשובה שגויה לחלוטין. מכאן שהאסטרטגיה האופטימלית הופכת ברורה: תמיד לנחש.
החוקרים הוכיחו זאת מתמטית. בכל הסתברות נתונה שתשובה מסוימת נכונה – התוחלת של לנחש גבוהה תמיד מהתוחלת של להימנע מתשובה כאשר הניקוד בינארי.
הפתרון שיכול לשבור הכול
הפתרון שמציעה OpenAI הוא לגרום ל־AI לשקלל את רמת הביטחון שלו לפני שהוא מספק תשובה, ולבנות מדדי הערכה שיתחשבו בכך. לדוגמה, ניתן להורות למודל: "ענה רק אם אתה מעל 75% בטוח, כי טעויות ייענשו ב־3 נקודות ומענה נכון יזכה בנקודה אחת."
המסגרת המתמטית מראה כי תחת ערכי סף מתאימים, מערכות יבחרו להביע חוסר ודאות במקום לנחש – וכך תופחת כמות ההזיות. הבעיה היא מה שזה יעשה לחוויית המשתמש.
דמיינו אם צ'אט־GPT יתחיל לענות "אני לא יודע" אפילו על 30% מהשאלות – הערכה שמרנית על פי ניתוח המאמר לגבי אי־ודאות בנתוני האימון. משתמשים שרגילים לקבל תשובות בטוחות לכל שאלה – יינטשו במהירות.
בעיית הכלכלה החישובית
מבחינה טכנית, לא קשה להפחית הזיות באמצעות תובנות המאמר. שיטות לכימות אי־ודאות קיימות כבר עשרות שנים. הן יכולות לשמש להערכת ביטחון אמינה ולהנחות את ה־AI לקבל החלטות חכמות יותר.
אבל גם אם נתגבר על העדפות המשתמשים, יש מכשול נוסף: כלכלה חישובית. מודלים לשפה שמודעים לאי־ודאות דורשים הרבה יותר משאבי חישוב – כי הם צריכים להעריך מספר תשובות אפשריות ולהעריך רמת ביטחון. עבור מערכת שמטפלת במיליוני שאילתות ביום, מדובר בעלות תפעולית גבוהה בהרבה.
גישות מתקדמות יותר כמו למידה אקטיבית, שבה ה־AI שואל שאלות הבהרה כדי לצמצם אי־ודאות, עשויות לשפר את הדיוק אך יכפילו את דרישות החישוב. שיטות כאלה עובדות היטב בתחומים ייעודיים כמו תכנון שבבים, שם טעות אחת שווה מיליונים ומצדיקה חישוב כבד. אך ביישומים צרכניים שבהם המשתמשים מצפים לתשובה מיידית – הכלכלה אינה מאפשרת זאת.
בתחומים קריטיים כמו לוגיסטיקה, מסחר פיננסי או אבחנה רפואית, עלות ההזיות גבוהה בהרבה מעלות החישוב הנוסף. שם הפתרון הופך הכרחי וכלכלי.
אבל רוב פיתוחי ה־AI מכוונים עדיין לשוק הצרכני. המשתמשים רוצים תשובות מהירות ובטוחות לכל שאלה. מדדי ההערכה מתגמלים ניחושים במקום הודאה באי־ודאות. ועלויות המחשוב מעדיפות תגובות מהירות ובטוחות על פני תגובות איטיות וזהירות.
גם אם עלות האנרגיה לכל חישוב תרד ושבבים יתפתחו – החישוב הנוסף הנדרש להערכת ביטחון עדיין יהיה יקר יותר מניחוש מהיר.
השורה התחתונה
המאמר של OpenAI מצביע בלא כוונה על אמת לא נעימה: התמריצים העסקיים המניעים את פיתוח ה־AI הצרכני אינם מתיישרים עם צמצום ההזיות. עד שהתמריצים הללו ישתנו – ההזיות יישארו.
עוד בנושא באתר הידען:
תגובה אחת
חוזר ואומר כבר עשרות שנים , עם נסיון היסטורי מוכח ,, " הקידמה מובילה לקדם " !