מחקר חדש: מודלי שפה עדיין אינם אמינים דיים למשימות ליבה בפיתוח תוכנה

מבחן השוואתי ל־11 מודלי שפה הראה כי פלטים מובנים משפרים את העבודה עם קוד, אך עדיין אינם מבטיחים תוצאות אמינות ללא פיקוח אנושי * גם בפלטים מובנים כמו JSON, XML ו־Markdown, מודלי שפה גדולים עדיין מתקשים לשמור על דיוק ועקביות, במיוחד במשימות חזותיות כמו אתרי אינטרנט, תמונות ווידאו

בינה מלאכותית כותבת קוד. <a href="https://depositphotos.com. ">המחשה: depositphotos.com</a>
בינה מלאכותית כותבת קוד. המחשה: depositphotos.com

מחקר חדש מאוניברסיטת ווטרלו מראה כי בינה מלאכותית עדיין מתקשה בכמה ממשימות היסוד של פיתוח תוכנה, ומעלה שאלות לגבי מידת האמינות שבה מערכות כאלה יכולות לסייע למפתחים. ככל שמודלי שפה גדולים משתלבים יותר ויותר בפיתוח תוכנה, מפתחים מתקשים להבטיח שהתשובות שמייצרת הבינה המלאכותית יהיו מדויקות, עקביות וקלות לשילוב בתהליכי עבודה רחבים יותר.

המחקר, "StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs", פורסם בכתב העת Transactions on Machine Learning Research, והוצג ב־ICLR 2026.

בעבר השיבו מודלי שפה גדולים לפקודות בתחום פיתוח התוכנה באמצעות תשובות חופשיות בשפה טבעית. כדי להתמודד עם הבעיה הזאת, כמה חברות בינה מלאכותית, ובהן OpenAI , גוגל ואנתרופיק, הציגו "פלטים מובְנים". פלטים אלה מאלצים את מודלי השפה לפעול לפי פורמטים מוגדרים מראש, כגון JSON, XML אוMarkdown , וכך מקלים הן על בני אדם והן על מערכות תוכנה לקרוא ולעבד את התוצאה.

ואולם, מחקר השוואתי חדש מווטרלו מראה כי הטכנולוגיה הזאת עדיין אינה אמינה כפי שמפתחים רבים קיוו. גם המודלים המתקדמים ביותר הגיעו רק לדיוק של כ־75% במבחנים, ואילו מודלים בקוד פתוח הגיעו לתוצאות של כ־65%.

המחקר בחן 11 מודלי שפה גדולים ב־18 פורמטים של פלט מובנה וב־44 משימות שנועדו לבדוק עד כמה המערכות מקפידות על כללים מבניים מוגדרים.

"בסוג כזה של מחקר אנחנו רוצים למדוד לא רק את התחביר של הקוד, כלומר אם הוא אכן מציית לכללים שנקבעו, אלא גם אם הפלטים שנוצרים עבור משימות שונות הם מדויקים", אמר דונגפו ג'יאנג, דוקטורנט למדעי המחשב ואחד משני המחברים הראשיים של המחקר.

"מצאנו שאמנם המודלים מסתדרים לא רע במשימות הקשורות לטקסט, אבל הם מתקשים מאוד במשימות שכוללות יצירת תמונות, וידאו או אתרי אינטרנט."

המחקר היה מאמץ משותף שכלל את ג'יאלין יאנג מאוניברסיטת ווטרלו, סטודנט לתואר ראשון, ואת ד"ר וֶנְהוּ צ'ן, פרופסור עוזר למדעי המחשב. הוא כלל גם הערות תיוג ובקרה של 17 חוקרים נוספים מווטרלו וממקומות אחרים בעולם.

"היו במעבדות שלנו לאחרונה לא מעט פרויקטי השוואה דומים", אמר צ'ן. "בווטרלו, סטודנטים מתחילים לעיתים כמתייגים, אחר כך מארגנים פרויקטים, ולבסוף יוצרים מחקרי השוואה משלהם. הם לא רק משתמשים בבינה מלאכותית במחקרים שלהם, אלא גם בונים אותה, חוקרים אותה ומעריכים אותה."

החוקרים אומרים כי אף שפלטים מובנים של מודלי שפה גדולים הם צעד מסקרן עבור פיתוח תוכנה, המערכות עדיין אינן אמינות מספיק כדי לפעול ללא פיקוח אנושי.

"למפתחים אולי יהיו סוכנים כאלה שעובדים עבורם, אבל הם עדיין יזדקקו לפיקוח אנושי משמעותי", אמר ג'יאנג.

למאמר המדעי https://arxiv.org/abs/2505.20139

עוד בנושא באתר הידען:


תגובה אחת

  1. היה קשה להגיע ל 75% ?
    כי להגיע ל 92.5% יהיה עוד יותר קשה.
    ולפני 98% האיכות כנראה מחורבנת לחלוטין.

    עוד חזון למועד אבל הנה הטוויסט: ההתקדמות היא אקספוננציאלית. אם לקח 10 שנים להגיע ל 75% ייקחו 5 שנים להגיע ל 92.5%

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *