מחקר חדש: מודלי שפה עדיין אינם אמינים דיים למשימות ליבה בפיתוח תוכנה

מבחן השוואתי ל־11 מודלי שפה הראה כי פלטים מובנים משפרים את העבודה עם קוד, אך עדיין אינם מבטיחים תוצאות אמינות ללא פיקוח אנושי * גם בפלטים מובנים כמו JSON, XML ו־Markdown, מודלי שפה גדולים עדיין מתקשים לשמור על דיוק ועקביות, במיוחד במשימות חזותיות כמו אתרי אינטרנט, תמונות ווידאו

בינה מלאכותית כותבת קוד. <a href="https://depositphotos.com. ">המחשה: depositphotos.com</a> — בינה מלאכותית כותבת קוד. המחשה: depositphotos.com

מחקר חדש מאוניברסיטת ווטרלו מראה כי בינה מלאכותית עדיין מתקשה בכמה ממשימות היסוד של פיתוח תוכנה, ומעלה שאלות לגבי מידת האמינות שבה מערכות כאלה יכולות לסייע למפתחים. ככל שמודלי שפה גדולים משתלבים יותר ויותר בפיתוח תוכנה, מפתחים מתקשים להבטיח שהתשובות שמייצרת הבינה המלאכותית יהיו מדויקות, עקביות וקלות לשילוב בתהליכי עבודה רחבים יותר.

המחקר, "StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs", פורסם בכתב העת Transactions on Machine Learning Research, והוצג ב־ICLR 2026.

בעבר השיבו מודלי שפה גדולים לפקודות בתחום פיתוח התוכנה באמצעות תשובות חופשיות בשפה טבעית. כדי להתמודד עם הבעיה הזאת, כמה חברות בינה מלאכותית, ובהן OpenAI , גוגל ואנתרופיק, הציגו "פלטים מובְנים". פלטים אלה מאלצים את מודלי השפה לפעול לפי פורמטים מוגדרים מראש, כגון JSON, XML אוMarkdown , וכך מקלים הן על בני אדם והן על מערכות תוכנה לקרוא ולעבד את התוצאה.

ואולם, מחקר השוואתי חדש מווטרלו מראה כי הטכנולוגיה הזאת עדיין אינה אמינה כפי שמפתחים רבים קיוו. גם המודלים המתקדמים ביותר הגיעו רק לדיוק של כ־75% במבחנים, ואילו מודלים בקוד פתוח הגיעו לתוצאות של כ־65%.

המחקר בחן 11 מודלי שפה גדולים ב־18 פורמטים של פלט מובנה וב־44 משימות שנועדו לבדוק עד כמה המערכות מקפידות על כללים מבניים מוגדרים.

"בסוג כזה של מחקר אנחנו רוצים למדוד לא רק את התחביר של הקוד, כלומר אם הוא אכן מציית לכללים שנקבעו, אלא גם אם הפלטים שנוצרים עבור משימות שונות הם מדויקים", אמר דונגפו ג'יאנג, דוקטורנט למדעי המחשב ואחד משני המחברים הראשיים של המחקר.

"מצאנו שאמנם המודלים מסתדרים לא רע במשימות הקשורות לטקסט, אבל הם מתקשים מאוד במשימות שכוללות יצירת תמונות, וידאו או אתרי אינטרנט."

המחקר היה מאמץ משותף שכלל את ג'יאלין יאנג מאוניברסיטת ווטרלו, סטודנט לתואר ראשון, ואת ד"ר וֶנְהוּ צ'ן, פרופסור עוזר למדעי המחשב. הוא כלל גם הערות תיוג ובקרה של 17 חוקרים נוספים מווטרלו וממקומות אחרים בעולם.

"היו במעבדות שלנו לאחרונה לא מעט פרויקטי השוואה דומים", אמר צ'ן. "בווטרלו, סטודנטים מתחילים לעיתים כמתייגים, אחר כך מארגנים פרויקטים, ולבסוף יוצרים מחקרי השוואה משלהם. הם לא רק משתמשים בבינה מלאכותית במחקרים שלהם, אלא גם בונים אותה, חוקרים אותה ומעריכים אותה."

החוקרים אומרים כי אף שפלטים מובנים של מודלי שפה גדולים הם צעד מסקרן עבור פיתוח תוכנה, המערכות עדיין אינן אמינות מספיק כדי לפעול ללא פיקוח אנושי.

"למפתחים אולי יהיו סוכנים כאלה שעובדים עבורם, אבל הם עדיין יזדקקו לפיקוח אנושי משמעותי", אמר ג'יאנג.

למאמר המדעי https://arxiv.org/abs/2505.20139

עוד בנושא באתר הידען:

קטגוריות: בינה מלאכותית
תגיות: ICLR 2026, JSON, StructEval, TMLR, XML, אוניברסיטת ווטרלו, בינה מלאכותית, מודלי שפה גדולים, פיתוח תוכנה

אבי בליזובסקי

עורך אתר הידען ([email protected])

לכל הכתבות של המחבר

2 תגובות

נתן ארבייטמן הגיב:

6 באפריל 2026 בשעה 11:59

"משימות ליבה"? מי מגדיר מה זה "משימות ליבה"?

לכל אחד יש את הזוויות שלו. למתכנתים למשל הרבה פחות חשוב היצירה של תמונות וווידיאו, ומשימות פשוטות ובינוניות בתוכנה הוא מבצע בצורה אמינה יחסית, ואם לא תיקון קל בפרומפטים והכל בסדר.

הכותרת קצת מבלבלת
עמי בכר הגיב:

5 באפריל 2026 בשעה 09:25

היה קשה להגיע ל 75% ?
כי להגיע ל 92.5% יהיה עוד יותר קשה.
ולפני 98% האיכות כנראה מחורבנת לחלוטין.

עוד חזון למועד אבל הנה הטוויסט: ההתקדמות היא אקספוננציאלית. אם לקח 10 שנים להגיע ל 75% ייקחו 5 שנים להגיע ל 92.5%

כתיבת תגובה

אתר זו עושה שימוש ב-Akismet כדי לסנן תגובות זבל. פרטים נוספים אודות איך המידע מהתגובה שלך יעובד.

מחקר חדש: מודלי שפה עדיין אינם אמינים דיים למשימות ליבה בפיתוח תוכנה

אבי בליזובסקי

2 תגובות

כתיבת תגובה

פודקאסט: הצעד הבא של האבולוציה – הקסם של העצמות

פודקאסט: פרופ' רפי ביסטריצר על "זווית הקסם" בגרפין והולדת תחום הטוויסט־רוניקה

פודקאסט: התעלומות הגדולות של המדע – האם יש תבונה ביקום? (פרק 4)

כוכב כפול ליד החור השחור במרכז שביל החלב עשוי להזין אותו בענני גז קטנים

נאס"א מפתחת “מוח” חדש לחלליות: מעבד AI שיאפשר להן לפעול עצמאית יותר

מחקר במזרח אפריקה: המעבר מלקט לרעייה לא שינה מיד את התזונה האנושית

מחקר על סכר קדום בירושלים מצביע על התמודדות עם משברי מים כבר לפני 3,000 שנה

ארגון הבריאות העולמי הכריז על התפרצות אבולה בקונגו ובאוגנדה כמצב חירום בין־לאומי