מי יצירתי יותר במבחני “חשיבה מסתעפת” — בני אדם או מודלי שפה גדולים?

ב־Scientific Reports נבחנה יכולת הפקת רעיונות ומקוריות, והשאלה המעשית היא מתי המודל מרחיב יצירתיות ומתי הוא מצמצם אותה

בינה מלאכותית ויצירתיות.  <a href="https://depositphotos.com. ">המחשה: depositphotos.com</a>
בינה מלאכותית ויצירתיות. המחשה: depositphotos.com

מחקר חדש שפורסם ב־Scientific Reports בוחן באופן שיטתי את ביצועי מודלי שפה גדולים (LLMs) במשימות יצירתיות בהשוואה לבני אדם, תוך התמקדות במבחני חשיבה מסתעפת — כלי פסיכולוגי מקובל למדידת יכולת יצירתית. הממצאים מעלים שאלות מהוביות לגבי התפקיד שמודלים אלה ממלאים בתהליכים יצירתיים: האם הם משפרים את היצירתיות האנושית או מחליפים אותה.

חשיבה מסתעפת כמדד ליצירתיות

יצירתיות, למרות היותה מושג חמקמק, נמדדת בפסיכולוגיה באמצעות מבחנים סטנדרטיים. אחד המושגים המרכזיים הוא חשיבה מסתעפת (divergent thinking) — היכולת להציע מגוון רחב של רעיונות שונים לבעיה פתוחה, תוך יצירת פתרונות שאינם רק וריאציות של אותו רעיון בסיסי.

מבחנים אופייניים כוללים משימות כגון "כמה שימושים שונים ניתן להציע לחפץ פשוט" או "כמה פתרונות אפשריים קיימים לסיטואציה נתונה". מדידת הביצועים במבחנים אלה מתבצעת בדרך כלל לפי שלושה ממדים עיקריים: שטף (מספר הרעיונות שנוצרו), גמישות (מספר הקטגוריות השונות של רעיונות), ומקוריות (עד כמה הרעיון נדיר ביחס למאגר התשובות).

האתגר המתודולוגי: מדידה ללא הטיה

עם הופעת מודלי שפה גדולים, נוצר מתח מחקרי מעניין. מצד אחד, מודלים אלה מצטיינים ביצירת רשימות ורעיונות במהירות רבה. מצד שני, קיימת טענה שהם נוטים לממוצע סטטיסטי, לקלישאות ולדפוסים שהופיעו בנתוני האימון שלהם.

האתגר המרכזי במחקר הוא למנוע מצב שבו המדידה תשקף בעיקר "מהירות הקלדה" ולא יצירתיות אמיתית. מודלים יכולים לנצח בקלות במדד השטף פשוט בשל יכולתם לייצר טקסט במהירות. לכן, לפי הודעת המחקר ב־EurekAlert!, חיוני להעמיד את המודלים מול מדדים שמענישים חזרתיות ושמבקשים מהם להימנע מתשובות צפויות.

מקוריות סטטיסטית אינה זהה לערך יצירתי

גם במקרה שבו מודל שפה משיג ציונים גבוהים במקוריות לפי אלגוריתמים סטטיסטיים, אין זה בהכרח מעיד על יצירתיות בעלת ערך אנושי. רעיון יכול להיות נדיר מבחינה סטטיסטית, אך חסר תועלת או רלוונטיות מעשית.

בנוסף, נתגלו מספר סוגיות מתודולוגיות חשובות:

תלות בניסוח ההנחיה (prompt): שינוי קטן בניסוח עשוי לגרום לשינוי דרמטי בתוצאה, מה שמעלה את השאלה האם המדד משקף את יכולת המודל או את כישורי מנסח ההנחיה.

אפקט העיגון: מודלים נוטים לעיתים ליצור רצפים המושפעים מהדוגמאות הראשונות שהפיקו, בדומה לבני אדם שנתקעים על כיוון מחשבתי אחד. השאלה המעניינת היא האם המודלים מייצרים מרחב רעיונות רחב באמת, או רק וריאציות סביב תבנית מרכזית אחת.

משמעות מעשית: כלי משלים או תחליף

הגישה הפרודוקטיבית למחקר זה אינה "אדם נגד מכונה", אלא הבנת התנאים שבהם מודלי שפה תורמים ליצירתיות אנושית. אם מודל מצטיין בשטף רעיונות, הוא יכול לשמש כ"מנוע סקיצה" — מפיק מגוון ראשוני רחב שממנו בני אדם בוחרים, משלבים ומסננים.

עם זאת, אם מודל נכשל בגמישות אמיתית, הוא עלול ליצור אשליה של יצירתיות: כמות גדולה של טקסט עם מעט פריצות דרך אמיתיות. התועלת המעשית טמונה בהבנה של סוגי המשימות הפתוחות שבהן המודל תורם הכי הרבה, לעומת אלו שבהן הוא גורם להתכנסות מוקדמת לרעיונות דומים.

מגבלות המחקר ודיון רחב יותר

יש להתייחס לממצאים בהקשר המתודולוגי המתאים. המחקר מוגבל על ידי מספר גורמים: אופי האוכלוסייה הנבדקת, השפה שבה נערכו המבחנים, והמודל הספציפי שנבדק. יתרה מכך, "מודל שפה" הוא קטגוריה רחבה — מודלים שונים מתנהגים באופן שונה, וגם אותו מודל עשוי להשתנות עם עדכונים טכנולוגיים.

לפיכך, נכון להתייחס לתוצאות אלה כהדגמה מתודולוגית ולא כהכרעה סופית בשאלת יכולתם היצירתית של מודלי שפה. המחקר מהווה נדבך בדיון רחב יותר על האופן שבו טכנולוגיות בינה מלאכותית משפיעות על תהליכים יצירתיים בחינוך, בעבודה ובתחומים נוספים.

עוד בנושא באתר הידען:

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אתר זו עושה שימוש ב-Akismet כדי לסנן תגובות זבל. פרטים נוספים אודות איך המידע מהתגובה שלך יעובד.