אי אפשר לסמוך על הסימוכין

צ'אטבוטים מחוללים קישורים לא תקינים למקורות שלא קיימים, ובתוך כך מערערים את תפקידה של ההפניה למקור

מאת טל סוקולוב, מכון דוידסון, הזרוע החינוכית של מכון ויצמן למדע

המצאות יד ראשונה מבינה מלאכותית. <a href="https://depositphotos.com. ">המחשה: depositphotos.com</a>
המצאות יד ראשונה מבינה מלאכותית. המחשה: depositphotos.com

"אי שפיות היא לעשות את אותו הדבר שוב ושוב, ולצפות לתוצאות שונות" – אלברט איינשטיין

ציטוטים, סימוכין וביבליוגרפיה הם דרכים שונות להישען על מקורות חיצוניים בכתיבה. אמצעים כאלה יכולים להוסיף אמינות לכתוב, שכן מקורם במאמר, כתבה או ספר שעברו עריכה קפדנית ועיבוד. כלומר מישהו אחר כבר אישר את התוכן ועומד מאחורי הנוסח שנבחר. הפניה גם מעניקה למקור חשיפה נוספת ומסייעת להפצתו. בד בבד, השימוש בהפניה למקור לא מבטיח שהמקור אמיתי ומדויק. כך גם הציטוט שפתח את הכתבה, שייחוסו לאיינשטיין מקורו כנראה בטעות.

למרות זאת, להפניות יש גם נקודות תורפה. מאמרים שנמשכו מפרסום מכיוון שנמצאו בהם פגמים מהותיים ממשיכים לשמש מקורות למרות הביקורת שמעיבה עליהם. וגרוע מכך, לא פעם חוקרים מצטטים מאמרים שכלל לא קיימים. מבחינת כותבי מאמרים יש כאן מלכוד. מצד אחד הפניה למקור אחר שקולה למעין תעודת אחריות – חותמת שקובעת שהמאמר הזה מבוסס וטוב. מצד שני בדיקת התקינות והאמינות של ההפניות הללו היא משימה מייגעת, שמפתה לדלג עליה.

ציטוטים, סימוכין וביבליוגרפיה הם דרכים שונות להישען על מקורות חיצוניים בכתיבה. אמצעים כאלה יכולים להוסיף אמינות לכתוב, שכן מקורם במאמר, כתבה או ספר שעברו עריכה קפדנית ועיבוד. כלומר מישהו אחר כבר אישר את התוכן ועומד מאחורי הנוסח שנבחר. הפניה גם מעניקה למקור חשיפה נוספת ומסייעת להפצתו. בד בבד, השימוש בהפניה למקור לא מבטיח שהמקור אמיתי ומדויק. כך גם הציטוט שפתח את הכתבה, שייחוסו לאיינשטיין מקורו כנראה בטעות.

בסקירות שנעשו בעשרות השנים הקודמות, הרבה לפני שהופיעו מחוללי הטקסט המבוססים על בינה מלאכותית, נמצא כי מתוך עשרות אלפי הפניות למקורות שמופיעות במאמרים ביו-רפואיים, בכשלושים אחוז נופלות טעויות בפרטי המקור, דבר שמקשה לאתר אותו. מחוללי הטקסט, שאינם מחויבים לאמת העובדתית, אלא ליצירת תקשורת רהוטה עם בני אדם, מעמיקים עוד יותר את הבעיה.

הפניה למקורות ממלאת תפקיד מרכזי במאמרים מחקריים: חוקר שמצטט מאמר קודם או מפנה אליו מצהיר בכך שהוא צועד בדרך שאחרים פילסו לפניו. כלומר מחקרים קודמים כבר הניחו את התשתית וכעת החוקר מסתמך על הממצאים של קודמיו או מנסה להפריך אותם. תהליך כזה מאפשר לבנות את הידע שלנו נדבך על גבי נדבך, בלי שנצטרך להוכיח מחדש שוב ושוב את היסודות שעליהם התחום כולו עומד.

מחולל מקורות שגויים

מנועי חיפוש הם כלי תיווך חיוני שמאפשר לנו לנווט בין ים מקורות המידע הקיימים, בעיקר באינטרנט. לדוגמה גוגל סקולאר (Google Scholar) הוא מנוע חיפוש שמתמקד במאמרים מדעיים, ואילו החיפוש של מערכת ההפעלה “חלונות” מתמחה באיתור קבצים בתוך המחשב. מנוע חיפוש של מאמרים מציג את הכותרת המלאה של המאמר, רשימת כותבים וקישור לאתרים ברשת שמהם יש גישה לתוכן המלא.

בשנה האחרונה הרחיבו מחוללי טקסט רבים את יישומיהם והם מציעים שירותים של מנועי חיפוש. אך בניגוד למנועי החיפוש הרגילים, מחוללי הטקסט לא מנגישים את המקורות כפי שהם. כשמבקשים ממחולל כזה שיפנה אותנו למקורות מידע בנושא מסוים, הוא מחפש במקורות שנגישים לו, מתמצת את הכתוב במקור, מעבד את התוכן ומחולל תשובה, שיכולה לפעמים לכלול קישור למקור.

בתהליך הזה עלולות ליפול טעויות, למשל כשהמידע שהמחולל מסתמך עליו הוא שגוי או לא מדויק. יתרה מזאת, מחוללי טקסט עלולים להזות טקסטים לא הגיוניים. תפקידם הוא לחזות את הטקסט הסביר ביותר בתשובה לשאלה שהופנתה להם, אך לאו דווקא את הטקסט האמין והמדויק ביותר. בדרך להפקת התשובה עלולים להיווצר עיוותים בשם המקור, כותרות שגויות, טעויות בשמות הכותבים וקישורים שבורים, שמפנים לאתר אחר מזה שבו פורסם המקור, ואף לאתרים שלא היו ולא נבראו.

סקירה עיתונאית שבדקה שמונה מחוללי טקסט שמציעים אפשרויות של מנועי חיפוש, ביניהם צ’אט-GPT, ג’מיני של גוגל וגרוק של טוויטר, מצאה כי הם טועים בכשישים אחוז מההפניות שלהם למקורות. כלומר ברוב הפעמים שבהן התבקשו לזהות טקסט מתוך מאמר כלשהו, המחוללים שגו בכותרת, שיבשו את שמות המוציא לאור או סיפקו כתובת אינטרנט שגויה. הגדיל לעשות גרוק, שטעה בפרטי ההפניה בכ-94 אחוז מהבקשות שקיבל. יותר ממחצית מהתשובות שסיפקו ג’מיני וגרוק כללו קישורים לכתובות אינטרנט שגויות.

מחקרים קודמים הראו שהצ’אטבוטים נוטים להעדיף מתן תשובה שגויה על פני תשובה מסויגת. העיתונאיות ציינו שאותה תופעה קיימת גם ביחס לבקשות להפנות למקורות. “הצ’אטבוט, הלהוט לרצות, יעדיף לספק מענה יש מאין מאשר להודות שאין לו גישה לתשובה”, ציינו. צ’אט-GPT טעה ב-134 מתוך 200 בקשות להפניה למקורות שנבדקו בסקירה, אך רק לגבי 15 מהן הודה שאינו בטוח שהן נכונות.

טעויות בציטוט ומובאות ממקור זה או אחר פוגעות גם באמינות המקורות עצמם. תאגיד השידור הבריטי, BBC, בחן שיבושים שהופיעו בהפניות לכתבות באתר האינטרנט שלו. הבדיקה מצאה כי אחת מכל חמש הפניות מעשה ידי בינה מלאכותית שציטטו פרטים מתוך כתבות של ה-BBC שגתה בציטוט או ייחסה לתאגיד השידור תכנים שכלל אינם קיימים באתר שלו. מאחר שהתכנים חסרי השחר הללו יוחסו ל-BBC, הם עלולים לפגוע באמינותו ובמעמדו המקצועי.

אין קשר לקישור

בדיקת המעורבות של בינה מלאכותית בחיבור טקסטים היא בעיה מאתגרת בפני עצמהתכנים שהועתקו כלשונם ממחוללי טקסט כבר מוצאים את דרכם אפילו למאמרים אקדמיים. בתוך הטקסטים שחיברו מחוללים, בדיקת תאימות הקישורים וההפניות דורשת מאמץ נוסף. הבודק הספקן נדרש לגשת לתוכן הקישור כדי לוודא שהוא תואם את המתואר בהפניה, למשל שנת ההוצאה לאור או שם המחבר. מעבר לכך, עליו לקרוא את כל תוכן הקישור על מנת לאמת שהוא אכן תומך בטענה שלשמה נעשה בו שימוש. עקב שלבי הבדיקה הרבים הללו, טעויות בהפניה שנוצרו בידי מחולל נוטות להיות חמקמקות אף יותר משגיאות בטקסט רגיל של מחולל.

במסגרת משפט שהתקיים בארצות הברית סביב טכנולוגיית בינה מלאכותית שמאפשרת ליצור זיופים של מציאות כוזבת (Deepfake), התבקש מומחה לבינה מלאכותית להגיש לבית המשפט דין וחשבון כתוב. למרבה האירוניה, המומחה עצמו נעזר במחולל טקסטים לצורך כתיבת הדו”ח, ולכן הופיעו בו הפניות שלא קיימות. תופעת ההפניות לפסקי דין שאינם קיימים זוהתה גם בבתי המשפט בישראל.

תוצרי בינה מלאכותית הופכים כיום למכשול משמעותי ליכולתנו להבחין בין אמת לבדיה. השימוש בהפניות למקורות נוספים אמור לשמש כלי יעיל לביסוס תכנים שמעוגנים היטב במציאות, והעובדה שתוצרי הבינה המלאכותית מסלפים גם את הכלי הזה אומרת דרשני. מעבר לקיומו או אי קיומו של מקור שאליו מתייחס הקישור, עצם מראהו של קישור חיצוני ממסמך מעניק לו הילה של סמכות ואמינות, ולכן דווקא כאן עלינו לשמור על ערנות כפולה ומכופלת.

אגב ערנות, טרחתם לוודא את תוכן הקישור האחרון?

לאתר מכון דוידסון

עוד בנושא באתר הידען:

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אתר זו עושה שימוש ב-Akismet כדי לסנן תגובות זבל. פרטים נוספים אודות איך המידע מהתגובה שלך יעובד.