בינה מלאכותית חושפת דפוסי שפה נסתרים ומחברים אפשריים של התנ"ך

חוקרים מאוניברסיטאות בארץ ובעולם השתמשו במודלים סטטיסטיים מבוססי AI כדי לזהות שלושה סגנונות כתיבה שונים בתשעת הספרים הראשונים של התנ"ך – ולשייך מחברים פרקיים שנויים במחלוקת לקבוצות אלו

ייצוג חזותי של ממצאי הצוות. על ידי השוואת שימוש במילים ודפוסי משפטים, המודל הסטטיסטי מבוסס הבינה המלאכותית זיהה שלושה סגנונות כתיבה מובחנים – או מסורות סופרים – המוצגים כאן בצבעים צהוב, כחול וירוק. קרדיט: Faigenbaum-Golovin ואחרים.
תרשים חזותי של ממצאי הצוות. באמצעות השוואת שימוש במילים ודפוסי משפטים, המודל הסטטיסטי מבוסס הבינה המלאכותית זיהה שלושה סגנונות כתיבה נבדלים, המיוצגים כאן בצבעים צהוב, כחול וירוק. קרדיט: Faigenbaum-Golovin et al.

בינה מלאכותית משנה תעשיות רבות – מרפואה ועד קולנוע. כעת, חוקרים משתמשים בה כדי לנתח את אחד הטקסטים העתיקים והמכובדים ביותר: התנ"ך.

צוות מחקר בינלאומי, בהובלת ד"ר שירה פייגנבאום-גולובין, מרצה חוקרת למתמטיקה באוניברסיטת דיוק, שילב כלים מתחום הבינה המלאכותית, מודלים סטטיסטיים וניתוח לשוני כדי להתמודד עם שאלה מרכזית בלימודי המקרא: מיהם כותביו.

המחקר פורסם בכתב העת PLOS One.

באמצעות ניתוח שוני עדין בשימוש במילים, הצליח הצוות לזהות שלושה סגנונות כתיבה שונים (או מסורות סופרים) לאורך תשעת הספרים הראשונים של התנ"ך, המכונים אניאטוך (Enneateuch).

בהמשך השתמשו באותו מודל כדי לנסות לשייך פרקים נוספים למחברים משוערים, תוך שהמודל מציג גם את ההסברים הלשוניים למסקנותיו.

כך הכול התחיל

בשנת 2010 החלה פייגנבאום-גולובין בשיתוף פעולה עם פרופ' ישראל פינקלשטיין פרופסור אמריטוס באוניברסיטת תל אביב וראש בית הספר לארכאולוגיה ולתרבויות ימיות באוניברסיטת חיפה, בניסיון לשייך כתובות על שברי חרס בני כ-2,600 שנה למחברים ספציפיים באמצעות ניתוח צורני-סטטיסטי.

ממצאיהם זכו לחשיפה ראשית ב"ניו יורק טיימס".

לדבריה, "הצלחנו להראות שהכתובות האלו יכולות לשמש רמזים לתיארוך כתבי מקרא, וזה הוביל אותנו להקים את צוות המחקר הנוכחי".

שיתוף פעולה רב-תחומי

המחקר נעשה בשני שלבים. הצוות כלל מדענים מתחומים שונים: אלון קיפניס (אוניברסיטת רייכמן), אקסל בילר (הפקולטה הפרוטסטנטית בפריז), אלי פיאסצקי (אוניברסיטת תל אביב), תומאס רומר (המכללה של צרפת) ופייגנבאום-גולובין עצמה.

הם ניתחו דפוסי שפה בשלושה חלקים מרכזיים של התנ"ך: ספר דברים, היסטוריה דויטרונומיסטית (מספר יהושע עד מלכים), והכתיבה הכהנית שבתורה.

התוצאות תמכו בקונצנזוס מחקרי קיים: ספר דברים וספרי ההיסטוריה קרובים זה לזה יותר מאשר לכתיבה הכהנית.

פרופ' רומר הסביר: "מצאנו שלכל קבוצה סגנון אחר – גם במילים פשוטות כמו 'לא', 'אשר' או 'מלך'. השיטה שלנו מזהה במדויק הבדלים אלה".

בדיקת המודל

כדי לבדוק את יעילות המודל, נותחו 50 פרקים שהוקצו בעבר לקבוצות כתיבה ידועות, והמודל הצליח לשייך אותם כראוי באמצעות נוסחה כמותית.

בהמשך, נבחנו פרקים ששיוכם נתון במחלוקת, וגם כאן הצליח המודל לשייך אותם לקבוצה הסבירה ביותר – ואף להסביר את הבחירה לפי תדירות מילים או שורשים.

אלון קיפניס הדגיש: "אחד היתרונות המרכזיים של השיטה הוא היכולת להסביר את התוצאה – להצביע על המילים שהובילו לשיוך פרק מסוים".

מכשולים לשוניים וטכניקות ייחודיות

האתגר המרכזי היה למצוא טקסטים תנ"כיים שלא עברו עריכה מרובה וששמרו על נוסחם המקורי. טקסטים כאלה לרוב קצרים, מה שהופך שיטות למידה ממוחשבת רגילות לבלתי ישימות.

לכן, במקום מודלים הדורשים כמויות עתק של נתונים, השתמשו החוקרים בגישה ישירה, השוואתית, שבחנה דפוסי משפט ותדירות מילים.

ממצא מפתיע

אחת הדוגמאות הבולטות הייתה סיפור ארון הברית שבספרי שמואל. למרות שנחשבים לעיתים חלק מאותה עלילה, המודל הראה שפרק א' שמואל אינו תואם לאף אחת מהקבוצות, בעוד פרק ב' שמואל מתאים לסגנון ההיסטורי.

פייגנבאום-גולובין סיכמה: "השיטה הזו מתאימה גם למסמכים היסטוריים אחרים – אפשר לבדוק למשל אם מסמך מיוחס לאברהם לינקולן הוא אותנטי או מזויף".

פינקלשטיין הוסיף: "המחקר הזה מציג פרדיגמה חדשה לניתוח טקסטים עתיקים".

הצוות בוחן כעת יישום של השיטה גם על מגילות מדבר יהודה. פייגנבאום-גולובין הדגישה: "זה שיתוף פעולה ייחודי בין מדע למדעי הרוח. סימביוזה מפתיעה שמרחיבה גבולות".

המאמר מבוסס על הודעה של אוניברסיטת דיוק.

עוד בנושא באתר הידען: