בעתיד לא יוכלו כותבים אנונימיים המתבטאים ברשת או בספרות הכתובה להסתתר. חוקרים פיתחו פיתוח תוכנת מחשב שתנתח את הטקסט ותיתן תיאור מפורט ומהימן של מחברו
אולגה קליינרמן | גליליאו
יותר ממאה שנים חלפו מאז כבש הבלש הספרותי המפורסם שרלוק הולמס את לבם של אנשי לונדון והצליח ללכוד לא מעט פושעים בזכות יכולותיו האנליטיות, הלוגיקה ומוחו זריז המחשבה. למרות פערי הזמן אנו ממשיכים להתפעל מהיכולת הבלתי רגילה של הבלש האגדי להסיק בפרטי פרטים מסקנות על אופיים של בני האדם.
ניתוח טוקבקים וטקסטים ספרותיים
דמיינו כי יש בידכם יש תוכנת מחשב בעלת יכולות לא פחות טובות מאלה של הבלש המפורסם. לתוכנה זאת די בהרצת פרי יצירתו של מחבר לא ידוע ולקבל, בעזרת סדרת פעולות מתאימות, תיאור מפורט ומהימן של מחבר הטקסט (ארץ מוצא, מין, גיל, מאפייני אופי ותרבות).
תוכנה כזו יכולה לענות על צרכים של קהל מגוון: מהמשטרה, שיכולה להיעזר בתוכנה לשם חשיפת עקבותיהם של פושעים ברשת האינטרנט, דרך חשיפת מאפייניהם של חברים בקבוצות קיצוניות המפעילות אתרים ברשת, ועד חוקרי ספרות המתלבטים בזהות מחברו של הטקסט. כמו כן יכולה השיטה לסייע בבדיקת כתבי עת עתיקים, כאשר אין בידינו די מידע; אם למשל נמצאו באתר ארכיאולוגי מספר מגילות, ניתוח כזה יכול להראות האם כולן נכתבו בידי אותו מחבר.
כתבי הפדרליסט
כתבי הפדרליסט (Federalist Papers) – כך מכונה קובץ בן 85 מאמרים על חוקת ארצות הברית. המאמרים נכתבו בין השנים 1788 – 1787. אלה הם 85 עלוני תעמולה שנכתבו מתוך כוונה להסביר לתושבי ניו-יורק את היתרונות בחוקה המוצעת על פני תקנון הקונפדרציה.
את העלונים כתבו ג'יימס מדיסון (Madison), אלכסנדר המילטון (Hamilton) וג'ון ג'יי (Jay) והם פורסמו תחת שם בדוי "Publius". לא היה ברור, לגבי חלק מהמאמרים, מי הכותב: המילטון או מדיסון. הניתוח הסטטיסטי של ואלס ומוסטלר קבע כי המאמרים שבמחלוקת נכתבו על ידי מדיסון. כך נראה שהמחקר לזיהוי המחברים של כתבי הפדרליסט, הוא העבודה המפורסמת ביותר בתחום זיהוי פרופיל המחבר ומהווה עד היום אבן יסוד לשיטות המחקר המודרניות.
והנה, פרופ' משה קופל וד"ר יהונתן שלר מאוניברסיטת בר-אילן, ועמיתיהם פרופ' שלמה ארגמון מהמכון לטכנולוגיה בשיקגו ופרופ' ג'ימס פנבקר Pennebaker)) מאוניברסיטת טקסס מצאו נוסחה, שעשויה לתת תשובה בתחום זיהוי מאפייני המחבר על סמך ניתוח טקסט שנכתב על ידו. התוכנה שפיתחו קופל, שלר ועמיתיהם מזהה מאפיינים סגנוניים של הכותב על פי ניתוח הטקסט, בין אם הוא טקסט ספרותי ובין אם הוא תגובה באינטרנט או כל מסמך כתוב.
קופל ושלר אינם עוסקים רק בהבדלים מגדריים בין כותבים: הם שיכללו את שיטות המחקר שיאפשרו לזהות את "טביעת האצבע" הספרותית עד לרמת דיוק המאפשרת להבחין בין כותב אחד למשנהו. באמצעות התוכנה שפיתחו אפשר לזהות במידה גבוהה את מגדר הכותב (gender), את גילו ואת שפת האם שלו – וכל זה על ידי ניתוח טקסט שכתב באנגלית. בנוסף, הניתוח מאפשר לקבוע האם טקסטים שונים שייכים לאותו מחבר.
אחד המקורות לטקסטים שבהם השתמשו קופל ושלר לצרכי המחקר ופיתוח התוכנה, הוא עולם הבלוגים (Blogs) יומנים אישיים המתפרסמים ברשת. הבלוגים זוכים לפופולריות רבה ומהווים מאגר של מאות אלפי טקסטים, שניתן לנתחם ולדלות מהם מידע על אופי המחברים. כמות זו טקסטים מאפשרת להרחיב ולשדרג את בסיס הנתונים של תוכנת המחשב.
היסטוריה של זיהוי פרופיל המחבר
הכל התחיל בשנות השישים המוקדמות של מאה ה- 20, כאשר פרדריק מוסטלר (Mosteller) מאוניברסיטת הרווארד ודוויד ואלס (Wallace) מאוניברסיטת שיקגו פרסמו עבודה שהפכה לפריצת דרך בתחום זיהוי אוטומטי של פרופיל מחבר, המבוסס על תוכנת מחשב.
שני החוקרים עבדו על 12 מאמרים מתוך "כתבי הפדרליסט" במטרה לגלות את זהות המחברים (ראו מסגרת). הם השתמשו באלגוריתם שביצע ניתוח סטטיסטי של שפת המאמרים וחישוב של שכיחות הופעת המילים בטקסט. הנחת יסוד מרכזית בשיטה המתוארת, ובאלה שבאו בעקבותיה, היא שקיים מאגר טקסטים של מחברים ידועים, המאפשר אנליזה השוואתית וקביעת מידת התאמה של טקסט חדש למחבר ספציפי, מזוהה.
מודל חיזוי
בראיון לגליליאו אומר פרופ' קופל: "במקרים רבים אנו נתקלים בטקסט אנונימי בלי שתהיה לנו קבוצה מוגדרת של מחברים אפשריים, שהסופר האנונימי נמנה עמם. מה ניתן לעשות במקרה כזה? במקרים כאלה היינו רוצים לעשות מה שעושים בלשים טלוויזיוניים: להפיק מנוסח הטקסט האנונימי את מירב המידע על אודות הכותב. למשל: מגדר, גיל, שפת אם, אישיות, וכדומה."
הגישה דומה בעיקרון לזו של מוסטלר וואלס, אלא שבמקום לאפיין כתיבה של מחבר נתון, מנסים החוקרים לאפיין כתיבה של קבוצות מחברים (כתיבה גברית לעומת כתיבה נשית, כתיבה צעירה לעומת כתיבה מבוגרת, וכו').
איך עובד המנגנון? על מנת לפענח טקסט אנונימי שמאפייני מחברו לא ידועים, יש צורך בבניית מודל חיזוי, שיהווה מעין נוסחה המאפשרת סיווג של טקסט נתון לאחת מקבוצות השייכוּת המגדירות את גיל המחבר, מִגְדרו, גילו, שפת האם שלו וכו'.
בניית מודל חיזוי נשענת בעיקר על ניתוח סוציו-לינגוויסטי של מאות אלפי בלוגים, בעלי מאפייני מחבר ידועים (המכונים מסמכי אימון). ניתוח מסמכי אימון מתבצע באופן אוטומטי ומתחיל מהמרת טקסט כתוב לווקטור מתמטי. מרכיבי הווקטור הם המילים שמופיעות בגוף הטקסט (מאפייני הטקסט). תוכנת הזיהוי מבצעת בדיקת שכיחות ההופעה של מילים, ביטויים וצירופי לשון ספציפיים במסמכי האימון, ומפעילה שיטות של למידת מכונה כדי לבנות נוסחה המסווגת כל אחד ממסמכי האימון לקבוצת שייכות. אותה נוסחה משמשת מודל חיזוי לניתוח טקסטים חדשים ולסיווגם.
מי כתב את הספר הגנוז?
אחת התעלומות שנפתרה באמצעות תוכנת המחשב עסקה בכתביו של הרב יוסף חיים, המכונה ה"בן איש-חי", שכיהן כרב הראשי בבגדד לפני כ- 100 שנים. לפי טענת הרב, הוא מצא ספר גנוז, שמחברו לא ידוע. על מנת להוכיח או להפריך את מקוריות התגלית, הספר הגנוז ואחד מהטקסטים של ה"בן איש-חי" נבדקו במקביל בעזרת התוכנה. התוצאות העידו על כך ששני הספרים הם פרי יצירתו של אותו מחבר…
לשם בדיקת מידת הדיוק של מודל החיזוי, הריצו קופל ושלר את תוכנת הזיהוי על טקסטים בעל מאפייני מחבר ידועים, שכמובן לא שימשו לבניית המודל (להלן: מסמכי מִבדק). הדרישה המרכזית בבדיקה זו היא התאמה גבוהה ככל האפשר בין קביעת פרופיל המחבר על ידי התוכנה ובין ההגדרות האמיתיות, הידועות מראש במקרה זה. תוצאות ניתוח של מסמכי מבדק אלה הביאו לדיוק של מעל ל- % 80 – תוצאה שהספיקה כדי שתוכנת הזיהוי תהיה יישומית עבור טקסטים אנונימיים.
כל קריטריון והמאגר שלו
עבודה עם כמות גדולה של מסמכי אימון מאפשרת בניית מאגר נתונים, המכיל מספר רב של מאפיינים בתוך כל קבוצת השייכות, דבר המעלה את אמינות הבדיקה עבור טקסטים חדשים. היתרון הבולט של שיטת עבודה זו על קודמותיה, הוא אפשרות להוספה אוטומטית של מאפיינים חדשים לבסיס הנתונים, כלומר שיפור דיוק החיזוי. כזכור, בסיס הנתונים בתוכנות הזיהוי הישנות היה מוגבל לכמות הטקסטים הזמינים, שנכתבו על ידי מחבר ספציפי, אליהם נעשתה השוואה של הטקסט הנבדק.
מאגר נפרד של מסמכי אימון נבנה עבור כל קריטריון פרופיל (מגדר, גיל, שפת אם, אישיות וכדו', מלבד הקטגוריות של מגדר וגיל, שלהן מאגר המידע משותף). כל אחד מקריטריוני הפרופיל מכיל קבוצות שייכות אליהן מסווגים הטקסטים הנבדקים. קבוצות שייכות עבור קריטריון הגיל שנקבעו הן: צעירים עד גיל 20, בוגרים בשנות ה- 20 ומבוגרים מעל גיל 30.
קבוצות שייכות עבור קריטריון שפות-אם שנקבעו הן: ספרדית, רוסית, צרפתית, צ'כית, בולגרית. קבוצות שייכות עבור קריטריון המגדר שנקבעו הן נשים וגברים, וקבוצות שייכות עבור קריטריון קווי האופי שהוגדרו: נוֹירוטי ולא נוֹירוטי.
אם כן, פעילות תוכנת הזיהוי מתבצעת בה בעת במספר מישורים: מציאת קבוצת שייכות עבור כל קריטריון פרופיל בנפרד והצלבה בין התוצאות המתקבלות לשם קביעת פרופיל כולל של מחבר הטקסט הנבדק.
בלוגר או בלוגרית?
כדי להגיע להבחנה חדה של סימני הזיהוי בתוך כל קבוצת שייכות, מסווגים מסמכי האימון בצורה בלתי תלויה בקבוצות שייכות אחרות. כך למשל לבניית תבנית המזהה את מִגְדר המחבר/ת, נבחנים טקסטים העוסקים בנושא זהה, אשר נכתבו על ידי קבוצות אנשים זהות בגודלן (גברים ונשים) מאותו מוצא לינגוויסטי, הנמצאים באותה קבוצת גיל ובעלי רקע דומה ככל האפשר (מקצוע, מעמד חברתי וכו').
התוכנה אינה מסתמכת על תיאוריה או על מודל כלשהם מתחום מדעי החברה, אלא על ניתוחים ומודלים מתמטיים, המבצעים אנליזה סטטיסטית של טקסט כתוב. הניתוח הלינגוויסטי של הטקסטים בתוך קבוצות השייכות מתבסס על הבחנה בהבדלים מהותיים בסגנון ובתוכן הכתיבה מקבוצה לקבוצה. צורת הכתיבה אכן מושפעת ממגדר המחבר, מגילו וממאפיינים אישיים אחרים.
כך, למשל, בבלוגים הדנים באסונות טבע, מתברר שהגברים יתמקדו יותר בסקירת הנזקים, בנתונים הסטטיסטיים ובפעילות מוסדות ממשלה, בעוד שהנשים ישימו דגש על גורל האנשים ועל הסיפורים האישיים. ההבדלים המגדריים יבואו לידי ביטוי הן בסגנון הכתיבה (שימוש במילים) והן בתוכן (בחירת נושא), וייצרו נקודת זינוק לבניית מאגר המידע.
ניתוח סגנון הכתיבה ולא התוכן
חשוב להדגיש כי התוכנה אינה מסתמכת על תיאוריה או על מודל כלשהם מתחום מדעי החברה, אלא על ניתוחים ומודלים מתמטיים, המבצעים אנליזה סטטיסטית של טקסט כתוב.
קופל ושלר מדגישים כי ניתוח סגנון הכתיבה מספק תוצאות מדויקות ואמינות יותר מאשר ניתוח התוכן. זאת בגלל שתהליך חיפוש של סימני זיהוי, המעידים על ההבדלים בסגנון הכתיבה בקבוצות השייכוּת השונות, מתבסס על הניתוח של אוצר המילים, תחביר,לקסיקון, דקדוק ואף הופעת טעויות אורתוגרפיות, שימוש בביטויי לשון ייחודיים ובמילות מפתח ספציפיות. כל אלה מופיעים בכל הטקסטים הכתובים בתדירות גבוהה יחסית, בעוד שמאפייני תוכן מוגבלים לרוב למילים בודדות, לעתים מילים נדירות וייחודיות לנושא דיון ספציפי.
בניגוד למחקרים סוציו-לינגוויסטיים, שהמודלים עבורם נבנו באופן ידני על ידי החוקר, כאן נעשית בניית המודל באופן אוטומטי באמצעות אלגוריתם המופעל על טקסט בעל מאפייני מחבר ידועים.
יש מגוון אלגוריתמים המשמשים לסיווג טקסטים לקבוצות שייכות מרובות. קופל, שלר ועמיתיהם עשו שימוש באלגוריתם הנקרא Bayesian Regression. אלגוריתם זה נמצא יעיל ובעל רמת דיוק גבוהה בקביעת התוצאות עם זמן הרצה קצר. לפני שיוצגו תוצאות המחקר, נעמוד על מנגנון הפעולה של האלגוריתם.
strong>הבדל כמותי, לא איכותי
כאמור, הטקסטים הנבדקים מכילים מאות עד אלפי פרמטרים. השימוש בביטויי לשון שונים, בכינויי גוף ובמילים אחרות, המהוות סימני זיהוי עבור תוכנת המחשב, נעשה על ידי כל המחברים במידה זו או אחרת.
לא קיימים מזהים בלעדיים, שבהם משתמשים רק גברים או רק נשים או לחילופין, רק בני 18, וכן הלאה. לפיכך, חיפוש סימני זיהוי בפני עצמם בתוך הטקסט הנבחן לא יכול לשמש כלי לקביעת פרופיל המחבר. הקביעה שעל פיה ניתן לסווג את הטקסט בתוך קבוצת שייכות זו או אחרת, מתבססת על אלגוריתם מתמטי, שמחשב משקל ממוצע עבור הופעת כל אחד מסימני הזיהוי בגוף הטקסט הנבחן. ההצלבה בין ערכי החישוב המתקבלים בכל קבוצת שייכות, מסייעת בסופו של הדבר לחיזוי מלא של פרופיל המחבר.
נשים ובלוגרים צעירים משתמשים יותר בקיצורים וצירופי אותיות, והגברים והבלוגרים המבוגרים מצרפים היפר-קישורים בשכיחות גבוהה יותר
המבנה של בסיס הנתונים מאפשר לסווג טקסטים חדשים לקבוצת השייכות תוך כדי חיפוש סימני זיהוי בטקסט החדש, התואמים את אלה הנמצאים בבסיס הנתונים. כלומר, מנתחים את הפרמטרים של המסמך המסווג, ונבחן המשקל הכולל של מאפייני הטקסט האלה על פני כל אחת מקבוצות השייכות. הקבוצה בעלת הציון המקסימלי היא הקבוצה שאליה ישויך המסמך ומחברו.
חלק מהמאפיינים המיוצגים בווקטור הם מילים בודדות שקביעת שכיחותן פשוטה. אבל ישנם מאפיינים מורכבים יותר. למשל, סוג אחד של מאפיינים כולל חלקי דיבור פרטניים ביותר. כדי למדוד שכיחותם של מאפיינים כאלה נבנה עץ, ששורשיו הם אבני היסוד של השפה: מילים המייצגות שמות עצם, פעלים, צירופי לשון, מילות יחס, שמות תואר וכדומה. כל ענף בעץ מהווה תת-קבוצה לשונית, כל צומת בענף מתייחס לקבוצת המילים ספציפית המייצגת תת- קבוצה לשונית לפי ההקשר למשמעות המילה, וכל עלה הוא מילת מפתח ספציפית.
שפה גברית ושפה נשית
ההבדלים הסגנוניים שמצאו קופל ושלר בין כתיבה גברית לנשית מחקירת עשרות אלפי טקסטים מבלוגים ומכילים מעל 7000 מילים למחבר, מראים כי הנשים עושות שימוש רב בכינויי גוף ובמילות השלילה. מילים כגון: I, you, she, me, him, my, he not, non, nor מאפיינות את הכתיבה הנשית. לעומת זאת, גברים מרבים להשתמש בספציפיקציות.
המילים שמופיעות יותר אצל גברים הן: the, those, these גם השימוש במילות היחס נבדל בין נשים לגברים. נשים מרבות להשתמש במילים כמו for או with, ולעומתן הגברים עושים שימוש רב יותר במילים כמו of, as ובמספרים.
כמו כן התברר כי הנשים משתמשות יותר ב"שפת הבלוגים" (קיצורים וצירופי אותיות כמוlol ,haha ,ur ובחידושי לשון אחרים) והגברים מצרפים היפר-קישורים בשכיחות גבוהה יותר.
אותם ממצאים לינגוויסטיים הנצפים אצל הגברים לעומת נשים, נצפים גם אצל הבלוגרים המבוגרים יותר (מעל גיל 30) לעומת הצעירים: המבוגרים מצרפים יותר קישורים, דהיינו משתמשים בשפה "גברית", ואילו הצעירים משתמשים יותר בשפת הבלוגים, דהיינו השפה ה"נשית".
סימני היכר נוספים של הבלוגיסטים הצעירים שימוש מרובה של מילות קישור והשמטת הגרשיים: Im, so, thats, dont, cant.. יש לציין, כי לא נצפו הבדלים סגנוניים רבים בקרב בני 20 לעומת בני 30. במקרה זה הושג דיוק הזיהוי בבחינת תוכן הכתיבה, כלומר שימוש במילים המייחדות קבוצת גיל מסוימת. כך, בני ה- 20 השתמשו במילים כמו apartment, office, eating, tv, job, work, bar וקבוצת המבוגרים מהם בעשור ומעלה השתמשו לרוב במילים דוגמת years, wife, husband, family, children, daughter.
זיהוי שפת האם של הכותב
כדי לזהות מהי שפת האֵם של הכותב, יש צורך בבניית "מילון טעויות נפוצות" בטקסטים באנגלית שכתבו אנשים בעלי שפות אם שונות. לשם בניית בסיס נתונים נלקחו טקסטים מ- ICLE (International Corpus of Learner English).
קבוצת המחברים של מסמכי הסימוכין הכילה מעל 200 סטודנטים מחמש מדינות (ספרד, רוסיה, צרפת, צ'כיה ובולגריה), אשר האנגלית אינה שפת האם שלהם ושכולם כתבו חיבורים באותו נושא. לאחר בניית בסיס הנתונים לקבוצת שייכות של המוצא הלינגוויסטי, נעשה מיון טקסטים חדשים בתוך הקבוצה נעשה בדרך זהה לסיווג של מסמכים לקבוצות שייכות אחרות.
ההבדלים בכתיבה בשפה האנגלית בין אנשים ממוצא שונה נובעים מחוקי דקדוק, מצורת הדיבור, מביטויי לשון שימושיים ועוד. הרקע הלשוני השונה מתבטא בסימני זיהוי בולטים בכתיבה, סימנים אשר מאפשרים לבצע קביעת מוצא המחבר במידת דיוק גבוהה. המילים וצירופי לשון שמופיעים בטקסט הכתוב והשוני הזה הופך לסימני היכר עבור כל קבוצה לינגוויסטית בעת בדיקת הטקסט.
הזיהוי טמון במילים הקטנות
מהמחקר עולה כי דוברי רוסית, צ'כית ובולגרית נוטים לדלג על ה"א הידיעה (the) וכן גם על a, an, מפני שתוויות אלו אינן קיימות בקבוצת השפות הסלאביות. כמו כן, דוברי רוסית מרבים להשתמש במילים כמו ;over, every, can, can't הצרפתים נוטים להמציא מילים חדשות שהסיומת שלהן היא ly – ואוהבים את המילה indeed.
המאפיין הבולט אצל הספרדים הוא שימוש רב במילים כמו because, although והשמטת הצורה to. במקום לכתוב to go הם יסתפקו ב- go. דוברי רומנית עושים טעויות פוֹנֶטִיות. למשל, בהרבה מהמקרים נעשה שימוש באות 'O' במקומות הלא נכונים, כמו outhor במקום author.
נראה, אם כן, כי מודל הזיהוי מתמקד במילים הקטנות, והן שעושות את ההבדל הגדול. כינויי גוף, מילות יחס, מילות קישור (כמו 'אבל', 'גם'( שכיחויות של צורות מורפולוגיות כמו תחיליות וסופיות של מילים. בכל אלה נעשה שימוש באופן אוטומטי, שהמחבר אינו מודע לו כשהוא כותב, למרות השימוש המודע במילים גרנדיוזיות בכוונה תחילה.
ייתכן שבעתיד ניתן יהיה להשתמש בשיטה למחקרי פסיכולוגיה שונים. על כל פנים, קופל ושלר אינם מחפשים סיבות להבדלי הכתיבה, אלא משתמשים בהבדלים הקיימים בפועל לצורך זיהוי מאפייני המחבר ללא שימוש במאגר שמות נתונים ומסתפקים במחקר המתמקד בתחום המחשבים והמתמטיקה בלבד. לתוצאות המחקר דרישה גבוהה בכל הענפים, הצמאים למידע רלוונטי לתחום עיסוקיהם.
אולגה קליינרמן היא מהנדסת חומרים וכימיה, בוגרת הטכניון. עובדת כיום במחלקת פיתוח ומחקר בחברה מובילה בישראל לייצור תרכובות פלסטיק הנדסיות
5 Responses
פחחח. ואם אני יתחיל לכתוב כמו טיליגנט, אז פיתום לא יידעו שזה אני כתבתי את זה ויחשבו שאיזה שכנזי כתב את זה? נו באמת… אנשים כותבים בסגנון שונה טקסטים שונים. זה לא יכול להוכיח כלום.
בשביל זה יש בודק איות…
מרתק, אבל קצת התאכזבתי שזיהוי שפת האם של הכותב מתבסס על טעויות. יותר מעניין היה לגלות את שפת האם דרך סגנון התבטאות אם כי זה כמובן עניין קה הרבה יותר. לגבי העובדה שצעירים משמיטים את האפוסטרוף … הנה הסבר קצר איך לנקד באנגלית:
http://angryflower.com/bobsqu.gif
היכן ניתן להוריד את התוכנה?
מעניין אם מישהו עשה בה שימוש לבדיקה מי חיבר את ספרי התנ"ך. זה יכול להיות פרוייקט מעניין.
ובוודאי ישכללו אותו בהמשך והוא ינבא באופן טוב יותר.