סיקור מקיף

מעבדת המחקר של יבמ בחיפה מובילה פרוייקט אירופי לדיגיטציה של טקסטים עתיקים

מיזם IMPACT מיועד לפתח כלים ושיטות שיאפשרו לשמר את הטקסטים ההיסטוריים רבי הערך האלה באמצעים דיגיטליים, לאפשר לגשת אליהם בחיפוש מקוון ולהבטיח את נגישותם לדורות הבאים

טל דרורי, מעבדת יבמ בחיפה
טל דרורי, מעבדת יבמ בחיפה

מדענים ממעבדת המחקר של יבמ בחיפה משתתפים במיזם משותף עם יותר מעשרים מוסדות אקדמיים וגופי מחקר באירופה, לשימור מסמכים מהמאה ה- 15 והלאה.

מיזם IMPACT מיועד לפתח כלים ושיטות שיאפשרו לשמר את הטקסטים ההיסטוריים רבי הערך האלה באמצעים דיגיטליים, לאפשר לגשת אליהם בחיפוש מקוון ולהבטיח את נגישותם לדורות הבאים.

מאמץ המחקר, הממומן על ידי הקהילה האירופית, הוביל לפיתוח מערכת דיגיטיזציה (OCR) העושה שימוש בשיטת מחשוב קהילתי (crowd sourcing) על מנת להציג שיטה חדשה לעיבוד של טקסטים היסטוריים. אתגר הדיגיטזציה של טקסטים מעסיק כיום לא רק ספריות וארכיונים היסטוריים – אלא גם כל מוסד המעוניין לשמר ולהסב מסמכים ישנים ועתיקים, בעלי ערך היסטורי או משמעות עסקית.

תוכנת הדיגיטיזציה שפותחה במעבדת יבמ מפחיתה משמעותית את הצורך בטיפול ידני יקר בטקסטים הסרוקים, הנובע משימוש שנעשה בעבר בגופנים מורכבים, שאינם מוכרים לתוכנות בנות ימינו – כמו גם בשל השוני באוצר המילים המקובל ובמבנה השפה. תפיסת המחשוב הקהילתי, אותה מיישמת יבמ במסגרת הפרוייקט, מאפשרת לקבוצות גדולות של מתנדבים הפזורים ברחבי אירופה להשתתף ולתרום מזמנם לאימות זיהוי הטקסטים ולתיקון שגיאות בזיהוי באמצעות מערכת אינטרנטית מקוונת. ככל שהתיקונים האלה מתבצעים, יודעת המערכת ללמוד ולתקן את שגיאותיה, על מנת להגיע לזיהוי טוב יותר בעתיד.

בעקבות הצלחת השלבים הראשונים של הפרוייקט, מרחיבות יבמ והקהילה האירופית את שיתוף הפעולה, על מנת לכלול בו עתה ספריות לאומיות, מוסדות מחקר, אוניברסיטאות וחברות עסקיות נוספות. שלא כמו פרוייקטים שהתבצעו בעבר בתחום הדיגיטציה, אשר הניבו תוצאות סטטיות בלבד, בדמות ספריות טקסט מקוונות, יציע הפרויקט החדש ורחב ההיקף המתנהל עתה גם כלים חדשים ושיטות שישרתו מוסדות בכל רחבי אירופה, ויאפשרו להם להמשיך ולהפיק ביעילות עותקים דיגיטאליים מדוייקים של טקסטים בעלי חשיבות היסטורית, ולהעמידם לשימוש הציבור הרחב, תוך פתיחת האפשרות לחפש בתכנים האלה ולערוך אותם אל תוך מחקרים ומצגות.

תפיסת המחשוב הקהילתי, עליה נשען הפרוייקט, הולכת וצוברת תאוצה בתחומי תוכן שונים. שילוב טכנולוגיית ה- OCR של יבמ יחד עם מאמץ מחשוב קהילתי יאפשר לראשונה לסרוק ולבצע דיגיטציה של גופנים עתיקים וייחודיים, תוך הקטנה של 35% בשיעור השגיאות.

טל דרורי, מנהל קבוצת עיבוד המסמכים במעבדת המחקר של יבמ בחיפה, ציין כי “פרוייקט IMPACT לא רק מעמיד לרשות גופי מחקר מרכזיים דרך לקרב אנשים אל טקסטים היסטוריים שלא היו נגישים ולא נראו לעיני הציבור בעבר: הוא גם מאפשר להם להפוך הם עצמם לחלק ממאמץ השימור. זוהי מערכת הדיגיטציה הראשונה המשלבת את עוצמת ההמון והקהילה – יחד עם טכנולוגיית זיהוי אופטי אדפטיבי, בעלת כושר לימוד ותיקון שגיאות, המסוגלת לטפל בטקסטים שנוצרו החל מהמאה ה- 15 ועד לשלהי המאה ה- 19”.

מנועי OCR רגילים המוכרים כיום מטפלים היטב בטקסטים מודרניים. אולם, הדיו הדהוי, הנייר או הגוויל העתיק, כמו גם צורות מיוחדות של גופנים האופייניות למסמכים עתיקים, עלולים להוריד את רמת הזיהוי בשיעורים מהותיים, ולכן לחייב עבודה ידנית נרחבת לתיקון תוצאות הדיגיטציה. “הדרך היחידה המאפשרת דיגיטציה בהיקף רחב של חומר היסטורי, היא זו של שיפור איכות תהליך הזיהוי האופטי של הטקסט”, אומר דרורי.

המערכת שפותחה במעבדת המחקר של יבמ מאפשרת למתנדבים מכל רחבי אירופה לבדוק את אמינות הטקסט המעובד ולתקן שגיאות בזיהוי, תוך שימוש במערכת אינטרנטית. על מנת לייעל את תהליך הבחינה, יודעת המערכת להציג בפני הבודק לא רק את דף המקור הסרוק – אלא את המילה המדוייקת הדורשת בחינה לעומק. כך, למשל, שילוב האותיות האנגליות “r” ו- “n”, המופיעות בצמוד זו לזו, מוביל פעמים רבות לטעות בקריאה הממוחשבת, כאשר המחשב מניח כי rn הם למעשה האות m. כאשר המערכת מגיעה לנקודות בהן עולה ספק לגבי הזיהוי – היא אוספת מקרים רבים כאלה שזוהו כ- m הפזורים ברחבי הטקסט – ומציגה אותם ביחד ובסמוך למילה השנויה בספק. כך, יכול הבודק להסיק בקלות רבה יותר מסקנות לגבי הזיהוי הנכון, ולתקן מספר גדול של מקרים בפעולה בודדת.

כאשר קיים ספק לגבי זיהוי מילה שלמה, מוסיפה אותה המערכת למאגר של מילים בלתי ברורות, המוצג בסדר אלפא-ביתי. המתנדבים המסייעים לפרויקט צריכים לקבל או לדחות הצעות של המערכת לזיהוי המילים האלה, בתהליך המתבצע בהקשת מקש בודדת. בנוסף, משתמשת המערכת ביכולת ייחודית להרחבת אוצר המילים שלה, כך שמילים חדשות נוספות למילון הפנימי, על בסיס זיהוי ותיקון המתקבל ממשתמשים שונים.

רשימת הגופים המשתתפים בפרוייקט IMPACT כוללת בין השאר את הספריות הלאומיות של הולנד, בריטניה, צרפת, אוסטריה וגרמניה, הספריה המרכזית של מדינת בוואריה, הספריה האוניברסיטאית של גטינגן, המכון ההולנדי לבלשנות, אוניברסיטת מינכן, אוניברסיטת באת’, הספריה הלאומית של צרפת, הספריה הלאומית של ספרד, המרכז למחשוב-על בפוזנן פולין ועוד.

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אתר זה עושה שימוש באקיזמט למניעת הודעות זבל. לחצו כאן כדי ללמוד איך נתוני התגובה שלכם מעובדים.