סיקור מקיף

לחפש רעיון – ולא מילת מפתח

חוקרים במעבדת המחקר של יבמ בחיפה מסייעים בפיתוח מערכות לחיפוש באמצעות ידע או רעיונות במקום מילות מפתח

הידען

קישור ישיר לדף זה: https://www.hayadan.org.il/ibm260805.html

מנועי חיפוש הפכו זה מכבר לחלק משגרת חיינו. השפה האנגלית המדוברת אף הגדילה ויצרה פועל חדש – to Google – במשמעות של “לחפש בגוגל”. פעם אחר פעם אנחנו מנסים לזהות את מילת המפתח המתאימה, ומקישים אותה בתקווה לאתר את התוכן הדרוש לנו. אבל, כאשר מחפשים ידע ורעיונות חדשים – מדוע בעצם להסתפק במילות מפתח בלבד?

השאלה הזאת הולידה מחקרים רחבים בתחום ניתוח הטקסטים, טכנולוגיה רבת עוצמה המאפשרת למשתמשים לחדור את קרביו של מידע בלתי מובנה ולחפש בו רעיונות – במקום מילות מפתח. מידע בלתי מובנה מצוי במגוון רחב של מקורות – מסמכי טקסט, קבצי תמונה, קול או וידיאו, בלוגים או דואר אלקטרוני. כולם מאופיינים במתכונת שאינה כוללת מפתח מוגדר מראש, ומציגים אתגר למחפש ולמערכת החיפוש.

מדעני מעבדת המחקר של יבמ בחיפה לוקחים עתה חלק מרכזי בפיתוח ארכיטקטורת ניהול מידע בלתי מובנה – UIMA – המוצעת כבר כמערכת קוד פתוח, ומסוגלת לעבד את המידע הבלתי מובנה הזה על מנת להבין את משמעויותיו, את ההקשרים והעובדות הרלוונטיות הטמונות בתוכן המנותח. UIMA מאפשר לתוכנה לחפש ולתת משמעות לצורות השונות של מידע, ולהציע למשתמש חיפוש ברמת הרעיון – ולא ברמת מילות המפתח.

על מנת לפשט ולהקל על בנייתם של יישומי ניתוח טקסט, שילבה יבמ את UIMA בקו מוצרי שילוב המידע של WebSphere – שרת היישומים שלה. המערכת WebSphere Information Integrator OmniFind Edition הינה מוצר התוכנה הראשון המעבד מידע על בסיס תקן UIMA מערכת OmniFind משלבת גם אלגוריתם אחזור מידע ויכולות נוספות שפותחו במעבדת המחקר של יבמ בחיפה. היכולות האלה מרחיבות את פלטפורמת UIMA, ומאפשרות בנייה אוטומטית של אינדקס המאפשר אחזור מידע מהיר מן הטקסט המנותח.

רוני למפל, מנהל קבוצת אחזור המידע במעבדות יבמ בחיפה, מסביר כי המערכת לוקחת את תחום ניתוח הטקסטים צעד אחד קדימה, ומאפשרת פיתוח קל ומהיר של יישומים המאפשרים לזהות, לחפש ולאחזר את הידע מתוך הטקסטים המאוחסנים.

החיפוש במצבורים של מסמכים נעשה בדרך כלל באמצעות שימוש בשפת שאילתות מיוחדת – או על ידי צירוף של מילות מפתח. ניתוח של טקסטים מספק ומגדיר מבנה לתכנים בלתי-מובנים באמצעות זיהוי מונחי מפתח דוגמת שמות אנשים, ארגונים, אירועים – והקשר בין גורמי מפתח כאלה, כפי שהוא מסתתר בטקסט. ניתוח טקסט יכול גם לזהות תפיסות חדשות או עובדות בלתי מוכרות – ולהבין אותן בקונטקסט שבו הן מופיעות במסמך הבלתי מובנה. כך, למשל, כאשר משתמש מחפש אחר “מנהיגים בעולם”, תשלוף המערכת מידע אודות נשיאים, ראשי ממשלה ומנהיגים דתיים – גם אם המשתמש לא כלל מונחים אלה בשאילתא שלו.

ניתוח טקסטים מוכיח כבר את עצמו במערכות התראה מוקדמת, מוקדי שירות לקוחות ויישומים רפואיים. פתרונות מתחום ניתוח הטקסטים משמשים בתחומים אלה על מנת לחשוף ולגלות את הקשים בין סוגים שונים של מידע ועובדות המסתתרות בנקודות שונות במסמכים וקבצים שונים. במקרה אחד, השתמשה חברה בפלטפורמה של UIMA על מנת לפתח פתרון לכריית מידע בטקסטים, שיאפשר ליצרני מכוניות לעבד מידע בלתי מובנה הכלול בתביעות לתיקונים במסגרת האחריות, רישומים של טיפולי תחזוקה, דרישות תיקון ויומני פניות למוקדי שירות לקוחות. המידע המצטבר משמש על מנת לספק התראה מוקדמת אודות בעיות במוצרים היוצאים לשוק.

חברה אחרת פיתחה שורת רכיבים לניתוח טקסטים המאפשרים לחשוף ולזהות פעילות פשע או טרור. המערכת מנתחת מידע דוגמת דו”חות שטח, שטרי מטען ותמלילים של האזנות סתר – ומצליבה אותם עם מאמרי חדשות, פרסומים ונתוני העברות כספים בינלאומיות ומקומיות.

רוני למפל מוסיף כי העבודה בחיפה מתמקדת בתחום החיפוש הסמאנטי, באמצעות ידע או רעיונות – הבא להחליף את החיפוש על פי מילות מפתח. טכנולוגיית החיפוש הסמאנטי המפותחת בחיפה הוכיחה עצמה בשורת תחרויות בינלאומיות, דוגמת INEX, שם היא משמשת על מנת לחפש ולשלוף מידע מובנה למחצה ממסמכים הכתובים בפורמט XML.

התפתחות UIMA הואצה בזכות העבודה המשותפת עם DARPA – ארגון הפיתוח המרכזי של משרד ההגנה האמריקאי. שורת אוניברסיטאות ומכוני מחקר מובילים, כמו גם ארגוני מחקר ופיתוח תרמו לקידום התהליך. אחדות מהאוניברסיטאות המשתתפות במאמץ הפיתוח, דוגמת קרנגי מלון, קולומביה, סטנפורד והאוניברסיטה של מסצ'וסטס, כבר משתמשות ב- UIMA בקורסים ובפרוייקטים בתחומי המחקר.

למעלה מ- 15 יצרני תוכנה כבר הודיעו כי יאמצו את UIMA על בסיס מסחרי. החברות האלה צפויות לספק יישומי תוכנה התואמים לתקן הזה, פתרונות ושירותים שיתמודדו עם הצרכים המיוחדים לתחומי תעשייה שונים.

https://www.hayadan.org.il/BuildaGate4/general2/data_card.php?Cat=~~~249888080~~~207&SiteName=hayadan

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אתר זה עושה שימוש באקיזמט למניעת הודעות זבל. לחצו כאן כדי ללמוד איך נתוני התגובה שלכם מעובדים.