סיקור מקיף

אנו מפתחים רשתות נוירונים שיאפשרו לעבד כמות עצומה של טקסטים ולתמצת את משמעותם

כך אומר בשיחה עם אתר הידען פרופ’ עידו דגן, שהמעבדה לעיבוד שפה טבעית בה הוא חוקר, קיבלה לאחרונה מענק של 1.5 מיליון שקל למחקרים משותפים עם אינטל

מימין לשמאל - פרופ עידו דגן – ראש מעבדת עיבוד שפה ולמידה עמוקה , בר-אילן,  פרופ יואב גולדברג - ראש מעבדת עיבוד שפה ולמידה עמוקה , בר-אילן, מריאנה וקסמן – מנהלת קשרי אקדמיה, אינטל ישראל, משה וסרבלט – ראש קבוצת עיבוד שפה ולמידה עמוקה, אינטל קבוצת מוצר AI. צילום: דוברות אינטל ישראל
מימין לשמאל – פרופ עידו דגן – ראש מעבדת עיבוד שפה ולמידה עמוקה , בר-אילן,
פרופ יואב גולדברג – ראש מעבדת עיבוד שפה ולמידה עמוקה , בר-אילן, מריאנה וקסמן – מנהלת קשרי אקדמיה, אינטל ישראל, משה וסרבלט – ראש קבוצת עיבוד שפה ולמידה עמוקה, אינטל קבוצת מוצר AI. צילום: דוברות אינטל ישראל

אינטל ישראל הודיעה על תמיכה במעבדה לעיבוד שפה טבעית ולמידה עמוקה באוניברסיטת בר-אילן. עיבוד שפה טבעית הוא תחום מחקר וטכנולוגיה העוסק בניתוח ממוחשב של טקסטים בשפת בני-אדם, באמצעות שיטות המשלבות אלגוריתמים מעולם מדעי המחשב, כגון לימוד מכונה ולמידה עמוקה עם ידע בלשני. המעבדה בבר-אילן, בראשות פרופ’ עידו דגן ופרופ’ יואב גולדברג, הינה קבוצת המחקר הגדולה בארץ ומהמובילות בעולם בתחום.

מדובר בפרויקט עבור תוכנית מחקר משותפת לשלוש שנים, במימון של כמיליון וחצי שקלים. המחקר מתמקד בניתוח של טקסטים מרובים, ייצוג סמנטי טבעי של משפטים ואיחוד מידע, ויישומיהם במגוון תחומים כגון סיכום וחיפוש מידע באופן אינטראקטיבי.

גרפי ידע פתוחים

בשיחה עם אתר הידען מסביר פרופ’ דגן: “המחקרים המשותפים עם אינטל הם חלק מקשר ההולך ומתפתח, יש מספר מחקרים ובעיקר מחקר אחד גדול שמעניין אותם.”

“בקבוצה שלי אנחנו מפתחים גישה לייצוג ידע בטקסטים, איך אפשר לעבד הרבה טקסטים ולהגיע למשמעות הממוזגת שלהם. בכל נושא יש הרבה טקסטים, בחלקם חופפים, בחלקם משלימים, בחלקם סותרים, איך אפשר להשתלט על הרבה טקסטים. המערכת תאפשר לחקור, לתמצת.”
לדבריו, מדובר בהתפתחות המושג גרף ידע. חברות כמו גוגל ופייסבוק עושות בו שימוש כדי להביא את התוצאות המתאימות למשתמש המסויים. עם זאת, גרף ידע הוא סכמה המאפשרת לייצג ידע בתחום מוגבל, למשל להבין ממחקרים על תרופות מה הסימפטומים של מחלה מסויימת, מהן התרופות, מהן תופעות הלוואי וכן הלאה. אבל אם רוצים להבין מה קורה בהרבה טקסטים שכאמור בחלקם חוזרים על עצמם, חלקם משלימים אחד את השני וחלקם סותרים המחשב צריך לבנות גרף ידע בצורה אוטומטית שיכול לייצג את כל הידע הקיים בטקסטים.
כדוגמה לכך ניתן להביא שימוש ב-AI כדי לנתח מחקרים מדעיים בתחומים בהם לא ניתן להשתלט על הידע המצטבר, ולסכם אותם עבור המדענים והרופאים.

“במעבדות אינטל מבקשים להבין לאילו כיוונים מתקדם המחקר בתבונה מלאכותית כדי שיוכלו לענות על צרכי החומרה.” אומר פרופ’ דגן. “שני מהנדסים מאינטל עובדים איתנו במעבדה בין היתר על מאמרים משותפים, ואנו משפים פעולה במחקרים שנעשים במעבדה של אינטל. עובדים על מאמרים משותפים, משתפים גם פעולה על המחקרים שלהם במעבדה באינטל. מענק המחקר הוא לשלוש שנים ומשקף את הקשר האסטרטגי שלנו עם הקבוצה של אינטל  בישראל.”

קבלת הסבר מרשת הנוירונים כיצד הגיעה לתוצאה

גולדברג חוקר בתחום הNLP רשתות נוירונים, למידה עמוקה, בעיות יותר תשתיתיות, מידע אטומי בטקסטים, ובחלק מהדברים גם הוא משתף פעולה עם אנשי מעבדת המחקר של אינטל.

גם הוא התראיין לכתבה זו והסביר: “התחום העיקרי שאני עוסק בו הוא הבנת שפה טבעית. בשנים האחרונות התחום התפתח בעזרת לימוד מכונה ולמידה עמוקה. המטרה שלנו היא להבין איזה ארכיטקטורות של רשתות עצביות מתאימות ללימוד שפה ולמה וגם איך הן לומדות. היום התבונה המלאכותית היא מעין קופסה שחורה ואנחנו רוצים לדעת מה הם למדו, ולמה התקבלה ההחלטה שהתקבלה. מדענים ומהנדסים רוצים לדעת מה מתרחש כדי לשפר את הרשתות וכך להבין מה הן יכולות לעשות.”

תחום נוסף שאנו עוסקים בו הוא ההטיות ואיך אפשר לבנות מודל הוגן, מודל שלא מפלה אנשים בטעות. בתחום הזה כל מה שקשור לטקסטים, אבל להתייחס רק לתוכן, ולא להתיחס למאפיינים כמו גיל או מגדר או מוצא. למשל קורות חיים, אני רוצה להיות מסוגל להגיד לתבונה המלאכותית להתעלם מהנתונים הללו, כך גם במקרה של רשת נוירונים שמחליטה על מתן הלוואות, לא נרצה להפלות לפי מקום מגורים לדוגמה, השאלה איך דואגים שהנתונים הללו לא יגיעו לתהליך קבלת ההחלטות באופן עקיף.
זו תכונה חשובה וקשורה לדרישה של האיחוד האירופי בבקשה לקבל הסבר. בהמשך אנחנו חוקרים מהם הכלים התשתיתיים הדרושים להבנת טקסט. אני בונה סוג של אבני בניין שאנשים כמו עידו משתמשים בהם. השאלה היא איזה אבני בניין צריך ואיך עושים אבני בניין שיהיו שימושיות להרבה אנשים בין אם הם מומחים כמו עידו או אנשים שאינם מומחים ורוצים כלי שיעזור להם לקבל החלטות.

יש היום די הרבה רשתות נוירונים ולמידה עמוקה רצות על תשתיות של NVIDIA – מעבדים גרפיים. הם רוצים להבין את העומסים שיש בעיבוד שפה שהם שונים ממה שיש בניתוח תמונות, ולהתאים חומרה של אינטל. אנחנו יוצרים את אבני הבניין של לימוד שפה טבעית, הם יהיו צריכים לבנות חומרה מתאימה, בהנחה שהרבה אנשים ישתמשו בזה, לא רק כמה אקדמאים. אינטל גם מספקת שירותים בתחום הבינה המלאכותית והיא צריכה גם את היכולות הללו.

מבחינת הבנת שפה אנחנו מתמקדים במבנה של משפטים, הנושא הנשוא המושא, גם להביא את המשמעות של המילים והמשפטים גם בדברים שלא נאמרים ישירות במשפט וצריך להסיק אותם מתוך המשפט. אנשים מבינים את המשמעות באופן אוטומטי, למחשב זה יותר קשה.

האם יצא סטרטאפ מהמעבדות שלכם?
אנחנו לא עובדים על הקמת סטרטאפים, אמנחנו לא חממה אבל הרבה מאוד בוגרים של המעבדה השתלבו בחברות בולטות ובאקדמיה, יש בוגרים במעבדות המחקר של גוגל, פייסבוק וכמובן אינטל. אני גם גם במקביל מרכז מחקר – מכון אלן לבינה מלאכותית, עמותה די חדשה. שבה אנו מפתחים תשתיות לטובת הציבור.
יניב גרטי מנכל אינטל ישראל מסר: “התמיכה באוניברסיטת בר-אילן, שקיימים בה חוקרים מהשורה הראשונה, תניב מחקרים חשובים בתחום עיבוד שפה טבעית שהוא תחום מחקר וטכנולוגיה חדשני. לאקדמיה יש חלק חשוב בפיתוחים הבאים של ה-AI ואני מאמין ששילוב הכוחות עם אינטל במגוון פעילויות, ייתן לכל הצדדים יתרונות מהותיים”.

משה וסרבלט מנהל קבוצת המחקר בעיבוד שפה ולמידה עמוקה באינטל בקבוצת מוצר ה –AI מסר: “מעבדת ה- AI באינטל שמחה להרחיב את הקשר האקדמי בישראל באמצעות מחקר משותף עם אחת מקבוצות המחקר המובילות בעולם בתחום עיבוד שפה טבעית. הקשר ההדוק בין המפתחים שלנו לבין החוקרים בבר-אילן הוא קשר פורה שימשיך להניב גם בעתיד פיתוחים חדשניים”.

לאינטל יש פעילות רחבה בתחום המחקר האקדמי, פרויקטים משותפים ותרומות טכנולוגיה מתקדמת למעבדות הוראה באקדמיה בתחום ה- AI הכוללים: מרכז מחקר AI בטכניון, מעבדה לעיבוד שפה טבעית ולמידה עמוקה באוניברסיטת בר-אילן, מעבדת למידה עמוקה באוניברסיטת בן גוריון, מרכז ה- SCIENCE DATA ומרכז ה – ANALYTICS DATA BIG באוניברסיטה העברית בירושלים – שיתוף פעולה שכולל קורסים, הרצאות, פרויקטים ובנוסף חיבור ל-CENTER DATA ענקי של אינטל בארה”ב למחקר מרחוק על השרתים הגדולים ביותר של אינטל.

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אתר זה עושה שימוש באקיזמט למניעת הודעות זבל. לחצו כאן כדי ללמוד איך נתוני התגובה שלכם מעובדים.