סיקור מקיף

עזרו לבינה המלאכותית: צפו ב”אבודים”

האתגר הבא של אנשי התוכנה הוא פיענוח וידיאו ותמונות, שיוביל למהפכה של ממש

ניתוח תמונה. צילום: Juan Huo, University of Edinburgh
ניתוח תמונה. צילום: Juan Huo, University of Edinburgh

ישראל בנימיני

באתר שיתוף הווידאו YouTube נצפים יותר ממיליארד קטעי וידאו בכל יום – יותר מרבבה בכל שנייה. בין השאר יש בו מאות סרטים שבהם חתולים מנגנים בפסנתר, מפריעים לאחרים לנגן בפסנתר, “מגיבים” על סרטים שבהם מופיעים חתולים ופסנתרים אחרים, או סתם נעים לצלילי מוזיקה… נראה כאילו תעשייה שלמה צמחה סביב סרטי חתולים בכלל וסרטי חתולים מנגנים בפרט, ולסרטים אלה יש קהל רב: הסרט על נורה, החתולה המנגנת, למשל,נצפה קרוב לעשרים מיליון פעם. אם כן, עשרות מיליוני גולשים מעלים סרטים וצופים בסרטים באתר זה בלבד, וכמובן קיימים אתרים רבים נוספים המוקדשים לתכני וידאו.

איך מגיעים הגולשים לסרטים כאלה? אחת הדרכים היא חיפוש סרט על-ידי הקלדת שאילתה למנוע חיפוש, ואכן מנוע החיפוש של YouTube שני רק ל-Google במספר שאילתות החיפוש המגיעות אליו (קרוב לארבעה מיליארד שאילתות באוקטובר 2009). מנוע החיפוש פועל בצורה שונה מאוד מהצורה שבה אדם נזכר בקטעי וידאו שראה.

האדם יזכור מה קרה בסרט; איזה אנשים, חיות וחפצים הופיעו; מה היתה האווירה (למשל: הומוריסטית, דרמטית); ופרטים רבים נוספים. מנוע החיפוש אינו מתייחס כלל לתוכן הווידאו אלא רק לטקסט המוצמד לווידאו, כמו שם הסרט והתיאור שסיפק האדם שהעלה את הסרט לאתר. לפיכך ייתקל מחפש החתולים (כאמור, מתברר שיש רבים כאלה) לעתים בתוצאות לא רלוונטיות בעבורו, כמו כאלה הקשורות למוזיקאי קט (Cat) סטיבנס, וייתכן כי סרטים רלוונטיים לא יופיעו כלל בתוצאות החיפוש.

זוהי תוצאה של מגבלה ידועה: אף שאין תחליף ליכולתן של רשתות המחשבים העולמיות לאכסן ולשתף תוכן ויזואלי, תוכן זה הוא אטוּם מבחינת המחשב, היכול לאכסן ולשדר אותו אך לא “להבין” אותו. “הבנה”, בהקשר זה, היא דרישה צנועה יחסית – יצירת תיאור מילולי המזהה את העצמים המופיעים בסרטון הווידאו גופו, או מציאת תוכן ויזואלי המתאים לתיאור מילולי נתון.

מצב זה עומד להשתנות. מאמצים רבים מושקעים בהבנת וידאו ותמונות והם כבר מניבים תוצאות מבטיחות. ההתקדמויות הבאות מבטיחות שינוי גדול, ולא רק בשיפור חוויית המשתמש המחפש סרטים מצחיקים על חתולים: כפי שנראה בהמשך, פיענוח וידאו יוביל למהפכה העשויה להיות גדולה ומשמעותית יותר מהמהפכה שנוצרה על-ידי היכולת לחפש טקסט באינטרנט.

תחרויות ראייה ממוחשבת

לרשות קהילת החוקרים הגדולה העוסקת בניתוח מידע ויזואלי עומדים ערוצים רבים של מפגשים ושיתוף פעולה, וביניהם גם כמה תחרויות. נזכיר שתיים מהן: אחד האתגרים בתחרות Pascal VOC (קישור בטור צד) דורש מהתוכנות המתחרות לענות על שאלות כמו “האם יש סוס בתמונה?” ואם התשובה היא חיובית, לאתר את העצם שזוהה – בדוגמה זו, נדרש לצייר בתמונה מלבן המכיל את הסוס.

בין הקטגוריות הרבות של עצמים שעל התוכנות לזהות מופיעים גם “בקבוק”, “אופנוע”, “פרה”, “שולחן אוכל”, “ספה”, “עציץ” ו”טלוויזיה”. בתחרות TRECVID (קישור בסוף הטור), שאותה מנהל המכון הלאומי האמריקני לסטנדרטים ולטכנולוגיה (NIST), קיים אתגר דומה של זיהוי עצמים ובו קטגוריות העצמים כוללות בין השאר “צומת דרכים”, “אדם מנגן”, “שחקן כדורגל”, ו”חדר כיתה”.

אתגר נוסף הוא חיפוש, בתוך מאות שעות וידאו שנקלטו במצלמות אבטחה, קטעים המתאימים להגדרות כמו “אדם רץ”, “אנשים מתחבקים”, ו”אדם עומד ליד מעלית שדלתותיה נפתחות אך אינו נכנס”. כמו כן כוללת התחרות אתגר חיפוש בתוך קטעי וידאו של נושאים כמו “משהו בוער”, “יד מציירת או כותבת”, “כביש הנראה מתוך השמשה הקדמית של רכב נוסע”, ואתגר זיהוי העתקה: מציאת קטעי וידאו שסביר כי הועתקו ממקור אחר.

תחרויות אלה ודומות להן מתקיימות מדי שנה בשנה כבר כמה שנים, וניכרת מגמה של שיפור בתוצאות באתגרים החוזרים כל שנה, כמו גם מגמה של הוספת אתגרים קשים יותר בכל שנה. התחרויות, ובייחוד פרסום מאמרים אקדמיים המתארים את השיטות והכלים שהפעילו המתחרים, תורמים רבות להתקדמויות בתחום.

למידה עצמאית

לצורך פיענוח קטעי הווידאו משתמשים המפתחים במאגר גדול של כלים, שרובם מגיעים מתחום הראייה הממוחשבת: מציאת קווי מתאר של חלקים בתמונה, חיבור קווי המתאר לעצמים, הפרדת העצמים מהרקע, ניתוח טקסטורות (צבעים ותבניות) של חלקים שונים בתמונה, זיהוי רמזים תלת-ממדיים (למשל, כאשר עצם אחד מסתיר חלק מעצם אחר), וטכניקות רבות נוספות. לטכניקות אלה נוספים גם כלים לניתוח הצלילים הכלולים בקטע הווידאו, בין השאר מתוך שאיפה לזהות מילים הנאמרות בו.

כבר לפני זמן רב התברר כי בתוכנות כאלה חייב להיות מרכיב מרכזי של למידה: לדוגמה, קשה למפתחי התוכנה להגדיר מתמטית כיצד נראה סוס, אך אפשר לתכנת את המחשב למצוא הגדרה כזו בעצמו בדרך של למידה: אם נזין למחשב מספיק תמונות של סוסים (וכמובן די תמונות שאינן כוללות סוס) וניצור תוכנת למידה מתאימה, אנו מצפים כי המחשב ילמד בעצמו מהו סוס. תוך כדי התהליך, התוכנה מבצעת בעבור כל תמונה מספר גדול של חישובים מספריים, וכך יוצרת אוסף של מספרים המאפיינים חלקים שונים בתמונה.

אפיונים מספריים אלה עשויים לכלול את המיקום והגודל היחסי של תת-חלקים בָּעצם שזוהה בתמונה, הטקסטורה של תת-החלקים, התנועה של העצם כולו והתנועה של חלקים מהעצם ביחס לחלקים אחרים. כאן נכנסת לפעולה תוכנת הלמידה ומחפשת מאפיינים המשותפים לרוב תמונות הסוסים ונעדרים מרוב התמונות שבהן לא מופיעים סוסים.

תיאור זה הוא פשטני מדי, כמובן, ומתעלם מבעיות רבות: בחירה נכונה של מאפיינים מספריים, התמודדות עם זוויות צפייה שונות באותו עצם (סוס נראה שונה אם מסתכלים עלים מלפנים או מהצד, למשל), גדלים שונים (סוס הממלא את כל התמונה או נמצא רק בחלק קטן שלה), עצמים מוסתרים או הנחתכים על-ידי גבולות התמונה (למשל תמונה שבה נראה רק ראשו של הסוס), הבדלים בתוך הקטגוריה (איך יבין המחשב שרוטוויילר וצ’יוואווה שייכים שניהם לקטגוריה “כלב”?), ועוד.

הצורך בלמידה אינו מפתיע: גם בני אדם לומדים לזהות את רוב העצמים מתוך דוגמאות רבות ולא מתוך אינסטינקט הטבוע בהם (ייתכן שיש לנו יכולת מולדת לזהות “עצמים דמויי נחשים”, אך בוודאי אין לנו יכולת מולדת לזהות מכוניות). מארגני התחרויות מכירים בכך ומספקים אוסף גדול של תמונות וקטעי וידאו לדוגמה. בדרך כלל יוזנו חלק מהתמונות לתהליך הלמידה, בעוד חלק אחר ישמש לבדיקת ביצועי התוכנה לאחר הלמידה.

מקורות לקטעי וידאו “עם פרשנות”

תהליך הלמידה יוצר דרישה לאוספים גדולים של תמונות וסרטים שאליהם מוצמדות “פרשנויות”: כפי שפעוט לומד לזהות מכונית מתוך אירועים רבים שבו מראים לו מכוניות ואומרים “הנה מכונית”, כך תוכנת הלמידה זקוקה לתיוג של עצמים ופעולות בתמונות ובסרטים. קיימים כבר מאגרים כאלה המשמשים ללמידה ולתחרויות כמו אלה שהוזכרו, אך קהילת המחקר הגדולה והפעילה “רעבה” לעוד ועוד תמונות וסרטים מתויגים.

פרופ’ בן טסקר (Taskar) מאוניברסיטת פנסילווניה החליט ללמד מחשבים לצפות בסדרות טלוויזיה פופולריות (ראו קישורים בסוף הכתבה לדיווח ולמאמר טכני) כדי להשביע את הרעב של תוכנות הלמידה. אחד המקורות שבו השתמש כלל כמאה אפיזודות של סדרות הטלוויזיה “אבודים” ו”CSI”.

לסדרות אלה יש אוהדים רבים, וחלקם משקיעים זמן רב בהעלאה לרשת האינטרנט של תסריטים וכתוביות. עבודתם של אוהדים אלה מאפשרת לשייך לכל רגע בסרט את הדוברים שבו: לדוגמה, שילוב של טקסט מהתסריט של “אבודים” וכתוביות יכול לספק את המידע שבשנייה מסוימת שואלת קייט “אז מה עוצר אותך?” וג’ק עונה: “אנחנו לא פראים, קייט. עדיין לא.” מכאן סביר להניח כי הפנים הנראות בשניות שלפני ואחרי הופעת הכיתוביות המתאימות כוללות את פניהם של ג’ון וקייט.

סדרה ארוכה של ניתוחים אלגוריתמיים, הכוללים בין השאר התמקדות על פנים וזיהוי רגעים שבהם השפתיים זזות, מובילה לדיוק גבוה בזיהוי הדוברים: כאשר נדרש המחשב לזהות רק את שמונה הדמויות השכיחות ביותר, הוא טועה רק ב-6% מהמקרים. כאשר הדרישה היא לזהות 32 דמויות, אחוז הטעות הוא 13%.

ומה הלאה?

דמיינו עתיד שבו כל קטע וידאו ברשת האינטרנט נצפה ומנותח על-ידי מנועי חיפוש מהדור החדש: מנועי חיפוש וידאו, בשילוב עם המאגר הענק של וידאו הזמין באתרים כמו YouTube, ועםמצלמות הווידאו המכסות כבר כיום חלקים גדולים מהמרחב הציבורי. חיפושים כאלה יוכלו לשמש מדענים המציבים מצלמות ביערות כדי לתור אחר מינים נדירים, אך באותה צורה גם יוכל ציבור המעריצים לקבל הודעה בכל פעם שסלבריטאי נקלט בעדשת המצלמה.

הורים מודאגים יוכלו לבדוק אם ילדם שנעלם נקלט במצלמת אבטחה, והמשטרה תוכל לקבל אתרעה אוטומטית בכל פעם שמצלמה “רואה” פעילות אלימה כלשהי. אנתרופולוגים וסוציולוגים יקבלו לידיהם כלי מחקר כמותיים ואיכותיים חדשניים (למשל, השוואות תרבותיות של מרחקים בין דוברים או תגובה למאורע לא שגרתי), וצוותים רפואיים יוזעקו מיד למקום שבו נפל אדם או שהתרחשה שם תאונה.

מצד שני, משטרים טוטליטריים יוכלו לזהות הפגנות ספונטניות או פעילויות אחרות החשודות כחתירה תחת המשטר, ולהדריך את התוכנה לעקוב אחר המשתתפים ולהרחיב את מעגל החשודים על-ידי הוספת אלה הפוגשים את המשתתפים בפעולות החשודות. רשימה זו היא רק טעימה קטנה ממה שעשוי להתרחש בעתיד.

בהתבסס על הפגיעה בפרטיות שכבר הפכה לתוצאה בלתי נמנעת של מנועי החיפוש הקיימים, ועל קצב ההתקדמות ביכולת ניתוח הווידאו, נראה שהעתיד הזה כבר קרוב, על צדדיו המבטיחים וצדדיו המאיימים. נתנחם לפחות בכך שמציאת סרט מצחיק על חתולים תהיה אפילו קלה יותר מאשר כעת…

ישראל בנימיני עובד בחברת ClickSoftware בפיתוח שיטות אופטימיזציה מתקדמות.

קישורים

11 תגובות

  1. לגוגל יש טכנולוגיה שמאפשרת לצלם ספרים, והם מזהים איזה ספר זה ומציעה היכן לקנות אותו באינטרנט.
    יש גם חברה שמאפשרת לצלם אנשים, ולמצוא מי הם בפייסבוק.

    העתיד נשמע מפחיד

  2. לאייל:

    רמת הדיוק של אלגוריתמי ראייה ממוחשבת תלויים בהרבה גורמים.
    גורמים אלו כוללים את מספר האובייקטים שאותם יש לזהות (האלגוריתם יצליח יותר באבחנה בין 2 אובייקטים מאשר 20 אובייקטים), איכות התמונה, כמות המידע (אובייקטים אחרים) והרעש בתמונה.
    עוד גורם קשור ל”כמות הלימוד” שנדרשת לאלגוריתם לפני שיוכל לזהות. ככל שהאלגוריתם ייראה יותר דוגמאות בשלב הלמידה, כך הוא יצליח יותר בשלב הזיהוי.
    ההצלחה המסחרית של אלגוריתמי ראייה ממוחשבת עד כה היא במשימות ממוקדות (כגון זיהוי פרצופים, זיהוי נתיבים או רכבים, זיהוי כתיב) והדרך ליכולת ראייה כמו של ילד בן שנתיים הינה עדיין חלום רחוק.

    הטכנולוגיות מתחום הלמידה החישובית הינן מגוונות. רשתות נוירונים הינן אחת הגישות אך ככל שידוע לי היה “הייפ” גדול סביבם בשנים עברו וכעת המצב השתנה מעט. הטכנולוגיות אותן אני מכיר הן Support Vector Machines, רשתות בייסיאניות, ושיטות סטטיסטיות אחרות כגון Adaboost

    אם הנך איש תכנה – ישנה ספריית ראייה ממוחשבת הכתובה בc++ בשם Opencv ובה כתובים אלגוריתמים רבים, בין היתר כאלו המאפשרים זיהוי אובייקטים בתמונה.

  3. תודה מיכ-אל, עברתי קצת על הקישורים שניתנו מתחת לכתבה, ונראה שאכן קיימות כבר תוכנות שיודעות לזהות יפה מאד כלבים חתולים ואלמנטים אחרים בתוך תמונה, שמע הדברים האלו פשוט מדהימים, יכולות שרק עד לא מזמן נחשבו ליכולת בלעדית של בן אנוש ופתאום גם תוכנה יכולה לעשות זאת. מיום ליום אני יותר ויותר מעריך את התחזיות של ריי קורצוויל, תחזיות שנראות יותר ויותר מציאותיות ככל שחולף הזמן.

  4. אייל:
    הנושא עוד נמצא בשלבי חקירה והמאמר הנוכחי מעיד על כך. התחרויות המוזכרות בו נועדו לדרבן אנשים לפתח ולשתף ידע בתחום.
    גם בקישור שהבאתי מוזכר שהדגמה מקוונת לשימוש הקהל הרחב נמצאת עדיין בפיתוח.

  5. זה לא נכון.
    זה בערך כמו לטעון שתינוק (שיש לו בינה טבעית) מורכב מהרבה מומחים.
    כמובן שזה גם לא שייך לשאלתו של אייל שלא שאל על בינה מלאכותית באופן כללי אלא על חלק מאד ספציפי של זיהוי תמונה (דבר שכלל אינו מתבצע באמצעות מערכת מומחה, מחד, ושיש בו כבר הישגים מרשימים – מאידך)

  6. לאייל,

    הבעיה של הבינה המלאכותית נעוצה בחוסר יכולת לבנות מחשבים בעלי יכולת מקבילית,
    כפי שמוח האדם מסוגל.

    כל מה שמפתחים עד היום,
    הן “תוכנות מומחה” ולא באמת אינטליגנציה מלאכותית.

    כדי לכתוב תוכנות לבינה מלאכותית אמיתית,
    יש צורך לאחד מספר גדול של תוכנות-מומחה לתוך מערכת אחת,
    אשר תוכל להיעזר בנתונים של תוכנות-המומחה.

  7. תודה, זה נראה מדהים! האם קיימות תוכנות היודעת להבחין בין כלב וחתול שניתן להוריד למחשב בבית ולבדוק אותן מול תמונות אקראיות מגוגל? מאד הייתי רוצה לבדוק את זה.

  8. שאלה לישראל בנימיני, האם קיימות כבר תוכנות שיודעות להבדיל בין תמונה של כלב ותמונה של חתול?

    אני יודע שאלו שאוהבים לבקר את נושא הבינה המלאכותית ולהראות שהנושא הזה מדשדש במקום ולא מתקדם לשום כיוון, אוהבים תמיד לעקוץ ולהגיד שהתוכנות האלו אפילו לא יודעות להבדיל בין תמונה של כלב ותמונה של חתול, משימה שכל ילד בן 2-3 מבצע בקלות.

    אז האם תוכנות כאלו כבר קיימות? מה רמת הדיוק שלהם בזיהוי באחוזים?

    והאם הן מבוססות על רשתות נויירונים, או על שיטות אחרות?

    תודה, אשמח מאד לתשובה.

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אתר זה עושה שימוש באקיזמט למניעת הודעות זבל. לחצו כאן כדי ללמוד איך נתוני התגובה שלכם מעובדים.