סיקור מקיף

פיתוח במעבדות יבמ בחיפה: מערכת שמנתחת סרטי וידיאו ומחלקת אותם לסצנות

“הטכנולוגיה יודעת לקחת אוסף של מאפיינים שניתנים על ידי המשתמש ושמאפשרים לחלק את הווידיאו לסצנות שמרכיבות אותו”, אמר דניאל רוטמן, חוקר בתחום ה-Video analytics במעבדת המחקר של יבמ בחיפה

ווטסון מביים סרטים. המחשה: יבמ
ווטסון מביים סרטים. המחשה: יבמ

מעבדת המחקר של יבמ (IBM) בחיפה פיתחה באחרונה מערכת שלוקחת סרטי וידיאו, מנתחת אותם ומחלקת אותם לסצנות. המערכת הוצגה בכנס שערכה השבוע החברה במעבדת המחקר שלה בחיפה.

האירוע הפגיש בין מומחים מהאקדמיה, ממעבדות יבמ ומהמחלקות בענק הכחול שמספקות שירותי מחשוב קוגניטיבי.

לדברי טל דרורי, מנהל מחלקת ניתוח מולטימדיה במעבדת המחקר של יבמ בחיפה, זו השנה השנייה ברציפות שהכנס עסק בראיית מכונה, והמיקוד הפעם היה על טכנולוגית וידיאו.

דניאל רוטמן, חוקר בתחום ה-Video analytics במעבדה זו, תיאר את המנגנון של חלוקת סרטון הווידיאו לסצנות שמרכיבות אותו. “כאן, במעבדה בחיפה, פיתחנו את הטכנולוגיה שיודעת לקחת אוסף של מאפיינים שניתנים על ידי המשתמש ושמאפשרים לחלק את הווידיאו לסצנות שמרכיבות אותו, בהתאם לאותם מאפיינים”.

הוא אמר כי “התוכנה מספיק חכמה כדי ‘לצפות’ בכל סרט ולהבין מה היה בו. אם זו הרצאת TED, שהיא דוגמה פשוטה, או סצנות הרבה יותר מורכבות בסרטים. למשל, סצנה בסרט הוליוודי, שהמידע הוויזואלי לא דומה לכל אורכה. כשמצלמים שחקן אחד ואחר כך שחקן שני כשהם מנהלים דיאלוג, מן הסתם התמונות שונות לגמרי אבל עדיין מדובר באותה סצנה. אחר כך יכול לקרות משהו שונה לגמרי ומטרת האלגוריתם היכולת להשתמש במידע כדי לבצע חלוקה סמנטית של התוכן”.

דרורי ציין כי “חלוקת הווידיאו לסצנות שונות יכולה לשמש אותנו כאבן בניין להרבה דברים – חיפוש סצנות, דילוג ביניהן ועוד. יש הרבה אלגוריתמים שמנתחים וידיאו וכשהוא הטרוגני, הם נתקלים בבעיות. מערכת שיודעת לתת להם קטע הומוגני מקלה על הסיווג”.

רוטמן הדגים את דבריו באמצעות קטע וידיאו ארוך שמתאר חופשה, כאשר בחלק ממנו האנשים מטיילים במדבר, בחלק אחר בים ובשלישי – ביער. “כאשר מחלקים את הסרט לסצנות שונות, הדבר קל יותר לאפיון”, אמר.

יישומים שניתוחי הווידיאו מאפשרים

אחד המרצים באירוע היה באלזש ז’אקג’ס, ראש החטיבה לתבונה עסקית בשירותי הווידיאו בענן של יבמ. הוא תיאר כיצד ביצוע ניתוחי וידיאו באמצעות הענן מאפשרים פיתוח יישומים חכמים, שיספקו, לדוגמה, אפשרות חיפוש תוכן רלוונטי בסרטונים.

המחלקה של ז’קאג’ס נוצרה משתי רכישות של יבמ שבוצעו בשני חודשים עוקבים – של Clearapp, שנרכשה בדצמבר האחרון, ושל Ustream, שבוצעה בינואר ושממנה הוא הגיע לענק הכחול.

ז’קאג’ס תיאר אפליקציות שנבנות בתוך יבמ, שיכולות לזהות סצנות אוטומטית באמצעות מחשוב קוגניטיבי, ולדגום את היחס של הקהל למה שמוצג בסרטון.

דרור פורת ממעבדת יבמ בחיפה, שהיה בין מארגני הכנס, אמר ש-“ככל שיכולות המחשוב הקוגניטיבי והענן של ווטסון (Watson) גדלות, כך ניתן לנצל אותן כדי לקבל יותר תובנות על נתונים שעד כה היו מעין חור שחור עבורנו – נתוני הווידיאו. בכנס Wow של יבמ, שהתקיים לפני כשבועיים בלאס וגאס, הזכירו רבים מהדוברים שווידיאו הוא התחום הצומח ביותר באינטרנט ובתוך כחמש שנים יהווה כ-80% מתעבורת הרשת. ואולם, איכות החיפוש בווידיאו תלויה עדיין בעיקר בנתונים שמוסרים אלה שמעלים אותו, שבמקרים רבים מוסרים נתונים לאקוניים ובמקרים אחרים לא מוסרים נתונים כלל”.

פורת ציין פיתוח נוסף של מעבדות יבמ בחיפה שמתבסס על מחשוב קוגניטיבי ושהוצג בכנס – משקפי מציאות רבודה, שמאפשרים לזהות עצמים. “בין היישומים המעניינים לפיתוח זה: טכנאי שהולך עם משקפיים חכמים ומסתכל על מכונה או מכשיר שהוא צריך לטפל בו, ומיד רואה על גבי שדה הראייה אוגמנטציה של נתונים, שיכולים להוליך אותו שלב אחרי שלב איך לטפל במכשיר. לדוגמה, חצים שמראים לו איזה חלק במכונה צריך לתקן וכיצד עליו לעשות זאת”, אמר.

יבמ חשפה שירותי ענן לזיהוי, ניתוח והתאמה אישית של וידיאו

השירותים החדשים, שמבוססים על ווטסון, מאפשרים לארגונים להפיק תובנות מתכני וידיאו, על מנת לפלח את קהל הצופים ולהתאים אישית את חוויית הצפייה של כל לקוח

יבמ (IBM) הציגה בכנס WOW (ר”ת World Of Watson), שהתקיים באחרונה בלאס וגאס, שירותים חדשים בתחום טכנולוגיית הווידיאו, שמבוססים על מערכת המחשוב הקוגניטיבית שלה, ווטסון (Watson). השירותים מאפשרים לארגונים להפיק תובנות מתכני וידיאו שזמינים להם, על מנת לפלח את קהל הצופים ולהתאים אישית את חוויית הצפייה של כל לקוח.

כמות תכני הווידיאו הזמינים ברשת נמצאת בעלייה מתמדת, אולם רובם המוחלט של תכנים אלה אינם נגישים לחיפוש בכלים מסורתיים, בשל האופי הבלתי מובנה של תכני וידיאו, שמקשה על תהליכי מפתוח, עיבוד וחיפוש. חברות רבות אוגרות תכני וידיאו לצרכי שיווק, תיעוד והדרכה, אבל הן לא מסוגלות להציע את התוכן המתאים לקהל הידע ההולם. טכנולוגיה קוגניטיבית היא הצעד הקריטי הבא לצורך כריית נתונים וניתוח התוכן המורכב הכלול בווידיאו, שיאפשר לחברות ולארגונים להבין טוב יותר תוכן זה ולהציע לצרכנים את התכנים המעניינים אותם.

השירותים החדשים, אליהם ניתן לגשת באמצעות הענן של יבמ, מנתחים סרטי וידיאו שדרשו עד כה טיפול ידני. הם מאפשרים ניתוח בזמן אמת של אירועים בסרט. השירותים משלבים ממשקי תכנות יישומים (API) של ווטסון עם טכנולוגיית הזרמת הווידיאו של יבמ, על מנת לעקוב כמעט בזמן אמת אחר תגובות וסרטונים ברשתות חברתיות, באמצעות ניתוח התוכן שמועלה אליהן.

שירות זיהוי סצנות הווידיאו מפלח אוטומטית את הסרט לסצנות נפרדות, באופן שמייעל את תהליכי האיתור והאספקה של תכנים ממוקדים. ניסויים שאותם עורכת יבמ עושים שימוש בטכנולוגיות קוגניטיביות שמסוגלות להבין סמנטיקה ודפוסי שפה ותמונה, לצורך זיהוי ברמה גבוהה של מהות התוכן ושל השינויים בנושאים שאליהם מתייחס הווידיאו. כך, למשל, מסוגלת המערכת לבנות פרקים נפרדים של וידיאו קליפים שמתייחסים לחלקים שונים בהרצאה או במצגת, באופן שדרש עד כה צפייה בעין אנושית ופעילות ידנית.

בעזרת השירות אפשר לקבל תובנות לגבי קהל הצופים. אלה מופקות בעזרת שילוב בין טכנולוגיות הווידיאו בענן של יבמ לפלטפורמת הפקת התובנות מתכני מדיה, תוך שימוש בממשקי התכנות של ווטסון. זאת, על מנת לסייע בזיהוי העדפות הצופים, בעזרת ניתוח הרגלי הצפייה שלהם ברשתות החברתיות והפוסטים שאותם הם מעלים.

כן מתאפשר ניתוח אנליטי של תגובות קהל באירועים חיים, שיותר ויותר מצולמים בווידיאו בזמן אמת. השירות משלב בין טכנולוגיית המרת הטקסט לדיבור של ווטסון וממשקי תכנות היישומים Alchemy Language לבין טכנולוגיית הווידיאו של יבמ, על מנת לספק מידע במהלך האירוע עצמו. טכנולוגיה ניסיונית זו מיועדת לעבד את הדיבור בשפה טבעית, שזמין בצילומי הווידיאו, ולנתח אותו מול תכנים המועלים על ידי משתתפי האירוע לרשתות החברתיות, על מנת להציג ניתוח מפורט של התייחסות הקהל לאירוע החי.

יכולת חדשה זו עשויה לשמש לחידוד ולהתאמת המסרים המוצגים על ידי דוברים מעל הבמה של אירוע מסוים עוד לפני שירדו ממנה. כך, לדוגמה, חברה שחושפת מוצרים חדשים באירוע רב משתתפים תדע אילו מהמוצרים או היכולות מעוררים התלהבות או פקפוק כבר ברגע החשיפה, ולזהות את ההיבטים בהם נכון להתמקד.

הכלים החדשים נולדו בחטיבת יישומי הווידיאו בענן, אותה הקימה יבמ בינואר השנה, תוך שילוב בין יכולות המו”פ שלה לכלים ולידע של Clearleap ו-Ustream, שאותן רכש הענק הכחול.

מסך מערכת ניתוח סרטי הוידאו של יבמ. צילום יח"צ
מסך מערכת ניתוח סרטי הוידאו של יבמ. צילום יח”צ

2 תגובות

  1. הכתבה נקודתית ואיננה נוגעת למהפכה שקורית עכשיו (זו הדיעה הרווחת לא דעתי) לתחום בינה מלאכותית.
    מ-2012 נוצרו פריצות דרך, שבחלקן באוניברסיטאות, חלקן ב IBM בפיתוח החומרה סינאפס, וחלקן בחברות ענק GOOGLE, ו openAI של אלון מוסק. חישה והיסק ע”י אלגוריתם מגיעים כעת לרזולוציות שעוברות את זו של האדם במקרים מסויימים. הבינה המלאכותית המופצת ע”י GOOGLE ו OPENAI היא פשוט מעוררת הערכה אבל גם חשש. בכרטיסי חומרה כגון מאיצים גרפיים פשוטים לגיימרים של NVIDIA וכלה בסינאפס של IBM, הופכים חישובי רשתות נוירונים משבועות לדקות ופחות מזה. בתחום העיוני נוצר מדע חדש, שתפס מהר כמו אש בשדה קוצים – יצא מברקלי וסטנפורד ו MIT: נקרא למידה עמוקה. בתוכו רשתות נויורונים קונבולוציוניות. כולם מסכימים שהיסק מדהים זה איננו תודעה עדיין. אבל גם בתחום הזה, פיתח הפסיכיאטר גוליילמו טונוני תיאורית תודעה מבוססת digital information theory והחל לענות על שאלות: מתי אלגוריתם מתחיל להיות מודע לעצמו, מתי הוא מתחיל לומר – אני אלגוריתם, אני מבין. בנוסף ניסה לכמת את מידת הבינה של אובייקט. עבודתו של טונוני איננה מקובלת עדיין על כול הקהילה המדעית, אך מקובל לחשוב שאיזה שהן תובנות היא נותנת. האתר מפספס קצת את המהפכה שקורית בתחום וזה שוב לדעת המומחים. לא כל יום קורית מהפכה. מיד יתחילו כל הספקנים להתנגד. חברים: פשוט חפשו למידה עמוקה בגוגל – ותגיעו לאילו תובנות של היסק מתמונה מגיעה התוכנה של גוגל, לאיזה בניין שפה מגרפיטי מגיעה התוכנה.גם באוניברסיטה מלמדים את המתימטיקה הזו באיחור 4 שנים לעומת ארה”ב.

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אתר זה עושה שימוש באקיזמט למניעת הודעות זבל. לחצו כאן כדי ללמוד איך נתוני התגובה שלכם מעובדים.