סיקור מקיף

חוקרים פיתחו אלגוריתמים שמאפשרים לערוך סרטוני וידיאו במהירות ויצירתיות

במסגרת עבודתה בוחנת ד״ר טלי דקל ממכון ויצמן כיצד ניתן לייצג ולנתח מידע חזותי מסרטונים. במחקריה האחרונים, שזכו במענק מהקרן הלאומית למדע,  פיתחו היא וצוותה אלגוריתמים מבוססי למידה שמייצגים את המידע הקיים בסרטון נתון על ידי אוסף קטן של תמונות דו-ממדיות

עריכת וידאו באמצעות בינה מלאכותית, פרופ' טלי דקל ממכון ויצמן. צילום מסך מתוך יוטיוב
עריכת וידאו באמצעות בינה מלאכותית, פרופ’ טלי דקל ממכון ויצמן. צילום מסך מתוך יוטיוב

בשנים האחרונות חלו פריצות דרך משמעותיות בתחום הראייה הממוחשבת, כחלק מחקר הבינה המלאכותית. ד”ר טלי דקל ממכון ויצמן למדע, אומרת: “כלים חישוביים מתחום הבינה המלאכותית וכוח החישוב שגדל מאוד מאפשרים כיום לעבד מידע חזותי בכמויות עצומות (לדוגמה כל התמונות באינטרנט) וללמוד ממנו על ייצוגים חזותיים מורכבים. ניתן לראות זאת למשל בפריצות הדרך האחרונות בייצור תמונות מטקסט – התחושה היא שניתן לתרגם את כל העולה על רוחנו לתמונה איכותית. עם זאת, ייצור, עיבוד וניתוח של מידע חזותי מסרטוני וידיאו, באמצעות מחשב, הם תחומים מאתגרים שנמצאים בתחילת דרכם. האתגר הראשון הוא חישובי: סרטונים מורכבים מסדרת תמונות ולכן עיבוד המידע שקיים בהם, אפילו של דקות ספורות, מצריך שמירה של אלפי תמונות. בנוסף, ממד הזמן מגוון ועצום. אפילו סרטון פשוט לרוב יערב תנועת מצלמה לצד תנועת אובייקטים דינמיים שיכולים להסתיר או להיות מוסתרים על ידי אובייקטים אחרים או לזוז באופן מורכב”.

במסגרת עבודתה בוחנת ד״ר דקל כיצד ניתן לייצג ולנתח מידע חזותי מסרטונים. במחקריה האחרונים, שזכו במענק מהקרן הלאומית למדע,  פיתחו היא וצוותה אלגוריתמים מבוססי למידה שמייצגים את המידע הקיים בסרטון נתון על ידי אוסף קטן של תמונות דו-ממדיות; כל תמונה מייצגת אובייקט דינמי אחד לאורך הסרטון, ותמונה אחת מייצגת את הרקע. כל פיקסל בווידיאו מותאם לנקודה מתאימה בתמונות אלו, מה שמאפשר לשחזר את הווידיאו המקורי מייצוג זה. יתרון בולט של השיטה הוא עריכה קלה, מהירה ואינטואיטיבית של מידע דינמי ומשתנה. כך עשו החוקרים בסרטונים מחיי היומיום (למשל ילדים קופצים על טרמפולינה, ילד רוכב על אופניים ונערה הולכת ברחוב).

ד”ר דקל: “באמצעות האלגוריתמים אנחנו עורכים סרטונים בדומה לאופן שבו עורכים תמונות. באמצעות עריכת תמונה בודדת, אנו יכולים לבצע עריכות מגוונות בווידיאו, למשל להוריד או להוסיף טקסטורות ואלמנטים מסוימים, והכל נעשה אוטומטית. כך הסרטונים הופכים יצירתיים ואמנותיים יותר ולא מהווים רק אוסף של תמונות ובמקביל נשמרים המבנה הגיאומטרי והתנועותי שבהם״.

באחד המחקרים הדגימה ד״ר דקל בפעם הראשונה כיצד להרחיב שיטה זו לעריכות מבוססות טקסט – האלגוריתם מקבל קלט טקסטואלי שלפיו נערך הסרטון (כך למשל ניתנה פקודה להוסיף לכלב עם פרווה שחורה-חומה חברבורות של נמר או להפוך כתמים על עורה של ג’ירפה לזכוכית צבעונית, ועוד).

“כל שינוי או אפקט שאנחנו מכניסים לסרטונים חייב לציית לעולם האמיתי מבחינה פיזיקלית וגיאומטרית. האלגוריתמים שפיתחנו מדגימים כיצד ניתן לעשות זאת באופן אוטומטי ויעיל. וכמובן שכלים אלה יכולים לשמש ליישומים רבים כגון קולנוע וטלוויזיה ועריכת תוכן דיגיטלי. הם יאפשרו לחסוך כסף וזמן על ימי צילום ועריכה ולשנות מאפיינים של סרטים, סדרות ופרסומות בכמה לחיצות כפתור. בסופו של דבר, מדובר במהפכה והתקדמות משמעותית בתחום עריכת הווידיאו”, מסכמת ד”ר דקל.

החיים עצמם:

ד”ר טלי דקל, נשואה + שלושה ילדים (9, 6.5 ו-3), מתגוררת ברחובות. בנוסף להיותה חוקרת בכירה במכון ויצמן, היא גם חוקרת בכירה ב-Google, בעלת תואר בהנדסת חשמל מאוניברסיטת תל אביב ועשתה את מחקר הפוסט הדוקטורט שלה במכון הטכנולוגי של מסצ’וסטס (MIT). מחקריה זכו בפרסים יוקרתיים ובהם פרס המאמר הטוב ביותר בכנסים בולטים בתחום (CVPR, ICCV). לדבריה, “השילוב בין אימהות לקריירה מאתגר ומצריך איזון עדין, אך הוא גם מספק מאוד”.