סיקור מקיף

אינטל מציגה: מיחשוב רב חושי

השבוע יצאה חברת אינטל למפתחי האפליקציות בבקשה יוצאת דופן, דברו אל המחשב

יגאל ינקו. צילום יח"צ אינטל
יגאל ינקו. צילום יח"צ אינטל

השבוע יצאה חברת אינטל למפתחי האפליקציות בבקשה יוצאת דופן, דברו אל המחשב. אינטל קוראת למפתחי אפליקציות לפתח אפליקציות של זיהוי דיבור, והודיעה כי ערכת פיתוח תוכנה (SDK) של המחשוב התפיסתי (The Intel Perceptual Computing) – זמינה כעת להורדה כאן.

אינטל מאמינה שמחשוב תפיסתי צפוי לחולל מהפכה באופן שבו אנשים נמצאים באינטראקציה עם מחשבי ה-PC שלהם. ערכת פיתוח התוכנה שאינטל מציעה כעת בתחום המחשוב תפיסתי מאפשרת למפתחים לפתח אפליקציות סביב יכולות כמו זיהוי פנים מקרוב, מעקב אחר אצבע המשתמשים, ניתוח פנים, מעקב אחר אובייקטים דו ותלת ממדיים – וכעת גם זיהוי דיבור.

אינטל קוראת למפתחי אפליקציות לפתח אפליקציות של זיהוי דיבור. החברה הודיעה כי ערכת פיתוח תוכנה (SDK) של המחשוב התפיסתי (The Intel Perceptual Computing), שאמורה לתמוך בזיהוי דיבור של חברת ניואנס – זמינה כעת להורדה. כעת יוכלו מפתחים להוסיף פקודות קוליות, משפטים קצרים והכתבת טקסט לדיבור ליישומים שהם מפתחים עבור מחשבים שעושים שימוש במעבדים מסדרת Core של אינטל.

במרכז הפיתוח בחיפה עובד בימים אלה צוות בראשות מולי אדן, נשיא אינטל ישראל, בנושא המחשוב התפיסתי. הצוות מבוסס על יוצאי חברת הסטארט-אפ אינויז'ן מיקנעם, אשר נרכשה על ידי אינטל, יחד עם עובדי חברה נוספים, שכעת נמצאים בקבוצת המחשוב התפיסתי באינטל חיפה.

כדי להבין במה מדובר, ובעיקר את ההקשר של ההכרזה, שבאה זמן קצר לאחר הכרזה דומה על זיהוי מחוות באמצעות מצלמה, המיועדת לאותם מפתחים, שוחחנו עם יגאל ינקו, אחראי על תכנון אסטרטגי בתחום המיחשוב התפיסתי באינטל העולמית במרכז הפיתוח של אינטל בחיפה.

"מבחינת הכרזות אינטל מדובר בתוספת תכונה ל-SDK שהכרזנו עליו בפורום המפתחים של אינטל (IDF) בספטמבר האחרון. הבטחנו להוסיף תכונות ולפני כחודש הכרזנו על תכונות של זיהוי מחוות בעזרת מצלמה הקולטת תמונות תלת ממדיות, והפעם הוספנו יכולת קולית בשיתוף עם חברת ניונאנס.

אינטל מספקת ערכת פיתוח – לא מוצרים ברמה של מוצרי קצה. עם זאת הצענו להם מספר אפליקציות בסיסיות כדי להדגים את היכולות של הטכנולוגיה ומשם לקחת אותה כל אחד לפי דמיונו ואפשרויותיו."

מותה של מקלדת ה-QWERTY
לדברי ינקו עוצמת המיחשוב גדלה כל הזמן אך במשך עשרות שנים הממשקים איתו לא השתנו. "לא רבים יודעים אבל מקלדת ה- QWERTY פותחה כדי להאט את קצב ההקלדה במכונות כתיבה. בשנים האחרונות אנשים התחילו להתרגל להשתמש במסכי מגע, זה צעד קטן בכיוון הנכון אך לא מספיק."
"העתיד הוא בממשקים הטבעיים" מסביר ינקו. "אנו רוצים חוויה אינטואיטיבית, שתאפשר ליותר אנשים להשתמש במיחשוב. אנחנו חוזרים למקור שלנו – לאבולוציה של העיניים, האוזניים ולחושי מגע וקול ומעדיפים שהמחשב יתאים את עצמו אלינו ולא שאנחנו נתאים את עצמנו למחשב. מקלדת ועכבר אינם אמצעי תקשורת שאנשים משתמשים בו כדי לתקשר אחד עם השני אבל נאלצים להשתמש בו כאשר מתקשרים עם מכונות. זיהו קולי או מחוות ידיים הם הרבה יותר אינטואיטיביים ולכן אנו מכנים זאת "מיחשוב תפיסתי" כי הוא מאפשר שימוש בחושים בצורתם הבסיסית ביותר."

מה הקשיים במימוש?
ינקו: הקושי העיקרי במימוש הוא הצורך לשכנע את האנשים להשתמש. ההסטוריה של ה-QWERTY מוכיחה שקשה מאוד לשנות הרגלים. גם מסכי מגע קיימים 15 שנה אבל רק מאז חדירת האייפון התכונה הזו נכנסה לשימוש המוני. בנוסף, כמובן שככל שהממשק יותר אינטואיטיבי, כך נדרש כוח עיבוד גדול יותר, והרכיבים של המחשב צריכים להיות חזקים יותר – בין אם מדובר במצלמות שצריכות להיות תלת ממדיות כמו העין שלנו, או מערכת העיבוד הקולי שנדרשת לכוח רב משום שהיא פועלת לא בסביבת שקט מוחלט ובמספר מילים מצומצם מדובר מסוים באפליקציה מסוימת אלא בכל תנאי רעש רקע, עם מספר אינסופי של מילים ומכל משתמש. המערכת צריכה גם להבין את הנאמר לה מתוך ההקשר, כפי שאנו עושים."

"בחוויה הטבעית אנחנו עובדים בשילוב של החושים, גם בתקשורת קולית, כמו שיחת טלפון, יש אינטונציה, אנחנו מסננים את רעש הרקע. ואולם בשיחה פנים אל פנים אנשים מדברים עם העיניים, הידיים, הקול, תנועות שפתים – תקשורת מילולית ובלתי מילולית. הפלטפורמה שאינטל רוצה לתת היא לשלב את החושים הללו ביחד של חוויה טבעית."

לדוגמה?
"במציאות, אם מישהו עושה לי סימן ביד של עצור או רק רגע, אני מבין במהירות. למחשב מדובר במשימה קשה של עיבוד תמונה. אלו תמונות מאוד מורכבות שצריך לעבד אותן ולהבין למה הן מתכוונות. לא מכבר יצאה מצלמה פריפריאלית, שמחברים אותה לאולטרה בוק של חברת סופט קינטיק והיא מסוגלת לזהות מחוות כאלה."

האם ניתן יהיה לומר שהמיחשוב התפיסתי יהיה שלם רק כאשר נמצא תחליף דיגיטלי לכל החושים ?

"אנחנו מספקים היום למפתחים תמיכה במצלמה בסיסית, ומערכות בסיסיות לזיהוי קול וזיהוי מחות. לא צריך לחכות שהכל יהיה מושלם ואז לשלב אותם. צריך לזכור שהדבר דומה לגוף האנושי: עליונות של חוש אחד מפצה על נחיתות של חוש אחר. ככל שהטכנולוגיה תתקדם במהלך השנים נוכל לתמוך בהתקנים מתקדמים יותר. "

כדוגמה ליישומי מיחשוב תפיסתי, סיפקה אינטל את "משחק האלוהים" המאפשר להזיז את הגופים במערכת השמש. משחק אחר שפתח באמצעות יצרנית המצלמה סופט קינטיק הוא 'ברק' המאפשר לייצר ברקים במציאות רבודה בין כפות ידיים בהתאם למחוות גופם. במשחק אחר של Softkinetic, בשם Ballista, השחקנים "יורים" כדורי קלע וכדורי תותח באמצעות זיהוי מחוות גופם.

כדי לממש את המיחשוב התפיסתי. ככל שהמחשב מתקדם בדרישה לחקות את הטבע הוא נדרש ליכולת עיבוד נתונים גדולה, בין אם מדובר ברזולוציה של וידאו בזמן אמת, או זיהוי דיבור מדויק יותר. הדברים משתלבים בפלטפורמות של אינטל המספקות חישוביות גבוהה בצריכת חשמל נמוכה. במשחק אחר ניתן לירות כדורים תלת ממדיים על מבצר.

"אנחנו עובדים במקביל על ההתקנים המדמים חושים כגון מצלמות, מנועי דיבור, ואמצעים נוספים שאיננו יכולים להזכיר כרגע, ומשלבים אותם בסביבת פיתוח אחת. אני מקווה שכמו שקרה באייפון, קהילת המפתחים מצאה את השילובים הנכונים הרבה דברים שלא חשבנו עליהם אני בטוח שיקרו. אינטל סיפקה בסביבת הפיתוח דוגמאות דמו למפתחים שמראות מה ניתן לעשות אבל הרעיון הוא שהדמיון לא נשאר אצלנו בלבד ואני מקווה שאנשים יעשו עם זה הרבה יותר דברים מעבר למה שחשבנו", אומר ינקו לסיום.

3 תגובות

  1. הייתי ממליץ לאינטל לעדכן את הSDK ל#C אם הם רוצים שמתכנתי UI בכלל יחשבו להשתמש בזה . בינתיים הSDK של Microsoft Kinect מרשים בהרבה.. אך בכל מקרה תחרות זה טוב והפרויקט מבורך..

  2. לא הבנתי – למה להמציא את הגלגל מחדש ? סירי של אייפון זה לא דיבור למחשב ?

    חשבתי שהטכנולוגיה הזו כבר הומצאה.

  3. סליחה אבל עם כל הכבוד לטכנולוגיה שהיא יפה בפני עצמה נראה לי שהרבה יותר קל ונוח להשתמש בעכבר ובמקלדת מסורתיים מאשר להתחיל לנופף עם הידיים מול המחשב (מעייף) או לדבר אליו בקול. מה גם שלא ברור לי איך אפשר להתרכז בעבודת פיתוח בצוות כשהאנשים בחדר סביבך יושבים ומדברים אל המחשבים שלהם.

    לא נראה לי מעשי בכלל.

כתיבת תגובה

האימייל לא יוצג באתר.

דילוג לתוכן