סיקור מקיף

חיפוש מילה בפס הקול של סרטון וידאו, וזיהוי קולי של המתקשרים לבנקים

היום יתקיים האירוע השנתי של AVIOS ישראל, האירוע השנתי ה- 6 בתחום טכנולוגיות הדיבור, ראיינו לקראתו שניים ממציגי פיתוחים מעניינים: מנוע חיפוש קולי ומערכת ביומטרית לזיהוי דיבור

לוגו איגוד AVIOS ישראל
לוגו איגוד AVIOS ישראל

היום יתקיים בר”ג הכנס השנתי של AVIOS ישראל, (applied voice input/output society) המאגד בתוכו את החברות העוסקות בזיהוי קולי ובפלט קולי של מערכות ממוחשבות. לקראת הכנס ראיינתי עבור הניוזלטר דיילי מיילי את מנהליהן של שתי חברות שפיתחו טכנולוגיות זיהוי דיבור. אנו מביאים במרוכז את שתי הכתבות הללו גם לקוראי אתר הידען.

לחפש מילה בסרטון וידאו

NSC תציג בכנס אביוס טכנולוגיה שהעבירה מעולם הריגול וה-Call Center לכל משתמשי האינטרנט – היכולת למצוא מילה מדוברת בתוך קובץ קול או פס קול של וידאו ולהגיע ישירות לקטע הרלוונטי, מסביר ד”ר עמי מויאל, מנכ”ל החברה

ד”ר עמי מויאל, מנכ”לNSC, מה תציגו בכנס?

“NSC (ר”ת Natural Speech Communication) תציג בכנס אביוס את מנוע החיפוש בקבצי קול: www.snipp.tv. המשתמש מקליד מילים לחיפוש והמנוע מחפש אותן בקבצי קול או בפסי קול של קבצי וידיאו שאונדקסו קודם לכן ומציג תוצאות שהינם קבצים בהן מילת החיפוש נאמרה. האינטרנט מוצף בתכני וידיאו ואולם הדרך היחידה עד כה שניתן היה לחפש בהם היתה רק לחפש בטקסטים הנלווים אליהם – שמי שהעלה את הקובץ בחר לכתוב. עם קבלת תוצאות החיפוש היה צורך לצפות בסרטים בכל אורכם. אנו מתייחסים לקובץ הקולי כאילו היה קובץ טקסט ומסוגלים להביא את המשתמש לנקודה שבה נאמרה המילה שהקליד, גם אם מדובר בסרטים ארוכים, ולפיכך המשתמש יכול להחליט אם התוכן רלוונטי עבורו”.

איך הגעתם לפיתוח כל כך חדשני, שנראה לקוח מסרטי ג'יימס בונד?

אני נמצא בתחום זיהוי הדיבור קרוב ל-20 שנים ועבורי ההתפתחות של השימוש בטכנולוגית זיהוי דיבור לתחומים נוספים הינה טבעית. אני בהחלט רואה תהליך של הרחבת השימוש בזיהוי הדיבור מעבר לתחום של תקשורת אדם-מכונה לתחומים נוספים – בעיקר ברמת האינטגרציה של הטכנולוגיה לעולם החיפוש. אנו עוסקים מאז הקמתנו בפיתוח מנוע לזיהוי דיבור. הייחודיות שלנו היא במימוש המנוע על שרתי להב (Blades) יעודיים. מנוע זה מאפשר טיפול בכמויות גדולות של מידע הן בזמן אמת והן ב-Offline, במגוון רחב של שפות תוך ביצועי זיהוי גבוהים מאוד.

בשנים האחרונות אנו מתמקדים בעיקר באיתור מילות מפתח, קרי היכולת למצוא מילה מסוימת בתוך מאגר של דיבור. באופן טבעי מי שמשתמש בשיטות כאלה הינם ארגונים מסוימים בשוק הבטחוני שמקליטים שיחות בכמויות גדולות והיו רוצים לנתח אותם באופן אוטומטי כדי למצוא את השיחות שראוי להתמקד בהם. אנו הצלחנו להגיע לביצועים טובים גם כאשר יש הפרעות רעש או עיוותים אחרים של הערוץ תוך ביצוע זיהוי בשפות היחודיות להן נדרש השוק הבטחוני. השוק השני שמשתמש בזה הוא ענף ה-Call Center. ארגונים מקליטים את השיחות ומבקשים להוציא מהם מודיעין עסקי. מכאן הגענו לפיתוח המהווה את גולת הכותרת שלנו היום – מנוע החיפוש לתכני מולטימדיה באינטרנט”.

כיצד המערכת פועלת?

“מאחר ובאינטרנט יש הצפה של תכני וידיאו, מנוע החיפוש tv.Snipp מאפשר למשתמש להקליד את המילה כמו בכל מנוע חיפוש. כל קובץ עובר אצלנו תהליך מקדים של אינדוקס, וכך אנו מסוגלים להציג תוך פחות משניה את תוצאות החיפוש, גם אם מדובר בעשרות ומאות קבצי וידיאו שבהם המילה נאמרה. המערכת מסוגלת לכוון לנקודה בתוך הוידיאו שבה המילה נאמרה. כך אנו חוסכים למשתמש את הצורך לשמוע או לראות את כל הקבצים, ומאפשרים לו תהליך חיפוש מהיר מאוד. האתר עדיין בשלב הבטה ואנו מאמינים מאוד בגישה ובפתרן שלנו. העלינו לאתר קבצי וידיאו מספקים משמעותיים ובהם רויטרס, פוקס וטריביון”.

הקדמתם את גוגל?

“בלהשיק מנוע חיפוש למולטימדיה מבוסס טכנולוגית זיהו דיבור אכן השקנו אתר לפני גוגל אבל מכיוון שכולם בענף יודעים שחייבים לעשות סדר בעולם חיפוש המולטימדיה, אני מניח שכל מנועי החיפוש עובדים על זה, היתרון שלנו הוא שלנו היתה הטכנולוגיה עובדת בתחומים אחרים ולכן כבר השקנו את האתר. האתר נמצא כמה שבועות באוויר ובלוגרים במקומות שונים התחילו להגיב עליו והתגובות חיוביות ומעודדות, היו שכתבו שהאתר שלנו נותן מענה לא רק להצפה של הוידיאו אלא גם לחיפוש אמיתי בתוך הוידיאו. קצב הביקורים באתר הולך וגדל”.

מה הפיתוח הבא?

“בראיה כוללת הפתרון שיש ידינו מתאים לביצוע חיפוש בתכני מולטימדיה בכל שוק שבו קיימים תכני מולטימדיה. למשל שוק יצרני התוכן שיוכל לקבל מאיתנו שירותי חיפוש או שירותי יצור טאגים אוטומטיים לתכנים שלהם. למשל השוק הארגוני שירחיב את מאגר התוכן שלו מטקסט למולטימדיה ובוודאי יצטרך יכולות לאנדקס תוכן מולטימדיה ולחפש בו.

בראיית שוק גלובלית נראה כי הנושא של Voice Search צובר תאוצה והכוונה היא לממשק קולי שבו המשתמש יגיד מילה והמערכת תחפש אותה בבסיס הנתונים שלה”.

“הזיהוי הקולי הביומטרי יהפוך לחלק בלתי נפרד ממערך ניהול הסיכונים”

כך אומר אלמוג עלי-רז, מנכ”ל פרסיי (PerSay), שתציג ב-Avios את מערכותיה המשרתות בנקים, חברות טלקום, ספקי שירותי בריאות וארגוני בטחון

אלמוג עלי-רז, מנכ”ל פרסיי, ספר על החברה.

“פרסיי (PerSay) מפתחת, מייצרת ומשווקת מערכות לזיהוי דובר ביומטרי, המסוגלות לייצר חתימות קול של לקוחות ועובדים. חתימות קול אלה משמשות לאחר מכן לצורך זיהוי האנשים בגישה למוקדי שירות, ובביצוע פעולות רגישות. החברה שהחלה לפני שנים אחדות כספין אוף של ורינט, שפיתחה את הטכנולוגיה עבור ארגוני בטחון, מספקת אותה כיום ללקוחות בתחום הבבנקאות, הטלקום, ארגוני בריאות, ארגונים גדולים המשתמשים בה ביישומים כדוגמת איפוס סיסמאות ובארגוני בטחון וממשלה”.

מהם האתגרים העומדים בפני פיתוח המערכת?

“האתגרים הם אתגרים אלגוריתמיים. אנו נדרשים לפתח תוכנה שמסוגלת לעבד את הקול של המשתמש, למצוא את המאפיינים הייחודיים שלו ולהבדיל אותו מקולות אחרים. האתגר השני הוא לבנות מערכת שמסוגלת לקחת את האלגוריתם שעובד במעבדה, וליישם אותו בסביבת IT מורכבת. כאשר בעלי העניין ביישום של מוצר כמו שלנו במוקד שירות לקוחות של בנק הם אנשי אבטחת מידע, אנשי שירות לקוחות, תפעול, IT, טלפוניה ובדרך כלל גם משלבי מערכות משום שצריך לשלב את המערכת בסביבה טכנולוגית. סוד ההצלחה של החברה הוא בזה שהיא מצטיינת בשני הפרמטרים הללו – דיוק הזיהוי של המערכות שלה מול המתחרים – בעיקר בעולם ובנוסף, בקלות ההטמעה של המערכות שלה”.

מהם יתרונות המערכת לארגונים המשתמשים בה?

“המערכות שלנו נותנות ערכים מוספים רבים לארגונים. קודם כל, הן משפרות את רמת האבטחה באמצעות הוספת שכבה ביומטרית ובכךמאפשרות Multi Factor authentication. בנוסף, הן משפרות את חוויית הלקוח בכך שהוא לא צריך להישאל שאלות על ידי נציגי שירות או לזכור סיסמאות מורכבות. בנוסף לכל זה, משפרות מערכות החברה את היעילות של ארגונים בכך שהם מקצרות זמני שיחות במוקדי שירות ומאפשרות מיכון של תהליכים ידניים רגישים כמו למשל איפוס סיסמאות. אחד היתרונות של טכנולוגית זיהוי הדובר הוא העובדה שהיא יכולה להיות מיושמת לרוחב כל ערוצי הקשר של לקוחות עם ארגונים, ניתן להשתמש בטכנולוגיה הזו לזיהוי אנשים המתקשרים למוקדי שירות, מבצעים פעולות באינטנרט או באמצעות מכשירים ניידים. ייחוד נוסף של מערכותינו הוא שהן אינן תלויות בשפה או במבטא”.

האם המערכת בטוחה מפני חקיינים?

“כן. בנוסף, לחברה יש גם יכולות לא רק לבצע אימות זהות אלא גם לאתר מתחזים בזמן אמת על בסיס השוואה למאגר חתימות קול שהוקלט מראש. למשל במוקד שירות של בנק, אם מישהו עקץ את הארגון והצליח להוציא כספים מחשבונות והשיחות שערך עם הבנק מוקלטות אפשר להשתמש בהקלטה ולבנות חתימת קול שתאתר אותו בפעם הבאה שיתקשר”.

מיהם הלקוחות שלכם?

“על לקוחות החברה נמנים בנקים מהמובילים בעולם, חברות טלקום, ארגוני בטחון ועוד, אך הדגש הוא בעיקר על בנקאות. פיתחנו סט מוצרים ייעודי לבנקים שמאפשרים זיהוי בסיסמה קולית וגם תוך כדי שיחה טבעית, למשל שלך עם נציג השירות בבנק. אנו מובילים את התחום בעולם מבחינת כמות התקנות וגודלן. מתחום הטלקום ניתן לציין את בל קנדה למשל שלמעלה מ-750 אלף מלקוחותיה בחרו לזהות עצמם באמצעות סיסמה קולית ובשנה הראשונה רשמנו מיליוני זיהויים”.

מה העתיד של טכנולוגית זיהו הדיבור הביומטרי?

“בעתיד אנחנו רואים את נושא זיהוי דובר ביומטרי הופך להיות חלק בלתי נפרד מניהול הסיכונים בגישה של לקוחות לארגונים. לכל אחד מאיתנו תהיה חתימה או סט של חתימות קול שבאמצעותם תאופשר הגנה מיטבית על הפרטיות וגישה יעילה ליישומים ושירותים מרוחקים”.

הכתבות התפרסמו לראשונה בניוזלטר דיילי מיילי של קבוצת אנשים ומחשבים (The People)

6 תגובות

  1. זה יהיה יעיל לאינדוקס אך לא ממש לסיסמאות שכן כל אדם יכול להקליט אותך באין ספור הזדמנויות ואז לעקוץ ע"י שימוש בהקלטה

  2. לכל מי שיש OFFICE 2007 יש שם את התוכנה ONENOTE שבין השאר אפשר להקליט בה ישירות מהמקרופון. יש רכיב שנקרא Microsoft Search 4 שיודע לנתח (לא בזמן אמת) את הקובץולהמיר לטקסט.

  3. אני חושב שיקח זמן עד שהחברות מהתחום יתבססו בשוק וישפרו את המוצרים שלהם, ורק אז יוכלו לעבור לשוק הפרטי ולספק פתרונות למשתמש הביתי.

    מצד שני, טוב לדעת שיש לישראל דריסת רגל בתחום זה.

  4. עם כל הכבוד, ויש הרבה מאוד כבוד והערכה, עדיין לא רואים תוכנות כאלה עוברות אינטגרציה למשתמש הביתי. ייתכן והטכנולוגיה כבר כאן אך המחשבים האישיים עדיין חלשים מדי מכדי לתמוך בה. ייתכן שיש צורך בלהבים שכאלה כדי לגרום לקסם הזה לעבוד; אבל הביומסה העיקרית שתצטרך לצרוך את המוצר נמצאת מאחורי PC ולכן קצב הפיתוח, כפי שנראה לי כמשתמש קצה, אינו מניח את הדעת. אני זוכר כשיצא ווינדוס XP, הורדתי אז לנסיון תוכנה כבדה בשם דראגון (אם אני לא טועה). שבוע שלם אימנתי אותה להכיר את הקול שלי תוך הקראת טקסטים ברמות קושי שונות. שום דבר לא עזר. התוכנה האטה את המחשב, פתחה פתאום יישומים מבלי שמישהו צייץ ולא זיהתה כמעט כלום. בנסיון נוסף השנה ראיתי ששום דבר לא השתנה.

    מקווה שהמהנדסים יעבדו שעות נוספות ויביאו כבר את הבשורה הנהדרת הזו של שימוש בקול ככלי תקשורת עם מחשב. ממש כמו בסטארטראק.

    בברכת חברים,
    עמי בכר

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אתר זה עושה שימוש באקיזמט למניעת הודעות זבל. לחצו כאן כדי ללמוד איך נתוני התגובה שלכם מעובדים.