סיקור מקיף

השקט שאחרי הסערה

במעבדה האקוסטית המשוכללת מסוגה בישראל, בביה”ס להנדסה בבר-אילן, עורכים ד”ר שרון גנות ועמיתיו ניסויים בפיענוח ממוחשב של שיחות מרובות משתתפים הנעים כל העת וקולם נבלע ברעשי הרקע ובשיחות האחרות

המעבדה האקוסטית באוניברסיטת בר-אילן. צילום: שרון גנות
המעבדה האקוסטית באוניברסיטת בר-אילן. צילום: שרון גנות

כמה פעמים מצאתם את עצמכם מקרבים את אפרכסת אוזנכם אל אוזניית הטלפון, לוחצים אפילו על כפתור הדיבורית, ולמרות כל המאמצים לא מצליחים לשמוע היטב את בן שיחכם? ומצבכם עוד טוב, לעומת אדם כבד שמיעה שהמערכת מגבירה בעבורו את קול הדוברים איתו, אך בד בבד גם את הרעש.

בעיית עיבוד אותות דיבור מעסיקה את ד”ר שרון גנות מביה”ס להנדסה באוניברסיטת בר-אילן מאז שהוא עצמו היה מסטרנט. גנות, הסטודנטים שלו וגם פוסט-דוקטורנטים מחו”ל שמגיעים למעבדה שלו, מפתחים שלל אלגוריתמים שהמשותף להם הוא הצורך לקלוט אות דיבור בסביבה מרובת הפרעות ולשפרו – החל מדובר אחד הנמצא במקום אחד ומלווה ברעש חזק, וכלה בדוברים רבים הנמצאים בסביבה מרובת רעשים ואינם עומדים במקומם.

המעבדה, מהמשוכללות והייחודיות בעולם, החלה לפעול השנה בביה”ס להנדסה, והיא שמאפשרת לגנות ולאנשי המעבדה שלו גמישות רבה בביצוע ניסויים מורכבים בעיבוד אותות דיבור.

“הבעיה שמטרידה אותי, אשר לובשת צורות ומורכבויות שונות, היא קליטת אות דיבור בסביבה עם הפרעות ושיפורו. ההפרעות יכולות לנבוע מרעש רקע, משיחות נוספות בקרבת הדוברים, וכן מהדהוד חמור (למשל בתוך מקלט). מתן מענה לבעיה זו יסייע לפתור בעיות תקשורת מהסוג של הפניה אוטומטית של המצלמה לדובר בוועידת וידאו, שיפור עזרי שמיעה לחירשים וכיוצא באלה”, מסביר גנות. “בשלב ראשון אני מקבל אות דיבור, שאותו אני קולט בעזרת מיקרופון אחד או יותר. כבר כיום מותקנות בחלק ממכוניות היוקרה ארבע דיבוריות, כך שאני יכול לנצל את המידע מארבעה מיקרופונים כדי לבצע את המשימות שברצוני לבצע.”

“הבעיות שניצבות בפניי רבות ומורכבות. ראשית, אות הדיבור עצמו הוא אות טבעי, שאי אפשר לעצבו כרצוננו, ולכן אין עבורו מודל טוב שאפשר להזין למחשב. אות הדיבור מאופיין במספר תופעות. שנית, תכונותיו משתנות בזמן; נוסף על כך עוצמתו משתנה מעוצמות נמוכות מאוד לעוצמות חזקות מאוד (או להפך) בהפרשי זמן קצרים; וכמובן, אי אפשר להתעלם מגורמים סביבתיים. כל סביבה שונה מרעותה מבחינה אקוסטית. הסביבה המורכבת מתבטאת באוסף גדול מאוד של החזרים, בשל פגיעת גלי הקול בעצמים שונים וכמובן בקירות. האוסף הגדול הזה הוא שיוצר את תחושת ההדהוד. כאשר החדר 'מהדהד' מאוד או לחלופין חסר הד לחלוטין, השומע האנושי חווה זאת כתחושת אי נוחות, אף שהדבר מקל מאוד על האלגוריתמים.”

תופעת ההחזרים בחדר היא תופעה שאותה אנו מודדים בדרך כלל בשני מספרים. האחד הוא זמן ההדהוד, שנמדד בשניות. זהו משך זמן הלוקח לאות, מרגע שיצא מפי הדובר, להמשיך ולהדהד בחדר. בעבור האוזן האנושית 300-200 מילישניות הן זמן סביר לדעיכה. תנאים אלה נפוצים למשל בחדרי משרד. כאשר זמן הדעיכה מגיע לחצי שנייה, אנו מתחילים לחוש אי נוחות.

כדי לנטרל את ההדהוד, מסביר גנות, נדרש האלגוריתם לשערך את המערכת האקוסטית המורכבת הקושרת בין הנקודה שבה שודר הדיבור לבין הנקודה שבה הוא נקלט. לאלגוריתם המסנן יש מקדמים רבים, שמספרם עולה עם זמן ההדהוד.

“כל פגיעה של אות הדיבור בעצם כלשהו בחדר תגרום לו להיות מוחזר ממנו ולכן להגיע תוך ניחות ובהשהיה מסוימים ביחס להגעה ישירה שלו מהדובר המקורי. אם נצרף השהיות רבות מעין אלה, נקבל מערכת צפופה של השהיות הדועכות בזמנים הולכים ומתארכים. המספר השני הוא יחס העוצמות בין ההגעה הראשית לבין יתר ההגעות. בחדרים רגילים, במרחק של כמטר-מטר וחצי בין הדובר לחיישן נעשית עוצמת ההחזרות דומיננטית.”

תופעה בעייתית נוספת במערכות אקוסטיות היא העובדה שהן משתנות בצורה מהירה. כאשר הדובר זז כמה סנטימטרים, נקבל תגובה שונה לחלוטין של החדר.

מיקרופון אחד, סביבה רועשת

“הבעיה הקלאסית, שבה מטפלים במידות שונות של הצלחה קרוב ל-40 שנה, היא הניסיון לנקות רעש אות שנקלט במיקרופון יחיד. נתייחס לדוגמה למיקרופון של הטלפון הנייד שהנהג מנסה להכתיב לו מספר לחיוג. גם אם נסגור את החלונות, עדיין הסביבה תהיה רועשת למדי, וברקע רעש קבוע, או לכל היותר רעש המשתנה באטיות, שמגיע מן המזגן וממנוע הרכב. הפשרה תהיה תמיד בין ניקוי הרעש לעיוות הדיבור. ככל שננקה יותר מהרעש ניוותר עם צליל מתכתי יותר באופיו”.

“אף בעיה בתחום זה לא נפתרה עד תומה, כך שעדיין אי אפשר למחוק את המילה רעש מהמילון, אף כי ישנם שיפורים דרמטיים”, מציין גנות,שהרים שתי תרומות לנושא: “התרומה הראשונה מותירה את האות שנקלט בתחום הזמן, והשנייה מתייחסת אליו בתחום התדר.”

את הפתרון לניקוי רעשים בתחום הזמן פיתח גנות בעבודת המאסטר שלו, בהנחיית פרופ' אהוד וינשטיין ופרופ' דוד בורשטיין מאוניברסיטת תל-אביב.
“אני מנסה לתת מודל סטטיסטי לאות הדיבור ולהשתנות שלו על ציר הזמן. אם הייתי מכיר את אות הדיבור הנקי המסוים יכולתי בקלות לשערך את הפרמטרים האופייניים לו. הבעיה היא שאיני מכיר האות המסוים שאותו אני רוצה לנקות (אחרת לא היה מה לנקות…). אני מכיר אך ורק את אות הדיבור המלווה ברעש. אם מישהו היה לוחש לי את הפרמטרים המדויקים יכולתי להפעיל מסנן אופטימלי ולנקות את אות הדיבור מהרעש. למסנן שהפעלתי קוראים מסנן קלמן (Kalman Filter), על שמו של המדען ההונגרי-אמריקני רודולף קלמן (Kalman)

השיטה השנייה לניקוי אות מרעש היא באמצעות שימוש בתחום התדר. גם האוזן האנושית פועלת בתחומי תדר שונים. יש באוזן הפנימית תאי חישה שכל אחד אחראי על תחום תדר אחר” (וראו: חיים סומר, “האוזן והקול”, “גליליאו 127). “נתון נוסף שאנו משתמשים בו כדי לנקות רעש מאות בתחום התדר הוא העובדה שהאוזן האנושית לא רגישה לעוצמות באופן ליניארי. יש לה מעין סקלה לוגריתמית. כאשר העוצמות נמוכות, נבחין היטב בהפרשי העוצמות, וכאשר העוצמות גבוהות, לא נבחין בהפרשים אלה.”

“אני מתמיר את אות הדיבור למישור התדר ורוצה ליצור עבורו מודל שיבדל אותו מהרעש. כדי להשיג את המודל הזה אני מאמן את המחשב. אני לוקח בסיס נתונים של הרבה משפטי דיבור נקיים, שאינם קשורים בצורה כלשהי לדובר שאני מנסה לנקות, ומחלץ מהאוסף הגדול הזה מודל סטטיסטי שמצליח לאפיין אות דיבור באשר הוא. כל זאת עוד בטרם הפעלת האלגוריתם על בעיה ספציפית. כשניגשים לאות חדש שאותו אני מנסה לנקות, אני לוקח את הדגימות הרועשות ומשווה אותן למודל שלמדתי על דיבור נקי, ועל סמך ההשוואה הזו מחליט איזה מבין המודלים שבבסיס הנתונים הוא המתאים ביותר לאות הספציפי שקלטתי כרגע. לאחר שבחרתי את המודל המתאים, אני יודע לנקות בעזרתו את אות הדיבור מתוך האות הרועש.”

המטרה היא להטמיע את האלגוריתמים הללו במכשירים זעירים, כגון טלפון נייד או מכשיר שמיעה. האלגוריתם הזה מעוות מעט יותר את הקול לעומת האלגוריתם שבממד הזמן, אך העומס החישובי שלו נמוך מאוד והוא מותאם במיוחד לעזרי שמיעה. גם עבודה זו בוצעה במשותף עם פרופ' דוד בורשטיין מאוניברסיטת ת”א.

בעיית ריבוי המיקרופונים

גנות ממשיך ומסביר את את התהליך: “לאחר שהבעיה של קליטת אות במיקרופון אחד וסינונו מהרעש הגיעה לידי מיצוי, החלטנו להשתמש גם בהיבט המרחבי, שהרי גם לאדם יש שתי אוזניים. ואף זאת: למערכת ממוחשבת אין מגבלה, ואפשר להשתמש במערך בלתי מוגבל של מיקרופונים במקום במיקרופון יחיד. באמצעות שימוש במערך מיקרופונים הרווחנו את תכונת הכיווניות. אם מיקרופון יחיד רגיש באותו אופן לכל הכיוונים, או לפחות למפתח זוויתי רחב, אזי למערך מיקרופונים יש יכולת הפרדה מרחבית שאותה אנו רוצים לנצל כדי להבדיל בין האות הרצוי שמגיע מכיוון מסוים או מנקודה מסוימת ובין אות רעש שמגיע ממקום אחר.”

“כאשר אני מדבר עם אדם שנמצא מימיני, ברור שאוזן ימין תקלוט את אות הדיבור לפני אוזן שמאל. לפיכך אפשר להיעזר בהפרשי הזמנים בין קליטת האות בשתי האוזניים כדי להעריך היכן נמצא הדובר. בבעיות אקוסטיות מורכבות אפשר לעשות זאת באמצעות מערך מיקרופונים, כאשר ההפרש היחסי בין הגעת האותות למיקרופונים השונים מרמז על כיוון האות.”

נוכל לנצל את העובדה שלעולם לא יגיעו הרעש והאות הרצוי מאותה נקודה כדי להתמקד בשיחה הרצויה לנו מבין בליל הקולות. השיחה תגיע ממקום נתון ואילו הרעש יגיע ממזגן, או משיחה בשולחן סמוך. המידע המרחבי יאפשר לנו לקבל ביצועים הרבה יותר טובים. כשמנסים לעקוב אחר מרצה המסתובב באולם אנה ואנה, ואינו משתמש במיקרופון אלחוטי, יש צורך ללמוד את הסביבה האקוסטית המשתנה. אנו עושים זאת באמצעות מערך מיקרופונים המפוזר בחדר, והזנת האותות הנקלטים לתוך אלגוריתם שיידע לשמר את האות הרצוי ולהנחית את כל האותות המפריעים שמגיעים מהצדדים.”

“כדי להשיג זאת אני מנצל שני רעיונות: הרעיון הראשון, הוא שבמקום לנסות לשערך את כל המערכת הקושרת בין הדובר למיקרופון, שזוהי מערכת סבוכה, אני משערך אך ורק את הקשר היחסי שבין קליטת האות במיקרופונים השונים. הרעיון השני הוא לנצל את העובדה שאות הדיבור משתנה בזמן בקצב גבוה בניגוד לרעש שמשתנה בקצב נמוך. כך אני משיג יכולת הפרדה טובה בין שני האותות.”

“גם אם האלגוריתם לא פתר את לחלוטין את הבעיה, לפחות שיפר את איכות הדיבור בצורה דרמטית. לאחרונה, הוספנו מספר שיפורים. האחד, בשיתוף פרופ' ישראל כהן מהטכניון, איפשר טיפול טוב יותר ברעשים המשתנים בזמן, דוגמת משאית חולפת כשחלון מכוניתנו פתוח. השני, עם רונן טלמון, סטודנט העובד בשיתוף עם ישראל כהן ואיתי, מאפשר טיפול בחדרים בעלי זמני הדהוד ארוכים משמעותית. כעת יכולים ד”ר גנות ושותפיו להיעזר במעבדה המשוכללת והייחודית בארץ כדי לנסות כל מערך מיקרופונים וכל מקור רעש או דיבור שהם מבקשים.

בעיה מורכבת שאותה מנסים לנתח במעבדה מכונה בעיית “מסיבת הקוקטייל”: כמה אנשים מדברים בו-זמנית בחדר, לעתים תוך כדי הליכה ובנוכחות רעשי רקע, ועלינו לבודד שיחה אחת מתוך בליל השיחות. תפקיד האלגוריתם הוא להפריד את הדוברים הרצויים ולבודד אותם משאר הקולות והרעשים. לאלגוריתם יישומים רבים, למשל כעזר ללקויי שמיעה. ביישום זה ניתן להתמקד בשיחה המתנהלת בדוברים שמול פניו של המרכיב את עזר-השמיעה.

בעיה מעניינת נוספת שבה עוסקים במעבדה החדשה היא ביטול ההדהוד. הדהוד רב מדי מפריע לשומעים, וגם עלול לפגוע במערכות אוטומטיות לזיהוי דיבור. אחת הדוגמאות המופיעות באתר ממחישה את דיכוי ההדים המרוחקים מאות דיבור הנקלט ממרחק של 250 סנטימטרים.
עבודה זו בוצעה בשיתוף פעולה עם פרופ' כהן וד”ר עמנואל הבטס (Habets), שעשה את השתלמות הבתר-דוקטורט שלו במעבדתו של ד”ר גנות. ד”ר הבטס נמצא עתה באימפריאל קולג' בלונדון.

בעיה נוספת היא בעיית ההד האקוסטי: דובר בטלפון מצד אחד של השיחה מעוניין לשמוע את בן שיחו מהעבר השני של הקו, אך שומע גם את קולו שלו לאחר שחזר מהצד השני. בקבוצת המחקר של גנות, בשילוב עם קבוצה מהולנד (בראשות ד”ר פיט זומן (לועזית) והדוקטורנט דאז ד”ר הבטס), פותח אלגוריתם המסוגל להתמודד ביעילות עם ביטול ההד, בד בבד עם שיפור איכותו של האות הנשלח מהטלפון המרוחק על-ידי הפחתת רעשים, דוגמת אוושת מזגן ומאוורר של מחשב, והקטנה של רמת ההדהוד בו.

המעבדה האקוסטית המשוכללת בישראל

השנה החלה לפעול בביה”ס להנדסה בבר אילן, בתכנונו ותחת אחריותו של ד”ר שרון גנות, המעבדה האקוסטית המשוכללת בישראל.
המעבדה שהוקמה בתכנונו של ד”ר גנות ונמצאת בביה”ס להנדסה נראית במבט ראשון כמו אולפן הקלטה בחברת תקליטים, מבודדת אקוסטית מסביבתה. יכולת השליטה על רמת ההדהוד בחדר הוא העושה את המעבדה ליחידה מסוגה. התקרה, הרצפה והקירות מורכבים מאוסף פאנלים שאפשר לקבוע אם הם מהדהדים או בולעים את האות, כך שאפשר להשיג בחדר היחיד הזה אוסף גדול של חדרים בעלי אופי אקוסטי שונה.
הציוד מאפשר הקלטה באמצעות 24 מיקרופונים בו זמנית, ושידור של שמונה אותות מרמקולים בו זמנית.

מונחון

  • אות הוא תיאור של השתנות של תופעה פיזיקלית כפונקציה של המשתנה שלה (בדרך כלל פונקציה של הזמן). מערכת מבצעת המרה של אות בכניסתה לאות אחר במוצאה. במערכת אקוסטית המערכת יוצרת מספר רב של השהיות וניחותים של אות הכניסה (הדיבור כפי שיוצא מהפה) לקבלת אות מוצא מהודהד (הדיבור כפי שהוא נקלט באוזן או מיקרופון). אותות ומערכות ייוצגו בעזרת פונקציות מתמטיות.
  • פורייה (Jean Baptiste Joseph Fourier 1768-1830) היה פיסיקאי ומתימטיקאי צרפתי. בין שאר עיסוקיו הצטרף למסעות הכיבוש של נפוליאון במצרים ואף מונה לתפקידים מנהליים בכירים בממשל הצרפתי במצרים. במסגרת מחקריו על העברת חום הוא טען בשנת 1822 (ללא הוכחה) כי כל פונקציה מחזורית (גם אם אינה רציפה) ניתנת לרישום כטור אינסופי של פונקציות טריגונומטריות (סינוס וקוסינוס) שתדריהן הן תדר האות המחזורי וכפולות שלמות שלו. תדרים אלה מכונים הרמוניות והטור המתקבל מכונה טור פורייה. מאוחר יותר, הורחבה התפישה לטיפול באותות בעלי מחזור אינסופי (משמע, פונקציות כלליות לא-מחזוריות). ניתן להראות שאותות אלה ניתנים לרישום כרצף של הרמוניות המכונה התמרת פורייה.
  • גל הוא תופעה פיזיקלית התלויה בזמן ובמיקום גם יחד. דוגמה המוכרת לכולנו היא גלי הים. אם נתבונן ברגע מסוים נראה אוסף של “גבעות” ו”עמקים” מתחילת הגל ועד קו החוף. אם נרכב על מצוף (בנקודה מסוימת) נעלה ונרד כפונקציה של הזמן. כך שגלי הים משתנים הן בזמן והן במיקום. אפשר להראות שמכפלת אורך הגל (המרחק בין הגבעות לאורך ציר המיקום) בתדר (קצב העלייה והירידה על המצוף) שווה למהירות ההתפשטות של הגל. קול הוא גל ומהירות התפשטותו כ-342 מטר לשנייה בלבד (תלוי בטמפרטורה ובלחץ האוויר). גל הקול מתפשט על-ידי שינויים בלחץ חלקיקי החומר ולכן קול לא קיים בריק.
  • יצירת אות דיבור: מקור אות הדיבור באויר הננשף מהריאות. אוויר זה עושה את דרכו לעבר הפה (ולעתים גם האף). אם מיתרי הקול נכנסים לפעולה, זרם האויר נקטע לסירוגין ובמקום זרימה רציפה נקבל פולסים. מתקבל אות מחזורי. המרחק בין הפולסים (מכונה pitch) קובע את גובה הצליל. חלל הפה משמש כתיבת תהודה משתנה לגל הקול. ניתן לשלוט בתדרי התהודה (המכונים formants) ע”י שינוי של מקום הלשון והשפתיים. תדרי התהודה קובעים את ההגה הנאמר. גל הקול יוצא מחלל הפה ומתפשט באוויר עד להגעתו למקלט: אוזן אנושית או מיקרופון, הממירים את גל הקול לאות עצבי או חשמלי בהתאמה.

אפשר להאזין לדוגמאות רבות של הקלטות באתר המעבדה של ד”ר גנות בקישור Audio files demonstration.

6 תגובות

  1. ערן. אתה צודק. כוונתי הייתה לציין שהמוח פתר את הבעיה הטכנולוגית שמוצגת כאן. חבל שעדיין אי אפשר לרדת לחקר נבכי המוח כדי לבדוק כיצד הוא עושה זאת (כמו גם דברים רבים אחרים).

  2. ל3- זה כמו לומר שמעניין שרבין נרצח בכיכר רבין…
    השמות דומים מהסיבה הפשוטה שמדובר באותה בעיה.

  3. אני מציע שלפני שאתם מחלקים ציונים למעבדות תבחנו על איזה בסיס כויילה המעבדה , מהי רמת הדיוק שלה, איזה סוג של אינפורמציה אקוסטית ניתן להפיק ממנה.
    על מנת לייצר זמן הדהוד משתנה לא צריך יותר מידי ידע וטכנולוגיה, יחד עם זאת יצרתם של שדות אקוסטיים , מיפויים, כיולם , שמירה על ייציבותם הינה משימה קשה בהרבה וזו יחד עם פרמטרים רבים נוספים יכולה להעיד על רמתה של מעבדה.
    אני מציע לכם לבקר בשני אתרים אקוסטיים הממוקמים בעיר אור יהודה אצל חב’ אופטואקוסטיקס וחב’ איזוסאונד מעבדות המחזיקות במתקנים המיקצועיים ביותר בישראל, עם תעודות על כך.

  4. מעניין שמה שבמאמר מכונה בעיית מסיבת הקוקטייל – הבעיה של המיקרופונים להתמקד בדובר הרצוי מתוך בליל דוברים ורעשים אחרים היא שם של תכונה טבעית של המוח האנושי הנקראת אפקט מסיבת הקוקטייל שלפיו אדם מסוגל להתרכז בדובר מסויים, גם בסביבה של דיבורים אחרים ורעשים.

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אתר זה עושה שימוש באקיזמט למניעת הודעות זבל. לחצו כאן כדי ללמוד איך נתוני התגובה שלכם מעובדים.