האיש שניצח את סוזן וגה: על ההיסטוריה של ה-mp3

אני מניח שמרבית הקוראים נתקלו ב- mp3: זהו הסטנדרט דה-פקטו לדחיסת מוזיקה בעולם כולו

אני מניח שמרבית הקוראים נתקלו ב- mp3: זהו הסטנדרט דה-פקטו לדחיסת מוזיקה בעולם כולו. פורמט ה-mp3 מצליח לכווץ שיר שלם לארבעה או חמישה מגבייט של מידע, כך שאוסף גדול של מוזיקה יכול לשכון בנוחות יחסית בתוך נגן קטן וזול.
קשה לדמיין את עולם המוזיקה הנוכחי ללא ה-mp3. עד לפני 15 שנה בסך הכל, העברה של שיר בודד ממחשב למחשב הייתה משימה בלתי אפשרית כמעט למי שלא החזיק בציוד מקצועי ויקר. חנויות התקליטים והדיסקים שמשכו אליהן אינספור חובבי מוזיקה במשך עשרות שנים הולכות ונעלמות בקצב מסחרר. אמנים צעירים כבר לא ממש צריכים את חברות התקליטים וחוזיהן הדרקוניים: אתרים כמו Bandcamp מאפשרים להם להגיע אל קהל היעד ללא תיווך- ובעזרתו הנדיבה של ה-mp3, כמובן.

שורשיו של ה-mp3 נמצאים בגרמניה, בתחילת שנות השמונים. פרופסור דיטר סטיזר, מומחה לתקשורת מחשבים, ביקש לרשום פטנט על רעיון נועז שהגה: העברה של מוזיקה באיכות גבוהה על גבי קווי ISDN, שיטת תקשורת מחשבים חדשנית באותם הימים.
הבוחן במשרד הפטנטים דחה את הבקשה על הסף. 'מה שאתה מציע לעשות,' הוא הסביר לפרופ' סטיזר, 'הוא בלתי אפשרי בעליל בטכנולוגיה הנוכחית.'

הוא צדק, כמובן.

שניה אחת בלבד של שיר ממוצע מכילה מידע בנפח 1.5 מגהבייט. זה המון מידע: לשם השוואה, 1.5 מגהבייט הם כמו ספר עב כרס. גם היום, אם נרצה להעביר מוזיקה 'גולמית' שכזו דרך רשת האינטרנט, זה אתגר לא קטן. זאת ועוד, פרופ' סטיזר ביקש להעביר את המוזיקה בזמן אמת: דהיינו, שניתן יהיה להאזין לה בצידו השני של הקו תוך כדי העברת הנתונים. חמור עוד יותר- הוא רצה להעביר מוזיקה באיכות גבוהה.
ניתן, כמובן, להעביר מוזיקה דרך קווי טלפון למשל, אבל המחיר שצריך לשלם הוא פגיעה חמורה באיכות הצלילים. מערכת הטלפוניה מסננת חלק מהמידע ומעבירה רק תדרים מסויימים, ולכן הקול שבוקע מהאפרכסת הוא באיכות סבירה לדיבור, אבל לא יותר מזה. העברת מוזיקה באיכות גבוהה ובזמן אמת הייתה עדיין חלום רחוק.
פרופ' סטיזר גייס לעזרתו סטודנט מבריק לתואר שני, קרלהיינץ ברנדנבורג. הוא הטיל עליו למצוא את הדרך לכווץ או לדחוס את המידע- מבלי לפגוע באופן משמעותי באיכות המוזיקה. הכיוון שאליו החליט קרלהיינץ לפנות היה שימוש בעקרונות הפסיכואקוסטיקה.

בשנת 1894 דיווח הפיזיקאי אלפרד מארשל מאייר על תגלית מעניינת ומפתיעה. הוא הבחין בכך שאם משמיעים לאדם שני צלילים בתדרים קרובים זה לזה, בעוצמות שונות- הוא ישמע רק צליל אחד, את הצליל החזק יותר. תופעה זו זכתה לשם 'מיסוך' או 'הסתרה', Masking באנגלית: הצליל החזק יותר יימסך את הצליל החלש ו'יטביע' אותו- כמו מטוס שחולף על פני השמש, או יובל שטייניץ במסיבת עיתונאים עם ביבי נתניהו.

תגלית זו סימנה את ראשיתו של מדע הפסיכואקוסטיקה, העוסק באופן שבו אנו תופסים ומגיבים לקול. מסתבר שמה שאנחנו שומעים תלוי לא רק במה שמשמיעים לנו- אלא גם במבנה האוזן שלנו, ובאופן שבו המוח שלנו מעבד את המידע שהוא מקבל ממנה.
אחד העקרונות החשובים של הפסיכואקוסטיקה הוא הרגישות לצלילים בתדרים שבתחום הדיבור האנושי: בין 1000 ל-5000 הרץ. בתחום זה, אנחנו נבחין טוב יותר בין שני צלילים קרובים ונשמע גם צלילים בעוצמה נמוכה יחסית. בתדרים גבוהים מאד או נמוכים מאד, להבדיל, יכולת האבחנה בין צלילים והרגישות לצלילים חלשים היא גרועה בהרבה. למשל, אם מישהו ידבר אלינו- נוכל להפנות אליו את מבטנו במהירות. הרבה יותר קשה, לעומת זאת, לזהות את מקורם של צלילי באס נמוכים למשל.

כבר בשנות השבעים הבינו חוקרי הפסיכואקוסטיקה שניתן להעזר במגבלות התפיסה של מערכת השמיעה האנושית כדי לדחוס מוזיקה בצורה טובה מבלי לפגוע יותר מדי באיכותה. הטריק הוא להעיף מהמידע את כל אותם התדרים שאנחנו בלאו הכי לא מסוגלים לשמוע: צלילים בתדרים קרובים מאד, למשל, או צלילים חלשים בתדרים גבוהים ונמוכים. התוצאה תהיה קובץ קטן יותר, ללא שינוי ניכר באיכות הקול.

זו הייתה התיאוריה, בכל אופן. בפועל, לא היו אז הידע התיאורטי והטכנולוגיה המתאימה כדי לנתח את המוסיקה ולזהות את כל התדרים והעוצמות השונות.
כאן נכנס קרלהיינץ ברנדנבורג לתמונה. קרלהיינץ היה גם מתמטיקאי וגם מהנדס אלקטרוניקה, ולכן יכל לתקוף את הבעיה משני הכיוונים בו זמנית. במסגרת עבודת הדוקטורט שלו הוא הניח את היסודות לניתוח מתמטי יעיל של הצלילים ולאחר מכן יישם את הפיתרון בפועל, יחד עם עמיתיו במכון המחקר פראונהופר שבגרמניה, באמצעות שבבים שפיתחו במיוחד.
לאורך כל שנות השמונים התקדם תהליך הפיתוח בקצב טוב, וקרלהיינץ חש שבקרוב מאד יוכל להגיש את שיטת הדחיסה החדשה לאישורה של ועדת התקנים הבינלאומית. אבל אז נתקל ביריבה קשוחה ועיקשת במיוחד…סוזן וגה.

השכל הישר אומר שהמוזיקה הקשה ביותר לכיווץ צריכה להיות המוזיקה העשירה והמורכבת ביותר, כמו למשל תזמורת סימפונית בת עשרות נגנים במגוון גדול של כלים. גרסאת האקפלה של Tom’s Diner, עם זאת, היא ההפך הגמור: אין בה אפילו נגן אחד לרפואה…רק סוזן וגה והמיקרופון, וזהו.

http://youtu.be/5nmpBW949eU

הפשטות הבלתי מתפשרת של גרסאת האקפלה של Tom’s Diner היא זו שהפכה את היצירה לאגוז קשה לפיצוח. היזכרו באחד העקרונות הבסיסיים של הפסיכואקוסטיקה: האוזן שלנו רגישה במיוחד לצלילים בתחום תדרי הדיבור האנושי ושם גם נקלוט כל טעות, כל שגיאה וכל עיוות בצליל הדחוס. סוזן וגה שרה כשהיא עומדת ממש מול המיקרופון, כך שההבדלים בין הצלילים שמגיעים לאוזן ימין ואלו שמגיעים לאוזן שמאל הם זעירים במיוחד. עובדה זו הקשתה מאד על האלגוריתם שפיתח קרלהיינץ, והבליטה את חולשותיו.

נדרשו עוד חודשים ארוכים של עבודה כדי לשפר את שיטת הדחיסה ולהתמודד עם קולה המאתגר של סוזן וגה ועם צלילים בעייתיים נוספים, כמו נקישות הקסטנייטה, למשל. וולפגנג פייזל, שהיה סטודנט במעבדתו של קרלהיינץ, מספר שהאזין לקטע הקסטנייטות כל כך הרבה פעמים בכל יום, עד שהיה שומע אותם גם בלילה מתוך שינה.

לבסוף, בשנת 1992, הצליח הצוות לגבור על כל הקשיים והמחקר הושלם. חשוב לציין שבשלב זה, איש לא חשב להשתמש באלגוריתם החדש כדי ליצור קבצי מוזיקה עבור המחשב: קרלהיינץ קיווה שהדחיסה תהיה שימושית בתעשיית הקולנוע ותאפשר הפצה של סרטים על גבי תקליטורים. למרבה האכזבה, ועדת התקנים MPEG שהייתה אחראית על התחום הזה העדיפה אלגוריתם דחיסה אחר שהיה נחות מזה של קרלהיינץ- אבל קל יותר למימוש בפועל. אלגוריתם הדחיסה של קרלהיינץ זכה לאישור ועדת התקן וקיבל את השם הרשמי MPEG-2 Audio Layer 3, אבל התעשייה פנתה לכיוון אחר.

כך, אחרי למעלה מעשר שנות מחקר אינטנסיבי הייתה בידי קרלהיינץ שיטת מהפכנית לדחיסת אודיו שהשיגה ביצועים נפלאים וכיווצה את נפח המידע פי עשרה ויותר…אבל אף אחד לא רצה בה. פה ושם היו כמה חברות שנעזרו בדחיסה החדשה במוצרים איזוטריים, אבל שאר העולם היה אדיש לחלוטין. שניים מעמיתיו של קרלהיינץ, ד"ר פופ וד"ר גריל, נזכרים כיצד הציגו את ההמצאה החדשה שלהם בתערוכה שאירגנה ממשלת בוואריה- ותשעה מכל עשרה מבקרים העדיפו להתמקד בדוכן שעמד לצידם, שם הוצג פיתוח מושך בהרבה: מתקן לקירור בירה.

בערך באותו הזמן עלתה על במת ההיסטוריה המצאה אדירה נוספת, שעתידה לשנות את העולם כולו: ה-World Wide Web, רשת האינטרנט.
לאחר התייעצות פנימית החליטו קרלהיינץ ועמיתיו בפראונהופר לנסות את מזלם באינטרנט. מכון פראונהופר הוא מוסד אקדמאי משובח, מהטובים בעולם, אבל הוא אינו עסק ואין לו את הכלים להתמודד עם מיליוני לקוחות בכל העולם. המודל הכלכלי שנבחר היה סוג של פשרה: חברה שתרצה למכור תוכנה לדחיסת אודיו תתבקש לשלם סכום גדול, אבל מי שירצה לכתוב נגן מוזיקה שיוכל להשמיע את המוזיקה יוכל לעשות זאת בחינם. כדי להקל על זיהוי הקבצים הדחוסים הוחלט ליצור עבורם סיומת חדשה: .mp3

הפתרון היצירתי התגלה כהצלחה גדולה: נגנים כמו winamp החלו לכבוש את השוק במהירות מסחררת, ויותר ויותר חברות רכשו ממכון פראונהופר את הזכויות ל-mp3. נדמה היה שהעניינים מתחילים לפנות לכיוון הנכון, אבל אז, ב-1997…שוב אכזבה.
סטודנט אוסטרלי פרץ לתוכנה ושיחרר אותה לעולם כולו, ובכך הרס במחי יד את כל המודל העסקי של פראונהופר. אלגוריתם הדחיסה היה כעת ידוע לכולם, ולמכון האקדמי הגרמני לא היו את המשאבים ולא את הרצון לרדוף אחר כל פיראט שעשה בו שימוש ברחבי האינטרנט. בלית ברירה, בפראונהופר נאלצו להוריד את המחיר עבור הזכויות לאלגוריתם ולדרוש תשלום רק מחברות גדולות ורציניות.

למרבה האירוניה, אכזבה זו היא הסיבה הישירה להצלחה הנפלאה של mp3 בימינו. כל אחד יכל להרשות לעצמו להמיר את אוסף המוזיקה שברשותו לקבצי mp3, ורשתות שיתוף קבצים כמו נאפסטר ו-emule צברו מיליוני משתמשים: בתוך פחות מעשר שנים mp3 כבש את העולם באופן מוחלט. התפוצה האדירה הזו היא הסיבה לכך שלמרות שרק חלק זעום מהתמלוגים על ההמצאה אכן מגיעים בסופו של דבר למכון פראונהופר – עדיין מדובר במאות מיליוני דולרים בשנה, כך שכולם יצאו מרוצים. כן, אפילו קרלהיינץ: הוא וכשלושים מעמיתיו למכון נהנים מחלק נאה מהתמלוגים, בהתאם לחוק הגרמני. כיום, קרלהיינץ הוא בכיר במכון פראונהופר ומשקיע בחברות סטראט-אפ מבטיחות..מי יודע, אולי הוא מבשל לנו מהפכה מוזיקלית נוספת.

[רן לוי הוא סופר מדע, ומגיש את הפודקאסט 'עושים היסטוריה!'- תוכנית על מדע, טכנולוגיה והיסטוריה. www.ranlevi.co.il]

קטגוריות: היסטוריה של המדע
תגיות: MP3, אלגוריתמים ממוחשבים, היסטוריה של הטכנולוגיה, מוסיקה, מכון פראונהופר

רן לוי

מהנדס אלקטרוניקה, סופר ושדר פודקסט עושים היסטוריה

לכל הכתבות של המחבר

11 תגובות

ׂיוס ואחיו הגיב:

5 ביוני 2020 בשעה 01:11

דבר יותר מטריד – בדיקות שנערכו בירחון מוזיקה נחשב לדיסקים עדכניים של פופ, גילו שאיכות הסאונד שבהם ירודה (הרבה LOUDNESS). כך שהדחיסה אינה משנה הרבה…

מעניין שפורמטים מתחרים כמו DVD AUDIO, או סאונד 5.1 מרחבי (וכן דולבי דיגיטל ו-דולבי אטמוס) לא ממש נתפסו בתעשיית המוזיקה, ודי מעט דיסקים היום משתמשים בהם להשגת אפקט שמיעה מיוחד (זוכר רק דיסק אחד של 'פורקיופיין טרי' שיצא במהדורת 5.1).
ׂיוס ואחיו הגיב:

5 ביוני 2020 בשעה 01:07

פריצה דומה נעשתה שנה אחרי לפורמט דחיסת הוידאו של מייקרוסופט, שנקרא MPEG 4… הפורצים שילבו אותו בתוכנה בשם DIVX.

מהר מאוד היא נעשתה מסחרית בעצמה (לא ברור אם שילמה משהו למייקרוסופט), וקבוצה ממנה פרשה ונקראה XVID, שהיה תקן לרוב סוגי הוידאו ברשת עד סוף האלפיים, כאשר H264 (כיום H265ׂ) החליף אותו.
ישראל הגיב:

13 בדצמבר 2018 בשעה 15:43

למי מהמגיבים הפסקניים שרוצה לבדוק את התאוריה שלו לגבי הפורמט ה"טוב" ביותר, נסו את זה:
https://www.npr.org/sections/therecord/2015/06/02/411473508/how-well-can-you-hear-audio-quality
רוסטיסלב הגיב:

4 בספטמבר 2011 בשעה 09:50

אם אתה לא מסוגל לשמוע הבדלים בין flac לmp3 אז מה הטעם אם הפלאק איכותי בתאורייה?
מניסיון גם במערכת איכותית ביותר תתקשה לשמוע הבדלים, אני מציע לך לעשות מבחן a/b עיוור בלבד, אחרת אם תעשה מבחן לא עיוור המוח יעבוד עליך ותמיד הקובץ כביכול איכותי יותר ישמע טוב יותר
אני מבטיח שתופתע (אגב מדדובר על mp3 עם קידוד איכותי של 320kbps)
ר.ח רפאי.ם הגיב:

4 בספטמבר 2011 בשעה 05:29

יוסי פלוצינגר

גם אם אתה לא שומע את ההבדל בין השניים עדיין הFLAC יותר איכותי מהMP3.
FLAC שומר את התדרים שהולכים לאיבוד בדחיסה ב MP3 לכן אם תפעיל קובץ FLAC במערכת איכותית אז המערכת תנגן יותר צלילים (תדרים), ואיכות השמע תהיה הכי קרובה למקור- לעומת הMP3.
רוסטיסלב אלכסנדרוביץ הגיב:

4 בספטמבר 2011 בשעה 02:06

כתבה מצויינת, וממש מבדרת! נהנתי תודה!

FLAC שמאק, אני משתמש בFLAC מ2005 ועדיין אף אחד לא מכיר אותו,
MP3 עשה מהפכה ויש לתת לו את הקרדית הראוי!
יוסי פרמינגר הגיב:

3 בספטמבר 2011 בשעה 10:52

@חושם
FLAC הוא פורמט lossless כך שהוא בהכרח לא עובד על העיקרון הקריטי בבסיס של דחיסה שנפטרת מתדרים זניחים.

לגבי האנשים שחושבים שהם יכולים לשמוע את ההבדל בין MP3 באיכות גבוהה ל FLAC, אני רוצה לדעת איך בדיוק הצלחתם לעקוף את המנגנונים במוח שהותאמו בדיוק לכך במאות מיליוני שנים של אבולוציה.

אגב, יש אנשים שטוענים שעצם הדיגיטיזציה של המוזיקה כבר עושה נזק בלתי הפיך… הם יגידו שמי ששומע FLAC במקום תקליט, מפסיד את כל הדקויות…
חושם הגיב:

2 בספטמבר 2011 בשעה 13:43

אני חושב שFLAC ו OGG הם שיפור של המודל של MP3
כלומר אחרי גנבת קוד המקור ושחרורו לקחו אחרים
ושיפרו את המודל אבל אם לא היה להם את המקור
לא בטוח שהיו יוצאים פורמטים פתוחים כאלה

ולמי שיש להוכיח אחרת אשמח להתבדות
[email protected]
יואל הגיב:

2 בספטמבר 2011 בשעה 11:34

מקדונלד מאפשר לשבוע, להכניס הרבה קלוריות לגוף ולעשות את זה במחיר ידידותי למשתמש, מה שמאפשר נגישות לכל באי עולם. בכל הקשור לאיכות, בעיות בריאות ועוד כיו"ב – זה סיפור אחר.

מה זה קשור ל-MP3?
גם כאן אפשר להכניס המון מוזיקה בחומרה זעירה, לשמוע בכל מקום ולקבל את זה במחיר זעום.
העיוות המוזיקלי, צמצום מרכיבים רבים כמו דינמיקה, תחומי תדר בשני הקצוות ובכלל בעיות באיכות הצליל, מפגישים את המאזינים ל-MP3 עם רפליקה חסרה של המקור, ואם זה מה שהם יודעים, אז הם יודעים מעט מדי.
העובדה שא' עדיף טכנולוגית על ב', לא גורמת לכך שהוא עושה את הדברים באופן עדיף בכל הקשור לאיכות, למשל.
גיל דותן הגיב:

2 בספטמבר 2011 בשעה 10:31

MP3 זה פאסה…. FLAC זה הפורמט הטוב.

היום עם אינטרנט מהיר לא צריך להתקמצן על MP3 וכלום יודעים שאין מה להשוות בין MP3 ממוצע לשיר המקורי, זה ממש לא נשמע אותו דבר.

FLAC-Free Lossless Audio Codec – פורמט דחיסה שלא מאבד מידע בניגוד לMP3 שמאבדים המון….אלגוריתם הרבה יותר טוב ונאמן למקור, מוסיקה בפורמט זה נשמעת בדיוק כמו המקור.

http://en.wikipedia.org/wiki/Free_Lossless_Audio_Codec
דוד הגיב:

2 בספטמבר 2011 בשעה 04:49

ושום מילה על חוסר השלמות של mp3 ועל הפומטים המוצלחים יותר?

כתיבת תגובה

אתר זו עושה שימוש ב-Akismet כדי לסנן תגובות זבל. פרטים נוספים אודות איך המידע מהתגובה שלך יעובד.