לצמצם את פער היעילות האנרגטית בין המוח לבינה המלאכותית

בכנס 2025 TSMC Europe OIP באמסטרדם הציג פרופ’ כריסטיאן מייר מ-TU Dresden את SpiNNaker-2 – מחשב נוירומורפי ענק, מבוסס עיבוד אירועי וחומרת Thin-Edge, שנועד להריץ מודלי בינה מלאכותית בזמן אמת תוך חיסכון של כמה סדרי גודל באנרגיה לעומת כרטיסי GPU קלאסיים

פרופ’ כריסטיאן מייר מציג את המחשב הנוירומורפי בעל מיליוני היחידות בכנס TSMC באמסטרדם. צילום: אבי בליזובסקי — פרופ’ כריסטיאן מאייר מציג את המחשב הנוירומורפי בעל מיליוני היחידות בכנס TSMC באמסטרדם. צילום: אבי בליזובסקי

המוח האנושי עדיין מנצח את מעבדי ה־AI בפער עצום – לא רק ביכולות, אלא בעיקר ביעילות האנרגטית. בהרצאה שנעלה את המושב על IoT ובינה מלאכותית בכנס 2025 TSMC Europe Open Innovation Platform (OIP) Ecosystem Forum באמסטרדם, הציג פרופ’ כריסטיאן מאייר, ראש הקתדרה Highly Parallel VLSI Systems ב-TU Dresden, כיצד פרויקט המחשוב הנורומורפי SpiNNaker-2 מנסה להתקרב לביצועים של המוח, ולהריץ מודלים גדולים של בינה מלאכותית בזמן אמת – בעלות אנרגטית נמוכה בהרבה מזו של כרטיסי GPU קלאסיים.

מאייר מוביל קבוצת מחקר של יותר מ־40 מהנדסים וחוקרים – מתכנני אנלוג ודיגיטל, אנשי אלגוריתמיקה ל-AI, ביוטכנולוגים ורובוטיקאים – שסביבה צמחו כמה ספין־אופים, ובהם Racyics, Siliconally, SpiNNcloud Systems ו-Silicon Matter. יחד מדובר באקו־סיסטם של יותר מ־250 אנשים. הקבוצה ביצעה בעשור האחרון עשרות טייפ־אאוטים של מערכות SoC מורכבות, מתהליכי 90 ננומטר ועד 22 ננומטר, המשמשים כ־30 קבוצות חיצוניות.

נקודת הפתיחה של מאייר חדה: כיום יש פער של כ־שבעה סדרי גודל ביעילות האנרגטית בין המוח לבין חומרת ה-AI הטובה ביותר. לדבריו, כדי לבצע משימה חישובית מסוימת, המוח צורך בערך ‎10⁷‎ פחות אנרגיה מאשר מערכות אימון והסקה מודרניות. חלק מהפער הזה כבר מתחיל להיסגר באמצעים כמו זיכרון חישובי (in-/near-memory computing), חישוב בדיוק מופחת (reduced precision) ודילול סטטי של רשתות נוירונים (static sparsity). כל אחד מן הכיוונים הללו נותן בערך סדר גודל אחד של שיפור, יחד כשלושה סדרי גודל – “אבל עדיין נשארים לנו בערך ארבעה סדרי גודל באוויר”, כפי שהוא מנסח זאת. כדי לסגור אותם, צריך, לדבריו, ללמוד מהמוח עצמו.

המוח עובד בתדר נמוך יחסית – סדר גודל של מאה הרץ – אבל עם כ־80 מיליארד נוירונים שפועלים במקביל ובאופן א־סינכרוני. אין “טיק” גלובלי שמחכה שכולם יסיימו; מידע נכנס, משולב ומעובד כל הזמן. מערכות על־חישוב (HPC) קלאסיות, לעומת זאת, נתקעות על מגבלת אמדאל: גם אם מוסיפים עוד ועוד ליבות, חלק מהקוד נשאר סדרתי והאצה נעצרת. המוח פותר זאת בכך שהחישוב הוא אירועי וזמני – כל נוירון מגיב כשהוא צריך, לא כשמגיע תורו בשעון אחיד. זו גם נקודת המפתח לחיסכון האנרגטי: לא כל היחידות עובדות כל הזמן, אלא רק כאשר יש מידע רלוונטי.

כאן נכנסת לתמונה האסטרטגיה הכפולה שמאייר הציג: שינוי ברמת האלגוריתם ושינוי ברמת החומרה. ברמת האלגוריתם, אחת הדוגמאות היא מודלים מסוג mixture-of-experts: במקום להפעיל בכל שאילתה את כל פרמטרי המודל, אפשר לבחור רק חלק זעיר מהרשת – למשל אלפית מן הנוירונים – בהתאם לתוכן השאילתה. תיאורטית, זה נותן שלושה סדרי גודל חיסכון באנרגיה, משום שרוב ה"נוירונים" במודל אינם נכנסים לפעולה. בפועל, על GPU רגיל אפשר לממש אולי סדר גודל אחד בלבד, משום שהמעבד לא בנוי לעבודה כל־כך דינמית וספרסית: גם כשהוא “מדלל” את הרשת, הוא עדיין משלם כמעט את כל מחיר הגישה לזיכרון והתקשורת.

לכן, טוען מאייר, נדרשת גם חומרה חדשה – חומרה נורומורפית. השכבה הראשונה שהוא מציג היא שבבי Thin-Edge ASICs לעיבוד מקדים מהיר של רשתות עצביות בקצה הרשת. הרעיון: לא לשלוח לענן זרם גולמי של וידאו או חיישנים, אלא לבצע כבר בקצה חישוב עשיר – דחיסה, סאב־סמפולינג, חילוץ מאפיינים, סיווג ראשוני ורשתות חוזרות (RNN) פשוטות – ולהעביר למרכז רק ייצוג דחוס מאוד. בדוגמה שנתן: מצלמה אירועית (event-based) שמגיבה רק לשינויים בתמונה. צומת הקצה יכול להחליט “עכשיו מחפשים מכוניות” או “עכשיו מחפשים אופניים”, ולכן להפעיל רק את המאפיינים הרלוונטיים בתמונה ולהתמקד בזמן אמת רק באזורים מעניינים בסצנה.

מחשב נוירומורפי

מעל שכבת ה-Thin-Edge יושב המחשב הנורומורפי SpiNNaker-2 – מערך ענק של שבבים עם מאות ליבות ועשרות מאיצים נורומורפיים על כל שבב. לפי מאייר ועמיתיו, המערכת השלם מיועדת להגיע לכ-10 מיליון ליבות ARM על פני כ־16 ארונות שרתים – שדרוג של פי עשרה לעומת הדור הראשון, SpiNNaker-1. כל שבב כולל לא רק ליבות כלליות, אלא גם מאיצים לרשתות עמוקות, חישוב הסתברותי, מקורות אקראיות ויחידות המתאימות במיוחד לרשתות "קופצות" (spiking neural networks). הזיכרון הפנימי בנוי כ-scratchpad גמיש שיכול לשמש בזמן ריצה כ-L1 או L2, לפי צורך. רשת-על-שבב ורשת התקשורת בין השבבים מעוצבות כך שחבילות אירועיות קטנות יגיעו לקצה השני של המכונה בתוך מילישנייה, כל עוד לא חוצים את מגבלת רוחב-הפס – דרישה קריטית כשמפעילים, למשל, צי של עשרות אלפי רובוטים עירוניים בזמן אמת ממרכז נתונים אחד.

כדי שהמחשב הזה יהיה באמת "פרופורציונלי לאירועים", נדרשה גם הנדסת אנרגיה קיצונית. מאייר הסביר שהשבבים מתוכננים לפעול במתחים נמוכים מאוד, סביב חצי וולט ואף פחות, ובפינות תהליך של זליגה נמוכה – כדי להוריד את צריכת הסטנד-ביי כמעט לאפס. כך, כרטיס אחד של המערכת צורך אמנם כמה מאות ואט כשהוא פועל בעומס מלא, מספר דומה לזה של כרטיס NVIDIA A100, אך עומד על כמה ואטים בודדים במצב ממתין, לעומת עשרות רבות של ואטים ב-GPU קלאסי גם כשהוא “לא עושה כלום”. עבור עומסים אירועיים – מצלמות שמדי פעם "מתעוררות", חיישנים שמדווחים רק כשמשתנה משהו או מודל שפה גדול שלא כל הלקוחות מדברים איתו כל הזמן – המשמעות היא חיסכון משמעותי בעלות האנרגיה המצטברת.

המערכת כבר נמצאת בשירות לשורה של יישומים ניסיוניים ותעשייתיים. ספין-אוף החברה SpiNNcloud Systems משווקת מערכות מבוססות SpiNNaker-2 למרכזי מחקר ולחברות, בין היתר לחקר תרופות, רובוטיקה ועיבוד זמן-אמת של נתוני חישה בקנה מידה גדול. באפריל 2025 הודיעה TU Dresden כי מערכת SpiNNcloud בקמפוס נכנסה לפעולה עם כ-35 אלף שבבים ויותר מחמישה מיליון ליבות.

בסיום ההרצאה חזר מאייר לנקודת המוצא: אם רוצים שבינה מלאכותית תתקרב באמת ליעילות של המוח, אי-אפשר רק "להאיץ" אלגוריתמים קיימים על חומרה קיימת. צריך לשאול בכל רמה – מהאלגוריתם, דרך האופן שבו מידע מיוצג ומועבר, ועד הארכיטקטורה הפיזית של השבב – איך המוח היה פותר את הבעיה בצורה א־סינכרונית, ספרסית ודינמית. רק שילוב כזה, לדבריו, יוכל לצמצם באמת את פער שבעת סדרי הגודל בין המוח האנושי למחשבי ה-AI של היום.

עוד בנושא באתר הידען: