לאחר שמודלי השפה כבשו את עולם הבינה המלאכותית, חוקרים פונים למערכות שבונות ייצוג פנימי של הסביבה, מדמות את העתיד ולומדות באמצעות פעולה. המטרה אינה רק לנסח תשובה משכנעת, אלא להבין כיצד העולם עשוי להשתנות בעקבות כל החלטה
ההתקדמות המהירה של הבינה המלאכותית בעשור האחרון נשענה במידה רבה על עיקרון שנראה פשוט: להגדיל את המודל, להזין אותו ביותר נתונים ולהקדיש לאימון יותר כוח מחשוב. מחקרי קנה מידה הראו כי הביצועים של מודלי שפה משתפרים באופן שניתן לחיזוי ככל שמגדילים את מספר הפרמטרים, את מאגר האימון ואת כמות החישוב.
הגישה הזאת הולידה מערכות המסוגלות לכתוב תוכנות, לפתור תרגילים, לנתח מסמכים ולהפיק טקסט ותמונות. ואולם, הצלחה במשימות המבוססות על מידע אינה זהה בהכרח ליכולת לפעול בעולם משתנה.
רובוט שנדרש להרים ספל, סוכן שמנווט בסביבה לא מוכרת או מערכת שמפעילה מכשיר במעבדה אינם יכולים להסתפק בתשובה שנשמעת סבירה. עליהם לצפות כיצד פעולה תשנה את המצב, לזהות טעות בזמן אמת ולבחור פעולה חלופית.
כאן נכנסים לתמונה מודלי העולם.
מהו מודל עולם?
מודל עולם הוא ייצוג פנימי של סביבה ושל האופן שבו היא משתנה לאורך זמן. המערכת מנסה ללמוד לא רק אילו עצמים נמצאים בסביבה, אלא גם כיצד הם נעים, כיצד הם מגיבים זה לזה ומה צפוי לקרות לאחר פעולה מסוימת.
מודל כזה עשוי, לדוגמה, להעריך כיצד תנועת זרוע רובוטית תשפיע על חפץ המונח על שולחן. במקום לבצע מיד את הפעולה, הסוכן יכול לבחון כמה אפשרויות בתוך המודל הפנימי ולבחור בזו שסביר יותר שתצליח.
המודל אינו חייב לשחזר כל פרט בעולם. לעיתים מספיק לו לייצג תכונות חשובות: מיקום החפץ, כיוון התנועה, המרחק מן המטרה והסיכוי להתנגשות.
אפשר להשוות זאת לתכנון אנושי. אדם שמבקש להניח כוס מלאה על מדף אינו מחשב את תנועתו של כל חלקיק נוזל, אך הוא מעריך את משקל הכוס, את גובה המדף ואת התוצאה האפשרית של תנועה חדה מדי.
ההבדל בין מודל שפה למודל עולם
מודל שפה גדול מאומן בדרך כלל לחזות את יחידת המידע הבאה ברצף. הוא מקבל טקסט, תמונה או מידע מסוג אחר ומנסה להפיק את ההמשך הסביר.
דרך האימון הזאת מאפשרת לו ללמוד כמות עצומה של קשרים, עובדות ודפוסים. היא אינה מונעת ממנו לבנות ייצוגים מסוימים של העולם, אך מטרת האימון הבסיסית שלו אינה בהכרח לחזות את התוצאה הפיזית של פעולה.
מודל עולם מתמקד במעבר בין מצבים. הוא מקבל מצב נוכחי, פעולה אפשרית ולעיתים יעד רצוי, ומנסה לחזות את המצב הבא.
ההבחנה אינה מוחלטת. מודלי שפה יכולים לסייע בתכנון, ומודלי עולם יכולים לכלול שפה. ההבדל טמון בדגש: מערכת אחת לומדת בעיקר מן הרצף שתועד, ואילו האחרת מנסה ללמוד כיצד הסביבה מגיבה לפעולה.
Genie 3 יוצר סביבות אינטראקטיביות
אחד הכיוונים המרכזיים במחקר הוא יצירת עולמות מדומים שבהם סוכני בינה מלאכותית יכולים להתאמן.
Google DeepMind הציגה את Genie 3, מודל עולם המסוגל ליצור סביבות אינטראקטיביות מתוך תיאור מילולי. לפי החברה, המודל יוצר עולם שניתן לנווט בו בזמן אמת ברזולוציה של 720p ובקצב של 24 תמונות בשנייה.
הסביבה אינה סרטון קבוע שהוכן מראש. היא נוצרת תוך כדי תנועה ומגיבה לכיוון שאליו המשתמש או הסוכן פונים. המודל מנסה לשמור על עקביות של העצמים ושל הסביבה במשך כמה דקות.
עולמות כאלה עשויים לשמש לא רק ליצירת משחקים, אלא גם כשטחי אימון לסוכנים אוטונומיים. במקום לאסוף כל ניסיון בעולם האמיתי, ניתן להציב את הסוכן באלפי סביבות, לשנות את התנאים ולבדוק כיצד הוא מגיב.
הגישה עדיין מוגבלת. Genie 3 אינו יכול לשמור על עולם עקבי במשך שעות, אינו משחזר תמיד מקומות אמיתיים בדייקנות ולעיתים מתקשה בהצגת טקסט ברור בתוך הסביבה.
SIMA 2 לומד לפעול בתוך עולמות תלת־ממדיים
יצירת עולם מדומה היא רק מחצית מן המשימה. יש צורך גם בסוכן שיפעל בתוכו.
SIMA 2 של Google DeepMind נועד לקבל הוראות בשפה ולבצע אותן בסביבות תלת־ממדיות. הסוכן רואה את הסביבה דרך התמונה המוצגת על המסך ופועל באמצעות פקודות הדומות למקלדת ולעכבר.
הגרסה הראשונה של SIMA התאמנה על מאות מיומנויות, כגון ניווט, פתיחת מפה ואינטראקציה עם עצמים. SIMA 2 משלב יכולות של Gemini, המאפשרות לו לפרש מטרות מורכבות יותר, לשוחח עם המשתמש ולבחון את התקדמותו.
החיבור בין Genie ל־SIMA מדגים חלוקת תפקידים אפשרית: מודל אחד יוצר עולם דינמי, ואילו השני לומד לפעול בתוכו. כך ניתן לבנות תהליך אימון שבו גם המשימות וגם הסביבה משתנות.
לחזות רעיונות במקום כל פיקסל
גישה שונה מפותחת ב־Meta באמצעות משפחת JEPA — ארכיטקטורה חיזויית המבוססת על ייצוגים משותפים.
מערכות רבות המנבאות וידאו מנסות ליצור את התמונה העתידית במלואה, פיקסל אחר פיקסל. פעולה כזאת דורשת משאבי מחשוב רבים ומאלצת את המודל להתמודד גם עם פרטים שאינם חיוניים למשימה.
V-JEPA 2 מנסה לנבא את העתיד במרחב מופשט יותר. במקום לשחזר במדויק כל צל, צבע ומרקם, הוא לומד ייצוגים של התנועה ושל היחסים בין העצמים.
לפי Meta, המודל אומן תחילה בלמידה עצמית מתוך סרטונים טבעיים. לאחר מכן הוא קיבל 62 שעות של נתוני רובוטים ממאגר DROID. השילוב אפשר לו לתכנן פעולות עבור זרוע רובוטית בסביבות שלא הופיעו באימון.
המשימות כללו הגעה לחפץ, אחיזה בו והעברתו למקום אחר. היעד הוצג למודל כתמונה של המצב הרצוי, והמערכת ניסתה לתכנן רצף פעולות שיוביל אליו.
הרעיון המרכזי הוא שאפשר ללמוד חלק גדול מן הפיזיקה החזותית מתוך סרטונים רגילים, ורק לאחר מכן להוסיף כמות מצומצמת יותר של נתונים יקרים מרובוטים אמיתיים.
GR00T מחבר ראייה, שפה ופעולה
אנבידיה מפתחת את GR00T N1, מודל יסוד המיועד לרובוטים דמויי אדם. המודל מקבל מידע חזותי והוראות בשפה ומפיק פעולות שניתן להעביר למערכת הבקרה של הרובוט.
האימון שילב כמה סוגי נתונים: סרטונים מנקודת מבט אנושית, תנועות של רובוטים אמיתיים, מסלולים מסימולציות ונתונים סינתטיים.
השילוב נועד להתמודד עם אחת הבעיות המרכזיות ברובוטיקה: נתוני פעולה פיזיים קשים ויקרים הרבה יותר לאיסוף מטקסט או מתמונות. רובוט צריך לבצע את הפעולה בפועל, ולעיתים נדרש גם מפעיל אנושי שידגים אותה.
סימולציות ונתונים סינתטיים מאפשרים להרחיב את מאגר האימון, אך עדיין נדרשת בדיקה בעולם האמיתי. הבדל קטן בחיכוך, במצלמה, בתאורה או בצורה של חפץ עלול להשפיע על הצלחת הפעולה.
DreamZero חוזה את העולם ואת פעולת הרובוט יחד
DreamZero של NVIDIA Research מייצג כיוון המכונה World Action Model — מודל עולם ופעולה.
במקום לחזות רק כיצד הסרטון ייראה בעתיד, המערכת לומדת במקביל גם את הפעולה שהרובוט צריך לבצע. היא מחברת בין מצב חזותי, תנועה של הרובוט והמצב הצפוי לאחר התנועה.
המודל מבוסס על מערכת וידאו בעלת 14 מיליארד פרמטרים, אך החוקרים התאימו אותה להפעלה בזמן אמת. לפי תוצאות הפרויקט, היא מסוגלת להפעיל בקרת משוב בקצב של שבע פעמים בשנייה.
בניסויי רובוטים דיווחו החוקרים על שיפור של יותר מפי שניים בהכללה למשימות ולסביבות חדשות לעומת מודלי ראייה־שפה־פעולה ששימשו להשוואה.
היתרון המיועד אינו רק ביצוע של משימה שנלמדה מראש. המטרה היא שרובוט יוכל להתמודד עם חפץ שונה, מקום חדש או הוראה שלא הופיעה בדיוק במאגר האימון.
מדוע העולם הפיזי קשה כל כך?
טקסט בנוי מרצף מוגדר של סמלים. העולם הפיזי רציף, רועש ומשתנה.
מצלמה עשויה לראות את אותו חפץ בצורה שונה בהתאם לתאורה ולזווית. חפץ רך מגיב באופן שונה מחפץ קשיח. אותה תנועה עשויה להצליח פעם אחת ולהיכשל בפעם אחרת בגלל שינוי קטן במיקום.
גם טעות פיזית עלולה להיות יקרה. תשובה שגויה של צ'אטבוט ניתנת לתיקון באמצעות טקסט חדש. פעולה שגויה של רובוט עלולה לשבור חפץ, לפגוע בציוד או לסכן אדם.
לכן מודלי עולם צריכים לא רק להיות מדויקים, אלא גם להכיר בחוסר ודאות. מערכת בטוחה צריכה לדעת מתי התחזית שלה אינה אמינה ולהימנע מפעולה מסוכנת.
האם מודלי העולם יחליפו את מודלי השפה?
סביר יותר ששתי הגישות ישתלבו.
מודל שפה מתאים להבנת הוראות, להסבר החלטות, לחיפוש מידע ולפירוק משימה מורכבת לשלבים. מודל עולם מתאים לחיזוי מרחבי, לתכנון תנועה ולהערכת תוצאות של פעולות.
רובוט עתידי עשוי להשתמש במודל שפה כדי להבין את הבקשה "סדר את השולחן", ובמודל עולם כדי להחליט מאיזה חפץ להתחיל, כיצד לאחוז בו והיכן להניח אותו.
גם בתוך סביבה וירטואלית, מודל שפה יכול להגדיר מטרה ואילו מודל העולם יבחן מסלולים אפשריים להשגתה.
האתגר הוא לחבר את המערכות בלי ליצור שרשרת שבה טעות של מודל אחד מועברת למודל הבא. הדבר יחייב מנגנוני בדיקה, מדדי ביטחון ומשוב מתמשך מן הסביבה.
מעבר מצפייה להתנסות
מודלי השפה הגדולים הראו עד כמה רחוק אפשר להגיע באמצעות למידה מתוך המידע שבני אדם כבר תיעדו.
מודלי העולם מוסיפים שכבה אחרת: למידה מתוך שינוי, פעולה ותוצאה. במקום לשאול רק "מהו ההמשך הסביר?", הם מנסים לענות גם על השאלה "מה יקרה אם אפעל כך?".
המערכות הקיימות עדיין אינן מחזיקות בהבנה כללית של העולם. הן פועלות בסביבות מוגבלות, טועות בחיזויים ולעיתים מתקשות להעביר מיומנות ממשימה אחת לאחרת.
אולם המחקר ב־Genie 3, SIMA 2, V-JEPA 2, GR00T ו־DreamZero מצביע על מגמה ברורה: המעבר מבינה מלאכותית שמנתחת מידע לבינה מלאכותית שמנסה לצפות את תוצאות מעשיה.
שאלות ותשובות
מהו מודל עולם בבינה מלאכותית?
מודל עולם הוא ייצוג פנימי של סביבה ושל האופן שבו היא משתנה. הוא מאפשר למערכת לחזות מצב עתידי בהתאם למצב הנוכחי ולפעולה אפשרית.
האם מודל עולם הוא סימולציה?
לעיתים כן, אך לא תמיד. מודל עולם יכול ליצור סביבה חזותית מלאה, כמו Genie 3, או לפעול במרחב מופשט של ייצוגים, כמו V-JEPA 2.
מדוע מודל שפה אינו מספיק להפעלת רובוט?
מודל שפה יכול להבין הוראות ולהציע תוכנית, אך רובוט צריך גם לזהות מרחקים, לחזות תנועה, להתמודד עם מגע ולהגיב לשינויים בזמן אמת.
כיצד מאמנים מודלי עולם?
האימון עשוי לכלול סרטונים, סימולציות, הדגמות אנושיות, נתוני חיישנים ומסלולים של רובוטים אמיתיים. לעיתים מתחילים בכמות גדולה של וידאו ומוסיפים מאוחר יותר נתוני פעולה.
האם מודלי עולם יובילו לבינה מלאכותית כללית?
זו עדיין שאלה פתוחה. מודלי עולם עשויים לשפר תכנון, הבנה מרחבית ורובוטיקה, אך אין כיום הוכחה שהם לבדם יספיקו ליצירת בינה מלאכותית כללית.
מקורות ראשוניים
המאמרים והפרסומים המדעיים
למאמר המדעי על חוקי קנה המידה של מודלי שפה:
Scaling Laws for Neural Language Models
לפרסום המדעי של Google DeepMind על Genie 3:
Genie 3: A New Frontier for World Models
לפרסום המדעי של Google DeepMind על SIMA 2:
SIMA 2: An Agent That Plays, Reasons and Learns in Virtual 3D Worlds
למאמר ולפרויקט המחקר של Meta על V-JEPA 2:
V-JEPA 2: World Modeling, Understanding and Robot Planning
למאמר המדעי של NVIDIA על GR00T N1:
NVIDIA Isaac GR00T N1: An Open Foundation Model for Humanoid Robots
למאמר המדעי על DreamZero:
DreamZero: World Action Models Are Zero-Shot Policies
למקור: למקור
עוד בנושא באתר הידען
- יותר מאמרים, פחות רעיונות? הסכנה שבשימוש בבינה מלאכותית במדע
- מרוץ החימוש של הבינה המלאכותית: למה אנתרופיק מבקשת ללחוץ על הברקס
- דוח של האו״ם: הבינה המלאכותית צורכת לא רק חשמל, אלא גם מים, קרקע ומתכות
- Shifters גייסה 10.2 מיליון דולר לפיתוח רובוטיקה קרקעית אוטונומית
- בינה מלאכותית מאיצה את החיפוש אחר חומרי שבבים חדשים