לא רק לנבא מילים: מודלי העולם שמנסים ללמד בינה מלאכותית לצפות את תוצאות מעשיה

לאחר שמודלי השפה כבשו את עולם הבינה המלאכותית, חוקרים פונים למערכות שבונות ייצוג פנימי של הסביבה, מדמות את העתיד ולומדות באמצעות פעולה. המטרה אינה רק לנסח תשובה משכנעת, אלא להבין כיצד העולם עשוי להשתנות בעקבות כל החלטה

בינה מלאכותית בתוך עולם וירטואלי. אילוסטרציה: depositphotos.com — האם השלב הבא בבינה המלאכותית יעבור ממודלים המנבאים מילים למערכות המדמות עולמות ואת תוצאותיהן של פעולות?. אילוסטרציה: depositphotos.com.

ההתקדמות המהירה של הבינה המלאכותית בעשור האחרון נשענה במידה רבה על עיקרון שנראה פשוט: להגדיל את המודל, להזין אותו ביותר נתונים ולהקדיש לאימון יותר כוח מחשוב. מחקרי קנה מידה הראו כי הביצועים של מודלי שפה משתפרים באופן שניתן לחיזוי ככל שמגדילים את מספר הפרמטרים, את מאגר האימון ואת כמות החישוב.

הגישה הזאת הולידה מערכות המסוגלות לכתוב תוכנות, לפתור תרגילים, לנתח מסמכים ולהפיק טקסט ותמונות. ואולם, הצלחה במשימות המבוססות על מידע אינה זהה בהכרח ליכולת לפעול בעולם משתנה.

רובוט שנדרש להרים ספל, סוכן שמנווט בסביבה לא מוכרת או מערכת שמפעילה מכשיר במעבדה אינם יכולים להסתפק בתשובה שנשמעת סבירה. עליהם לצפות כיצד פעולה תשנה את המצב, לזהות טעות בזמן אמת ולבחור פעולה חלופית.

כאן נכנסים לתמונה מודלי העולם.

מהו מודל עולם?

מודל עולם הוא ייצוג פנימי של סביבה ושל האופן שבו היא משתנה לאורך זמן. המערכת מנסה ללמוד לא רק אילו עצמים נמצאים בסביבה, אלא גם כיצד הם נעים, כיצד הם מגיבים זה לזה ומה צפוי לקרות לאחר פעולה מסוימת.

מודל כזה עשוי, לדוגמה, להעריך כיצד תנועת זרוע רובוטית תשפיע על חפץ המונח על שולחן. במקום לבצע מיד את הפעולה, הסוכן יכול לבחון כמה אפשרויות בתוך המודל הפנימי ולבחור בזו שסביר יותר שתצליח.

המודל אינו חייב לשחזר כל פרט בעולם. לעיתים מספיק לו לייצג תכונות חשובות: מיקום החפץ, כיוון התנועה, המרחק מן המטרה והסיכוי להתנגשות.

אפשר להשוות זאת לתכנון אנושי. אדם שמבקש להניח כוס מלאה על מדף אינו מחשב את תנועתו של כל חלקיק נוזל, אך הוא מעריך את משקל הכוס, את גובה המדף ואת התוצאה האפשרית של תנועה חדה מדי.

ההבדל בין מודל שפה למודל עולם

מודל שפה גדול מאומן בדרך כלל לחזות את יחידת המידע הבאה ברצף. הוא מקבל טקסט, תמונה או מידע מסוג אחר ומנסה להפיק את ההמשך הסביר.

דרך האימון הזאת מאפשרת לו ללמוד כמות עצומה של קשרים, עובדות ודפוסים. היא אינה מונעת ממנו לבנות ייצוגים מסוימים של העולם, אך מטרת האימון הבסיסית שלו אינה בהכרח לחזות את התוצאה הפיזית של פעולה.

מודל עולם מתמקד במעבר בין מצבים. הוא מקבל מצב נוכחי, פעולה אפשרית ולעיתים יעד רצוי, ומנסה לחזות את המצב הבא.

ההבחנה אינה מוחלטת. מודלי שפה יכולים לסייע בתכנון, ומודלי עולם יכולים לכלול שפה. ההבדל טמון בדגש: מערכת אחת לומדת בעיקר מן הרצף שתועד, ואילו האחרת מנסה ללמוד כיצד הסביבה מגיבה לפעולה.

Genie 3 יוצר סביבות אינטראקטיביות

אחד הכיוונים המרכזיים במחקר הוא יצירת עולמות מדומים שבהם סוכני בינה מלאכותית יכולים להתאמן.

Google DeepMind הציגה את Genie 3, מודל עולם המסוגל ליצור סביבות אינטראקטיביות מתוך תיאור מילולי. לפי החברה, המודל יוצר עולם שניתן לנווט בו בזמן אמת ברזולוציה של 720p ובקצב של 24 תמונות בשנייה.

הסביבה אינה סרטון קבוע שהוכן מראש. היא נוצרת תוך כדי תנועה ומגיבה לכיוון שאליו המשתמש או הסוכן פונים. המודל מנסה לשמור על עקביות של העצמים ושל הסביבה במשך כמה דקות.

עולמות כאלה עשויים לשמש לא רק ליצירת משחקים, אלא גם כשטחי אימון לסוכנים אוטונומיים. במקום לאסוף כל ניסיון בעולם האמיתי, ניתן להציב את הסוכן באלפי סביבות, לשנות את התנאים ולבדוק כיצד הוא מגיב.

הגישה עדיין מוגבלת. Genie 3 אינו יכול לשמור על עולם עקבי במשך שעות, אינו משחזר תמיד מקומות אמיתיים בדייקנות ולעיתים מתקשה בהצגת טקסט ברור בתוך הסביבה.

SIMA 2 לומד לפעול בתוך עולמות תלת־ממדיים

יצירת עולם מדומה היא רק מחצית מן המשימה. יש צורך גם בסוכן שיפעל בתוכו.

SIMA 2 של Google DeepMind נועד לקבל הוראות בשפה ולבצע אותן בסביבות תלת־ממדיות. הסוכן רואה את הסביבה דרך התמונה המוצגת על המסך ופועל באמצעות פקודות הדומות למקלדת ולעכבר.

הגרסה הראשונה של SIMA התאמנה על מאות מיומנויות, כגון ניווט, פתיחת מפה ואינטראקציה עם עצמים. SIMA 2 משלב יכולות של Gemini, המאפשרות לו לפרש מטרות מורכבות יותר, לשוחח עם המשתמש ולבחון את התקדמותו.

החיבור בין Genie ל־SIMA מדגים חלוקת תפקידים אפשרית: מודל אחד יוצר עולם דינמי, ואילו השני לומד לפעול בתוכו. כך ניתן לבנות תהליך אימון שבו גם המשימות וגם הסביבה משתנות.

לחזות רעיונות במקום כל פיקסל

גישה שונה מפותחת ב־Meta באמצעות משפחת JEPA — ארכיטקטורה חיזויית המבוססת על ייצוגים משותפים.

מערכות רבות המנבאות וידאו מנסות ליצור את התמונה העתידית במלואה, פיקסל אחר פיקסל. פעולה כזאת דורשת משאבי מחשוב רבים ומאלצת את המודל להתמודד גם עם פרטים שאינם חיוניים למשימה.

V-JEPA 2 מנסה לנבא את העתיד במרחב מופשט יותר. במקום לשחזר במדויק כל צל, צבע ומרקם, הוא לומד ייצוגים של התנועה ושל היחסים בין העצמים.

לפי Meta, המודל אומן תחילה בלמידה עצמית מתוך סרטונים טבעיים. לאחר מכן הוא קיבל 62 שעות של נתוני רובוטים ממאגר DROID. השילוב אפשר לו לתכנן פעולות עבור זרוע רובוטית בסביבות שלא הופיעו באימון.

המשימות כללו הגעה לחפץ, אחיזה בו והעברתו למקום אחר. היעד הוצג למודל כתמונה של המצב הרצוי, והמערכת ניסתה לתכנן רצף פעולות שיוביל אליו.

הרעיון המרכזי הוא שאפשר ללמוד חלק גדול מן הפיזיקה החזותית מתוך סרטונים רגילים, ורק לאחר מכן להוסיף כמות מצומצמת יותר של נתונים יקרים מרובוטים אמיתיים.

GR00T מחבר ראייה, שפה ופעולה

אנבידיה מפתחת את GR00T N1, מודל יסוד המיועד לרובוטים דמויי אדם. המודל מקבל מידע חזותי והוראות בשפה ומפיק פעולות שניתן להעביר למערכת הבקרה של הרובוט.

האימון שילב כמה סוגי נתונים: סרטונים מנקודת מבט אנושית, תנועות של רובוטים אמיתיים, מסלולים מסימולציות ונתונים סינתטיים.

השילוב נועד להתמודד עם אחת הבעיות המרכזיות ברובוטיקה: נתוני פעולה פיזיים קשים ויקרים הרבה יותר לאיסוף מטקסט או מתמונות. רובוט צריך לבצע את הפעולה בפועל, ולעיתים נדרש גם מפעיל אנושי שידגים אותה.

סימולציות ונתונים סינתטיים מאפשרים להרחיב את מאגר האימון, אך עדיין נדרשת בדיקה בעולם האמיתי. הבדל קטן בחיכוך, במצלמה, בתאורה או בצורה של חפץ עלול להשפיע על הצלחת הפעולה.

DreamZero חוזה את העולם ואת פעולת הרובוט יחד

DreamZero של NVIDIA Research מייצג כיוון המכונה World Action Model — מודל עולם ופעולה.

במקום לחזות רק כיצד הסרטון ייראה בעתיד, המערכת לומדת במקביל גם את הפעולה שהרובוט צריך לבצע. היא מחברת בין מצב חזותי, תנועה של הרובוט והמצב הצפוי לאחר התנועה.

המודל מבוסס על מערכת וידאו בעלת 14 מיליארד פרמטרים, אך החוקרים התאימו אותה להפעלה בזמן אמת. לפי תוצאות הפרויקט, היא מסוגלת להפעיל בקרת משוב בקצב של שבע פעמים בשנייה.

בניסויי רובוטים דיווחו החוקרים על שיפור של יותר מפי שניים בהכללה למשימות ולסביבות חדשות לעומת מודלי ראייה־שפה־פעולה ששימשו להשוואה.

היתרון המיועד אינו רק ביצוע של משימה שנלמדה מראש. המטרה היא שרובוט יוכל להתמודד עם חפץ שונה, מקום חדש או הוראה שלא הופיעה בדיוק במאגר האימון.

מדוע העולם הפיזי קשה כל כך?

טקסט בנוי מרצף מוגדר של סמלים. העולם הפיזי רציף, רועש ומשתנה.

מצלמה עשויה לראות את אותו חפץ בצורה שונה בהתאם לתאורה ולזווית. חפץ רך מגיב באופן שונה מחפץ קשיח. אותה תנועה עשויה להצליח פעם אחת ולהיכשל בפעם אחרת בגלל שינוי קטן במיקום.

גם טעות פיזית עלולה להיות יקרה. תשובה שגויה של צ'אטבוט ניתנת לתיקון באמצעות טקסט חדש. פעולה שגויה של רובוט עלולה לשבור חפץ, לפגוע בציוד או לסכן אדם.

לכן מודלי עולם צריכים לא רק להיות מדויקים, אלא גם להכיר בחוסר ודאות. מערכת בטוחה צריכה לדעת מתי התחזית שלה אינה אמינה ולהימנע מפעולה מסוכנת.

האם מודלי העולם יחליפו את מודלי השפה?

סביר יותר ששתי הגישות ישתלבו.

מודל שפה מתאים להבנת הוראות, להסבר החלטות, לחיפוש מידע ולפירוק משימה מורכבת לשלבים. מודל עולם מתאים לחיזוי מרחבי, לתכנון תנועה ולהערכת תוצאות של פעולות.

רובוט עתידי עשוי להשתמש במודל שפה כדי להבין את הבקשה "סדר את השולחן", ובמודל עולם כדי להחליט מאיזה חפץ להתחיל, כיצד לאחוז בו והיכן להניח אותו.

גם בתוך סביבה וירטואלית, מודל שפה יכול להגדיר מטרה ואילו מודל העולם יבחן מסלולים אפשריים להשגתה.

האתגר הוא לחבר את המערכות בלי ליצור שרשרת שבה טעות של מודל אחד מועברת למודל הבא. הדבר יחייב מנגנוני בדיקה, מדדי ביטחון ומשוב מתמשך מן הסביבה.

מעבר מצפייה להתנסות

מודלי השפה הגדולים הראו עד כמה רחוק אפשר להגיע באמצעות למידה מתוך המידע שבני אדם כבר תיעדו.

מודלי העולם מוסיפים שכבה אחרת: למידה מתוך שינוי, פעולה ותוצאה. במקום לשאול רק "מהו ההמשך הסביר?", הם מנסים לענות גם על השאלה "מה יקרה אם אפעל כך?".

המערכות הקיימות עדיין אינן מחזיקות בהבנה כללית של העולם. הן פועלות בסביבות מוגבלות, טועות בחיזויים ולעיתים מתקשות להעביר מיומנות ממשימה אחת לאחרת.

אולם המחקר ב־Genie 3,‏ SIMA 2,‏ V-JEPA 2,‏ GR00T ו־DreamZero מצביע על מגמה ברורה: המעבר מבינה מלאכותית שמנתחת מידע לבינה מלאכותית שמנסה לצפות את תוצאות מעשיה.

שאלות ותשובות

מהו מודל עולם בבינה מלאכותית?

מודל עולם הוא ייצוג פנימי של סביבה ושל האופן שבו היא משתנה. הוא מאפשר למערכת לחזות מצב עתידי בהתאם למצב הנוכחי ולפעולה אפשרית.

האם מודל עולם הוא סימולציה?

לעיתים כן, אך לא תמיד. מודל עולם יכול ליצור סביבה חזותית מלאה, כמו Genie 3, או לפעול במרחב מופשט של ייצוגים, כמו V-JEPA 2.

מדוע מודל שפה אינו מספיק להפעלת רובוט?

מודל שפה יכול להבין הוראות ולהציע תוכנית, אך רובוט צריך גם לזהות מרחקים, לחזות תנועה, להתמודד עם מגע ולהגיב לשינויים בזמן אמת.

כיצד מאמנים מודלי עולם?

האימון עשוי לכלול סרטונים, סימולציות, הדגמות אנושיות, נתוני חיישנים ומסלולים של רובוטים אמיתיים. לעיתים מתחילים בכמות גדולה של וידאו ומוסיפים מאוחר יותר נתוני פעולה.

האם מודלי עולם יובילו לבינה מלאכותית כללית?

זו עדיין שאלה פתוחה. מודלי עולם עשויים לשפר תכנון, הבנה מרחבית ורובוטיקה, אך אין כיום הוכחה שהם לבדם יספיקו ליצירת בינה מלאכותית כללית.

מקורות ראשוניים

המאמרים והפרסומים המדעיים

למאמר המדעי על חוקי קנה המידה של מודלי שפה:
Scaling Laws for Neural Language Models

לפרסום המדעי של Google DeepMind על Genie 3:
Genie 3: A New Frontier for World Models

לפרסום המדעי של Google DeepMind על SIMA 2:
SIMA 2: An Agent That Plays, Reasons and Learns in Virtual 3D Worlds

למאמר ולפרויקט המחקר של Meta על V-JEPA 2:
V-JEPA 2: World Modeling, Understanding and Robot Planning

למאמר המדעי של NVIDIA על GR00T N1:
NVIDIA Isaac GR00T N1: An Open Foundation Model for Humanoid Robots

למאמר המדעי על DreamZero:
DreamZero: World Action Models Are Zero-Shot Policies

למקור: למקור

עוד בנושא באתר הידען

קטגוריות: בינה מלאכותית, מיחשוב ורובוטיקה
תגיות: DreamZero, Genie 3, Google DeepMind, GR00T, SIMA 2, V-JEPA 2, אנבידיה, בינה מלאכותית, בינה מלאכותית פיזית, מודלי עולם, מודלי שפה גדולים, מטא, רובוטיקה

אבי בליזובסקי

עורך אתר הידען ([email protected])

לכל הכתבות של המחבר

כתיבת תגובה

אתר זו עושה שימוש ב-Akismet כדי לסנן תגובות זבל. פרטים נוספים אודות איך המידע מהתגובה שלך יעובד.

לא רק לנבא מילים: מודלי העולם שמנסים ללמד בינה מלאכותית לצפות את תוצאות מעשיה

מהו מודל עולם?

ההבדל בין מודל שפה למודל עולם

Genie 3 יוצר סביבות אינטראקטיביות

SIMA 2 לומד לפעול בתוך עולמות תלת־ממדיים

לחזות רעיונות במקום כל פיקסל

GR00T מחבר ראייה, שפה ופעולה

DreamZero חוזה את העולם ואת פעולת הרובוט יחד

מדוע העולם הפיזי קשה כל כך?

האם מודלי העולם יחליפו את מודלי השפה?

מעבר מצפייה להתנסות

שאלות ותשובות

מהו מודל עולם בבינה מלאכותית?

האם מודל עולם הוא סימולציה?

מדוע מודל שפה אינו מספיק להפעלת רובוט?

כיצד מאמנים מודלי עולם?

האם מודלי עולם יובילו לבינה מלאכותית כללית?

מקורות ראשוניים

עוד בנושא באתר הידען

אבי בליזובסקי

כתיבת תגובה

פודקאסט: הצעד הבא של האבולוציה – הקסם של העצמות

פודקאסט: פרופ' רפי ביסטריצר על "זווית הקסם" בגרפין והולדת תחום הטוויסט־רוניקה

פודקאסט: התעלומות הגדולות של המדע – האם יש תבונה ביקום? (פרק 4)

הפצצת האסטרואידים שעיכבה את היווצרות היבשות בכדור הארץ הקדום

מאות מתחמי קבורה במדבר הסודני חושפים תרבות רועים שנעלמה עם התייבשות הסהרה

110 קוודריליון קילומטרים מתחת לרגלינו: המפה הראשונה של רשתות הפטריות בעולם

לא רק לנבא מילים: מודלי העולם שמנסים ללמד בינה מלאכותית לצפות את תוצאות מעשיה

השבוע: מבצע הצלה במסלול. לוויין רובוטי ינסה למנוע את נפילתו של טלסקופ סוויפט