סיקור מקיף

הרובוט שלומד ללכת בעצמו

דרימר הצליח ללמוד ללכת מהר כל-כך. תינוקות זקוקים לחודשים ארוכים של אימון עד שהם מצליחים ללכת ביציבות. הרובוט הארבע-רגלי שהנחה דרימר בניסויים, יכול היה ללכת, לשמור על שיווי משקל ואפילו לנסות להימלט מהמעבדה, תוך שעה אחת בלבד

שני עותקים של הרובט Quadruped robot A1 מחקים התנהגות של כלבים. צילום מסך מתוך סרטון של החוקרים
שני רובוטים מונחים על ידי אלגוריתם Quadruped robot A1 מחקים התנהגות של כלבים. צילום מסך מתוך סרטון של החוקרים

איך תינוק לומד ללכת? עם הרבה מאד נפילות. אף אחד לא מסביר לו איך להציב רגל אחר רגל, להרים ולהוריד, או להזיז את מרכז הכובד. הוא מנסה, נופל, קם ומנסה שוב. באורח פלא, בסופו של דבר הוא מצליח ללכת.

איך רובוט לומד ללכת?

התשובה לשאלה תלויה במי ששואלים. הרובוטים הקדומים – כלומר, אלו מלפני יותר מעשר שנים – לא באמת 'למדו' ללכת. בני-אדם מידלו את דרך התנועה הנכונה של כל רגל רובוטית, על כל אחד ממפרקיה וברגיה, וממש תכנתו כל צעד של הרובוט. זה עבד לא-רע, בסך הכל, עד שהרובוט התקדם יותר מכמה צעדים, או שהגיע לאזור בו הרצפה נטתה בשיפוע של עשירית האחוז – ופתאום ההוראות הנוקשות כבר לא היו מספיקות כדי להשאיר אותו עומד.

בעשור האחרון זינק תחום למידת המכונה קדימה, והרובוטיקאים התחילו לאמן את הרובוטים ללכת. כדי לעשות את זה, הם יצרו דימוי של הרובוט בסימולטור וירטואלי, ונתנו לו לנסות ללכת שם. כלומר, זה לא היה בכלל רובוט: זה היה רק אלגוריתם שדימה את צורת הרובוט, עם סימולטור שדימה את העולם. האלגוריתם שיחק כמעט באקראיות עם רגלי הרובוט, במטרה להניע אותו קדימה. זה היה לוקח מאות-אלפי הרצות ונסיונות, אבל בסופו של דבר, הרובוט הווירטואלי היה לומד ללכת בעולם הווירטואלי. כל מה שהיה צריך לעשות אז זה להעתיק את האלגוריתם לגוף הפיזי של רובוט – והופ, עכשיו גם הוא ידע ללכת.

זו, לפחות, התיאוריה. הצרה היא שסימולציות וירטואליות אינן מצליחות לשקף את מורכבותו המלאה של העולם הפיזי, ולכן האלגוריתם שאומן בעולם הווירטואלי אינו מצליח לשלוט היטב ברובוט מתכת-וסיליקון. סימולציות שכאלו דורשות גם כוח מחשוב עצום: כדי לאמן יד רובוטית להניע קוביה, נזקקה חברת OpenAI למאה שנות סימולציה, בערך.  

בשלב זה נכנסה גישה חדשה למשחק, ממש בחודש האחרון. הרעיון של קבוצת המחקר מברקלי היה לייצר אלגוריתם בשם Dreamer – חולם בעברית צחה, אבל נקרא לו פשוט דרימר. דרימר משמש כמוח רובוטי שניחן במה שנקרא "מודל עולם". הוא מריץ מודל במהירות גבוהה, שבוחן את העולם מסביבו ומסוגל לחשב את ההסתברות שפעולה מסוימת תצליח למלא את המטרה שהוגדרה עבורה. למשל, שהנעת הרגל בדרך כלשהי תביא לכך שהרובוט ינוע קדימה. הוא חוזה את העתיד, ומה שיותר חשוב: הוא יכול לעדכן את התחזיות שלו לפי התוצאות.

דרימר פועל בעולם הפיזי, ולפי מחקר שהתפרסם ב- arXiv בסוף יוני, הוא נוחל הצלחה מרשימה. הוא מתחיל את סשן האימונים שלו כשהוא שוכב על גבו ורגליו באוויר. מנקודה עגומה זו, ובאמצעות ניסוי וטעיה בעולם האמיתי, הוא מוצא דרך להתהפך, להתרומם על רגליו, ללכת ואפילו לרוץ. כאשר דוחפים אותו, הוא נופל – אבל מקץ כמה דקות של דחיפות כאלו ונסיונות התמודדות מצדו, הוא כבר מבין איך להתמודד איתן ולשמור על שיווי המשקל בקור רוח מרשים. בסך הכל זקוק דרימר לשעה אחת בלבד כדי להגיע להישגים שהיו דורשים בעבר אלפי שעות של סימולציות ואימונים.

מה המשמעות של דרימר?

קודם כל, הוא ממחיש את העובדה שבינות מלאכותיות מתקדמות מזכירות יותר ויותר את מוחותיהם של רובוטים ביולוגיים: כלומר, מוחות בשר-ודם. גם אנו מריצים "מודל עולם" בין קירות גולגולתנו, ובזכותו אנו יכולים ללכת, לרוץ ולזרוק כדור. המוח מריץ את המודל, וככל שאנו מתאמנים יותר, כך הוא נהיה מדויק יותר. אחרי עשרת-אלפים זריקות כדור – שכל אחת מהן מאמנת את המודל רק-עוד-קצת, אנו כבר מגיעים לרמה גבוהה.

הדבר המפתיע מבחינתי הוא שדרימר הצליח ללמוד ללכת מהר כל-כך. תינוקות זקוקים לחודשים ארוכים של אימון עד שהם מצליחים ללכת ביציבות. הרובוט הארבע-רגלי שהנחה דרימר בניסויים, יכול היה ללכת, לשמור על שיווי משקל ואפילו לנסות להימלט מהמעבדה, תוך שעה אחת בלבד.

אם אלגוריתמים כמו דרימר ימשיכו להוכיח את עצמם, הרי שהרובוטים של העתיד הקרוב – מחר בבוקר, בערך – יוכלו לרכוש כשרונות חדשים בפרק זמן של שעות ספורות. זהו צעד נוסף לתוך מהפכת הרובוטים: עולם בו חברות הזנק מסוגלות לבנות רובוט ממוצרי-מדף וללמד אותו לבצע את משימותיו תוך זמן קצר. והן יוכלו לעשות כל זאת מבלי שיזדקקו לרובוטיקאים מקצועיים. כפי שלפני עשרים שנים, ילדים למדו לתכנת והפכו למיליונרים בגיל צעיר, כך הילדים של היום יתחילו בקרוב להעלות רעיונות חדשניים לשימוש ברובוטים – וליישם אותם בשטח. ובזכות דרימר, הם יוכלו לפתח רובוטים בעלי צורות שונות ומשונות – ושעדיין ילמדו לנוע בכוחות עצמם.

משמעות שלישית ומעניינת במיוחד היא שאלגוריתמים כמו דרימר יכולים לוודא שרובוט ימשיך לתפקד גם אם הוא נפגע. חשבו על רובוט ארבע-רגלי, למשל, שאחת מרגליו נשברת במהלך משימת חילוץ באמזונס. הרובוט יוכל לפענח תוך זמן קצר כיצד לנוע עם שלוש רגליים בלבד. הוא לא יעשה זאת בחינניות – אבל הוא גם לא יושבת באופן מוחלט כמו רובוטים מהדור הישן. ובעתיד הלא-רחוק, אותו רובוט יוכל גם להושיט זרוע, לקטוף ענף ולהשתמש בו כתחליף לרגל הפגועה. להתקדמות כזו יש חשיבות גדולה בשדה הקרב, ועבור רובוטים הנשלחים למקומות נידחים. היא יכולה להאריך את משך החיים של רובוטים שהיו יוצאים משימוש בעקבות פגיעה באופן רגיל. ומי יודע? אולי מוחותיהם של רובוטים בחלל – מהסוג שכורה מתכות באסטרואידים כדי לשלוח אותן לכדור-הארץ, למשל – יסתמכו על אלגוריתם דומה לדרימר.

דרימר, בקיצור, הוא סימן לבאות: לרובוטים חכמים יותר שמסוגלים לבצע מגוון רחב יותר של פעולות, ושהכלים לפיתוחם יהיו נתונים בידיו של הציבור הרחב. על הדרך, הוא גם מראה איך הטכנולוגיה מתכנסת לדרך פעולה דומה לזו של המוח האנושי, עם "מודל עולם" מתוחכם – אבל גם מתחילה לעקוף את יכולותינו וללמד רובוטים לבצע פעולות תוך זמן קצר ובמהירות על-אנושית.

קשה לי לחכות לראות את יכולותיהם של הרובוטים, עשור מעכשיו, ולגלות את השימושים שעוד נעשה בהם. נראה רובוטים בחלל, בים, באוויר וביבשה, וחלקם יוכלו ללמוד בעצמם כיצד להסתגל לסביבות מחיה ולתנאים משתנים. עומד להיות מאד מעניין כאן בעתיד – בעולם של רובוטים.

עוד בנושא באתר הידען:

דילוג לתוכן