הערכות אי-ודאות מדויקות יותר עשויות לסייע למשתמשים להחליט מתי וכיצד להשתמש במודלים של למידת מכונה בעולם האמיתי

מאחר שמודלים של למידת מכונה יכולים לתת תחזיות שגויות, חוקרים לעיתים קרובות מציידים אותם ביכולת לומר למשתמש עד כמה הם בטוחים בהחלטה מסוימת. הדבר חשוב במיוחד בסביבות עתירות סיכון, כגון כאשר מודלים משמשים לסיוע בזיהוי מחלות בתמונות רפואיות או בסינון בקשות עבודה.
אך הערכות אי הוודאות של המודל יעילות רק אם הן מדויקות. אם מודל מציין כי הוא בטוח ב-49% שתמונה רפואית מראה על נוזל פלאורלי, אז 49% מהפעמים המודל אמור להיות צודק.
חוקרים מ-MIT הציגו גישה חדשה שיכולה לשפר את הערכות אי-הוודאות במודלים של למידת מכונה. השיטה שלהם לא רק מייצרת הערכות אי-ודאות מדויקות יותר משיטות אחרות, אלא עושה זאת ביעילות רבה יותר.
בנוסף, מכיוון שהטכניקה ניתנת להרחבה, ניתן ליישם אותה על מודלים גדולים של למידה עמוקה אשר משמשים יותר ויותר בתחומי הבריאות ובמצבים קריטיים לבטיחות.
טכניקה זו עשויה לספק למשתמשי הקצה, רבים מהם חסרי מומחיות בלמידת מכונה, מידע טוב יותר שבאמצעותו יוכלו להחליט האם לסמוך על תחזיות המודל או האם יש לפרוס את המודל למשימה מסוימת.
"קל לראות שהמודלים הללו מבצעים היטב בתרחישים שבהם הם מצטיינים, ולהניח שהם יהיו טובים באותה מידה בתרחישים אחרים. זה הופך את העבודה שמכוונת לשפר את הכיול של אי-הוודאות של המודלים הללו לחשובה במיוחד, כדי לוודא שהם מתאימים לתפיסות האנושיות של אי-ודאות," אומר נייתן נג, המחבר הראשי של המאמר, סטודנט לתואר שני באוניברסיטת טורונטו, אשר מבקר כסטודנט ב-MIT.
נג כתב את המאמר עם רוג'ר גרוס, פרופסור משנה למדעי המחשב באוניברסיטת טורונטו; ועם המחברת הבכירה מרזיה ג'סמי, פרופסור משנה במחלקה להנדסת חשמל ומדעי המחשב וחברה במכון למדעי ההנדסה הרפואית ובמעבדה למערכות מידע והחלטה. המחקר יוצג בכנס הבינלאומי ללמידת מכונה.
כימות אי-ודאות
שיטות כימות אי-ודאות לרוב דורשות חישובים סטטיסטיים מורכבים שאינם מותאמים היטב למודלים של למידת מכונה עם מיליוני פרמטרים. שיטות אלה גם דורשות מהמשתמשים להניח הנחות על המודל והנתונים ששימשו לאימונו.
חוקרי MIT נקטו בגישה שונה. הם משתמשים במה שמוכר כעקרון אורך התיאור המינימלי (MDL), שאינו דורש את ההנחות שעלולות לפגוע בדיוק של שיטות אחרות. MDL משמש לכימות וכיול טוב יותר של אי-ודאות עבור נקודות בדיקה שהמודל התבקש לתייג.
הטכניקה שפיתחו החוקרים, המכונה IF-COMP, הופכת את MDL למהיר מספיק לשימוש עם סוגי המודלים הגדולים של למידה עמוקה שפורסים בסביבות מציאותיות רבות.
MDL כולל בחינה של כל התוויות האפשריות שהמודל יכול לתת לנקודת בדיקה. אם ישנן תוויות חלופיות רבות לנקודה זו שמתאימות היטב, הביטחון של המודל בתווית שבחר צריך לרדת בהתאם.
"אחת הדרכים להבין עד כמה המודל בטוח תהיה לתת לו מידע הפוך ולראות כמה הוא מוכן להאמין לך," אומר נג.
לדוגמה, בדקו מודל שאומר שתמונה רפואית מראה על נוזל פלאורלי. אם החוקרים יגידו למודל שתמונה זו מראה על בצקת, והוא יהיה מוכן לעדכן את אמונתו, אז המודל צריך להיות פחות בטוח בהחלטתו המקורית.
ב-MDL, אם המודל בטוח כאשר הוא מתייג נקודת נתונים, עליו להשתמש בקוד קצר מאוד כדי לתאר את הנקודה הזו. אם הוא אינו בטוח בהחלטתו משום שהנקודה עשויה לקבל תוויות רבות אחרות, הוא ישתמש בקוד ארוך יותר כדי ללכוד את האפשרויות הללו.
כמות הקוד המשמשת לתייג נקודת נתונים מוכרת כמורכבות נתונים סטוכסטית. אם החוקרים שואלים את המודל עד כמה הוא מוכן לעדכן את אמונתו על נקודת נתונים נתונה לאור ראיות הפוכות, מורכבות הנתונים הסטוכסטית אמורה לרדת אם המודל בטוח.
אבל בדיקת כל נקודת נתונים באמצעות MDL תדרוש כמות עצומה של חישובים.
זירוז התהליך
עם IF-COMP, החוקרים פיתחו טכניקת קירוב שיכולה להעריך יותר במדויק את מורכבות הנתונים הסטוכסטית באמצעות פונקציה מיוחדת, המכונה פונקציית השפעה. הם גם השתמשו בטכניקה סטטיסטית הנקראת כיול טמפרטורה, המשפרת את כיול התוצאות של המודל. השילוב של פונקציות השפעה וכיול טמפרטורה מאפשר קירובים באיכות גבוהה של מורכבות הנתונים הסטוכסטית.
בסופו של דבר, IF-COMP יכול לייצר ביעילות הערכות אי-ודאות מכוילות היטב שמשקפות את הביטחון האמיתי של המודל. הטכניקה יכולה גם לקבוע האם המודל תייג נקודות נתונים מסוימות באופן שגוי או לחשוף אילו נקודות נתונים הן חריגות.
החוקרים בדקו את המערכת שלהם במשימות הללו ומצאו שהיא הייתה מהירה ומדויקת יותר משיטות אחרות.
"חשוב מאוד שתהיה ודאות מסוימת שהמודל מכויל היטב, ויש צורך גובר לגלות מתי תחזית מסוימת לא נראית נכונה. כלי ביקורת הופכים לנחוצים יותר ויותר בבעיות למידת מכונה כאשר אנו משתמשים בכמויות גדולות של נתונים לא בדוקים ליצירת מודלים שיופעלו על בעיות מול בני אדם," אומרת ג'סמי.
IF-COMP הוא עצמאי ממודל, כך שהוא יכול לספק הערכות אי-ודאות מדויקות עבור סוגים רבים של מודלים של למידת מכונה. הדבר עשוי לאפשר את פריסתו במגוון רחב יותר של סביבות מציאותיות, ובסופו של דבר לעזור ליותר אנשי מקצוע לקבל החלטות טובות יותר.
"אנשים צריכים להבין שהמערכות הללו פגיעות מאוד ויכולות להמציא דברים תוך כדי פעולה. מודל עשוי להיראות בטוח מאוד, אבל יש הרבה דברים שהוא מוכן להאמין בהם לאור ראיות הפוכות," אומר נג.
בעתיד, החוקרים מעוניינים ליישם את הגישה שלהם על מודלים גדולים של שפה ולחקור שימושים פוטנציאליים נוספים לעקרון אורך התיאור המינימלי.
עוד בנושא באתר הידען: