הבינה המלאכותית של מיקרוסופט משאירה את הרופאים מאחור

מחקר חדש מציג ועדת רופאים דיגיטליים המובילה לדיוק של כ־80% באבחנות רפואיות מורכבות – הרבה מעבר לממוצע של רופאים כלליים. מדובר בפריצת דרך שעשויה לשנות את עתיד הרפואה, ואולי גם של תחומים רבים אחרים

 

בינה מלאכותית ברפואה. <a href="https://depositphotos.com. ">המחשה: depositphotos.com</a>
בינה מלאכותית ברפואה. המחשה: depositphotos.com

במשך 15 שנים ארוכות, ג'ון נהג להקיא כדרך חיים. הוא לא עשה זאת להנאתו או כדי לנסות להרזות. הוא פשוט היה מקיא. הולך ברחוב, ופתאום – מקיא. אוכל ארוחת ערב ופתאום – הבנתם.

ג'ון לא השלים עם מצבו בקלות.

"ביצעתי כל בדיקת קיבה וכל מבחני האלרגיה הקיימים," סיפר בפוסט שכתב ברדיט, "ולאחרונה אובחנתי בחרדה והתרופות באמת עזרו, אבל [ההקאות] מעולם לא הפסיקו."

בסופו של דבר, ג'ון התייעץ עם הבינה המלאכותית, ועבר בהמלצתה בדיקה אצל מומחה "אף-אוזן-גרון וכירורגיה של ראש-צוואר" וסריקה מוחית. הבדיקה חשפה שהוא סובל מדלקת חמורה ומתמשכת באוזן, שניתנת לטיפול בקלות.

ג'ון הוא שם בדוי למשתמש ברדיט, אבל הסיפור, עד כמה שאפשר לקבוע, אמיתי. מתלווים אליו שפע של סיפורים נוספים, ששיתפו משתמשים אחרים בפלטפורמה. אחד הבולטים מביניהם הוא זה של אדם שעבר במשך שנים בין מומחים רפואיים כדי להבין את הסיבה למחלתו ללא הועיל, עד שצ'אט-GPT הציע את האפשרות שמדובר במוטציה מסוימת. החולה העלה את הנושא מול הרופאים, ובדיקה גנטית מהירה הראתה שהמוטציה היא אכן מקור הבעיה.

נאמר כבר עכשיו שצריך להיות זהיר – ובעל חשיבה ביקורתית – כשמשתמשים בבינה המלאכותית כדי לקבל ייעוץ רפואי. היא יכולה להגיע לאבחונים מדויקים, בוודאי, אבל היא יכולה גם לעשות טעויות קשות ולהסוות אותן בשפה משכנעת ומקצועית. אבל מי שיודע להשתמש בה נכון, יכול להגיע לתוצאות לא-פחות ממופלאות.

וזה מה שהראה המחקר החדש של מיקרוסופט, שיצא בשבוע האחרון, וחושף שבינה מלאכותית מסוגלת לאבחן מצבים רפואיים מורכבים ברמה גבוהה של הצלחה: 85 אחוזים בערך. לא מדובר בנזלת או בפטרת ציפורניים, אלא במצבים שמאתגרים גם את הרופאים המומחים, ומוצגים להם כ- 'חידות לפתרון' בכנסים הרפואיים הנחשבים ביותר. הרופאים האנושיים שמצליחים לפתור את אותן חידות, מתפרסמים בז'ורנלים הרפואיים וזוכים להערכה מצד כל חבריהם.

עכשיו מסתבר שהבינה המלאכותית יכולה לפתור בעצמה את אותן חידות. ולא זאת בלבד, אלא שהיא גם זמינה לכל אחד מאיתנו, בעלות של עשרים דולרים לחודש.

ועכשיו שריגשתי אתכם, נתחיל מהתחלה, ונסביר מה הגדולה במחקר (ומה החולשות שלו), ולמה כולנו צריכים להבין מה עשו החוקרים של מיקרוסופט – ואיך אותם עקרונות צריכים להיות מוטמעים בכל מקצוע ובכל תחום עיסוק כיום.

מערכת MAI-Dx Orchestrator משלבת בין דוקטורים דיגיטליים בתחומי הכלכלה, הנשימה, הפיתוח, הפרקליט והאבחנה, ומבצעת תיאום חכם לקביעת בדיקות, הפסקת אבחנות או מתן מענה רפואי.
מערכת MAI-Dx Orchestrator משלבת בין דוקטורים דיגיטליים בתחומי הכלכלה, הנשימה, הפיתוח, הפרקליט והאבחנה, ומבצעת תיאום חכם לקביעת בדיקות, הפסקת אבחנות או מתן מענה רפואי.

אתגרים של רופאים

לפני מספר שנים נאלצתי להגיע לבית-החולים באמצע הלילה מסיבה ששמורה עם המערכת. הרופא-זומבי שבחן אותי נראה כאילו לא ישן שלושים שעות, וכנראה שכך גם היה. הבנתי שאם אני רוצה טיפול מיטבי, אני צריך להעיר אותו.

"אגב, אני משתף עכשיו פעולה עם חוקר בפקולטה," אמרתי כבדרך אגב, בזמן שכיתת רגליו בכבדות אל הדלת, "אנחנו מפרסמים בקרוב בז'ורנל לרפואה של ניו אינגלנד."

הוא נעמד במקומו כפגוע-ברק. השערות הדקות שעל אוזניו רטטו בזמן שהפנה את ראשו באיטיות לכיווני. האחות בהתה בי ביראת כבוד. שני מתמחים, בעלי שמיעת עטלף שמושגת אחרי כוס הקפה השביעית, דהרו לתוך החדר והתחננו לכבוד לדבר איתי ולנתח את המקרה שלי. כשסיימתי את עסקיי במחלקה, הצוות הרפואי גלל בפניי את השטיח האדום וביקש שאחזור בכל עת.

לפחות, כך זה הרגיש. הטיפול במציאות היה פחות מתמסר, אבל יראת הכבוד עדיין הייתה ברורה.

למה? כי כל הרופאים קוראים את הז'ורנל לרפואה של ניו אינגלנד. מי שמפרסם מאמר רפואי במגזין הזה, זוכה לתהילה במחלקתו, ואפילו בכל בית החולים.

בעיתונים רגילים לאנשים רגילים, אפשר למצוא בדרך-כלל את אזור התשבץ השבועי, חידות שחור ופתור, או את "חידון הארץ". בז'ורנל של ניו אינגלנד, כפי שאפשר לצפות, יש תרגילים מחשבתיים מתקדמים יותר, שנועדו לרופאים מומחים. אלו מתבססים על אתגרים שמוצגים לרופאים בכנסים, ובהם אנשי הרפואה מתבקשים לאבחן חולה שמגיע אליהם עם סימפטומים יוצאי-דופן. 

הרופאים באתגר מוזמנים לשאול את 'החולה' שאלות הרחבה: "האם ביקרת ביקר לאחרונה באזורים טרופיים?", "האם אתה מקיא לאחר שתיית טרופית?", "האם ניסה לטרוף אותך כלב?"

המשתתפים יכולים גם לבקש להעביר את החולה בדיקות רפואיות מכל הסוגים: מבדיקות דם, דרך סריקת MRI ועד לריצוף גנטי מלא. אלא שאליה וקוץ בה: הם צריכים לשלם על הבדיקות הללו. לא בעצמם, כמובן. הם רופאים. אבל עלות כל בדיקה דמיונית שכזו מחושב בקפידה. הרופאים שמנצחים באתגר הם אלו שמצליחים באמת לאבחן את החולה – אבל גם עושים זאת עם הבדיקות הזולות והמהירות ביותר. כלומר, הרופאים הטובים ביותר הם אלו שמצליחים לפענח את המחלה במינימום סחבת ועלויות לחולה, וכמובן גם לקופת החולים.

ניצחון באתגר שכזה מהווה אות כבוד לרופאים, מכיוון שהמקרים מתוכננים מראש כך שיהיו קשים לפתרון, במיוחד כאשר הרופאים מוגבלים בעלויות הבדיקות שהם יכולים להזמין.

ובכן, מה רמת ההצלחה של בינה מלאכותית במבחן שכזה? האם היא יכולה לנצח את הרופאים במשחק שלהם?

זה מה שהחליטו חוקרי מיקרוסופט לבדוק, עם ועדה מיוחדת של בינות מלאכותיות שיצרו לטובת העניין. 


הוועדה הרפואית של מיקרוסופט

הבינה המלאכותית שמיקרוסופט יצרו, היא בעצם "ועדה" של בינות מלאכותיות. היא מורכבת מחמש בינות מלאכותיות, שכל אחת מהן 'משחקת' תפקיד אחר:

  • דוקטור היפותזה: בוחן את האפשרויות השונות ומדרג אלו הן הסבירות ביותר.
  • דוקטור בוחר-בדיקות: בוחר עד לשלוש בדיקות שיעזרו להבדיל בין ההיפותזות המובילות.
  • דוקטור מאתגר: פועל כ- "פרקליט בשטן" (כך במקור) ומזהה הטיות בחשיבה עד כה, שופך אור על ראיות מתנגשות, ומציע בדיקות שיוכלו להפריך את ההיפותזות המובילות.
  • דוקטור כלכלן: מעודד בחירת בדיקות זולות יותר, ומטיל וטו על בדיקות יקרות שאינן אמורות להביא תועלת רבה.
  • דוקטור רשימה: מבצע בדיקות איכות ברקע, כדי לוודא שהוועדה נוקבת בשמות הנכונים של הבדיקות שהיא מבקשת לערוך, ושאינה חורגת מכללי האתגר.

כל חמשת הדוקטורים האלו הם למעשה מופעים שונים של GPT-O3 – הבינה המלאכותית החזקה ביותר כיום של OpenAI. כל אחד מהם מגיע עם צרכים ורצונות שונים, שמוגדרים לו בפרומפט המערכת שלו, ולכן הוא שם את הדגש על נקודות שונות שמטרידות אותו.

התוצאה הסופית היא, מילולית, ועדה. ועדת מומחים אוטונומית. הדוקטורים המלאכותיים 'מדברים' זה עם זה, מנהלים דיון מלומד ומנומס, ואינם מתפרצים אחד לדברי השני. הם מאזנים זה את זה כדי להגיע להחלטה הסופית בכל סיבוב: לשאול את המטופל שאלות, לדרוש בדיקות נוספות, או לספק את האבחנה הסופית. כשכל חברי הוועדה משוכנעים שהם קרובים מספיק לאבחנה, הם מעבירים את התשובה לשופט שמחליט אם הם צדקו או לא.

ובאורח פלא, הוועדה האוטונומית הזו מצליחה להגיע לאבחנה הנכונה ב- 80 אחוזים מהמקרים. אה, והיא עושה זאת כשהיא מסתמכת על בדיקות בעלות נמוכה יותר (2,396 דולרים) מאלו שהזמינו רוב הרופאים האנושיים.

אני רוצה להדגיש את הנתון הזה: בינה מלאכותית, שהפעלתה עולה כמה דולרים לכל היותר, מצליחה להגיע בסבירות גבוהה לאותה אבחנה כמו זו של הרופאים האנושיים המתקדמים ביותר. והאבחנה גם זולה יותר מבחינת הבדיקות שצריך לעשות לטובתה. כלומר, לא רק שהאבחון מוצלח, אלא שגם תהליך האבחון יעיל יותר.

איך אנחנו יודעים זאת? כי החוקרים של מיקרוסופט בדקו גם את רמת הביצועים של הרופאים האנושיים באותן שאלות בדיוק. הביצועים, איך נאמר בעדינות, לא היו מעודדים. הרופא האנושי המוצלח ביותר הגיע לשיעור הצלחה של ארבעים אחוזים בלבד בפתרון השאלות. והרופא הממוצע? הוא פתר נכון רק עשרים אחוזים מהשאלות, בעלות בדיקות ממוצעת של 2,963 דולרים. 

הוועדה המלאכותית של מיקרוסופט מספקת רמז לבאות: לעולם בו כל אדם ייהנה משירותי הייעוץ והתמיכה של ועדה שלמה של רופאים מלאכותיים, שביחד מוצלחת יותר מכל רופא אנושי.

ולא רק ברפואה.


מודל הוועדה

"ועדה," כתב רוברט היינליין לפני שנים רבות, "היא צורת חיים בעלת שש רגליים או יותר, ובלי מוח."

כל מי שלקח בעבר חלק בוועדה יכול להבין את התסכול של היינליין. המשתתפים בוועדות מונעים פעמים רבות ממניעים זרים, אינם באמת מקשיבים אחד לשני, או רוצים בעיקר להפגין את חוכמתם ולדבר. במקרים רבים חוששים חברי הוועדה הזוטרים לצאת כנגד עמדתם של משתתפים מכובדים יותר, כמו זוכי פרס נובל או המנהלים שלהם. התוצאה הטבעית ביותר של דיוני ועדה רבים, היא הנצחת הקונצנזוס: אותה קונספציה מפורסמת, שאיש אינו מעז לאתגר אותה.

אבל האם זה חייב להיות המצב?

מודל הוועדה הרפואית של מיקרוסופט מדגימה צורה חדשה של התדיינות, שיש שיאמרו שרק בינה מלאכותית מסוגלת לה באמת ובתמים. חברי הוועדה באמת מקשיבים זה לזה, מתייחסים אחד לדברי האחר ומאתגרים זה את זה בצורה שמביאה לכך שתוצרי הוועדה מדויקים יותר מאלו של כל בינה מלאכותית 'אינדיבידואלית'.

איזה תוצאות היינו יכולים לקבל אם גם דיוני הנהלה היו מתקיימים בדרך זו? או דיונים בטחוניים? או אפילו דיוני הקבינט הממשלתי? או – לעזאזל – אם היינו הופכים כל החלטת בעל מקצוע ובעל תפקיד, להחלטה שנובעת מדיוני ועדה בה מדברות בינות מלאכותיות זו עם זו?

איך צריכות ועדות שכאלו להיות בנויות? מי צריכים להיות חברי הוועדות, ומהו סדר ה- 'דיבור' האופטימלי של כל אחד מהם? האם לחלקם צריך להיות יותר כוח מאחרים? האם לאחד או יותר מהם צריכה להיות יכולת להטיל וטו על החלטות הוועדה? 

אין תשובות טובות לשאלות הללו, כי מעולם לא היו לנו ישויות 'חושבות', או לפחות בעלות תהליכים שמחקים את התוצאות של חשיבה אנושית, כפי שיש לנו היום. איך ישויות כאלו צריכות לדבר זו עם זו, ומה צריכים להיות כללי השיח ביניהם? אין לנו מושג. פשוט אין לנו מושג. סוציולוגים וחוקרי ניהול באקדמיה בונים קריירה שלמה על חקר תהליכי קבלת ההחלטות בוועדות ובארגונים. והנה מקצוע חדש נוסף שאנו עומדים לראות בשנים הקרובות: ניהול והסדרת האינטראקציות בין בינות מלאכותיות בוועדות ובכלל.

ואולי עוד מקצוע אחד, ישן-נושן: חשיבה ביקורתית. כי גם במחקר של מיקרוסופט אפשר למצוא בעיות, ואפילו לא-מעט מהן. הן אמנם לא משנות את המסר הסופי – שהבינה המלאכותית תשפיע לטובה על חיינו, בין היתר באמצעות שיח בין בינות מלאכותיות – אבל חשוב להתייחס גם אליהן.


הפרטים הקטנים

כשהייתי בלימודי הדוקטורט בננו-טכנולוגיה, הייתי צריך לעבור על מחקרים רבים. כל אחד מהם נראה מרשים כלפי חוץ, ורק קריאה מדוקדקת באותיות הקטנות חשפה את הבעיות הכמוסות בו. בצר לי פניתי לדוקטור חכמה אחת, והיא אמרה לי – 

"מחקרים הם כמו נקניקיות: אחרי שאתה רואה איך עושים אותם, אתה כבר לא מוכן לבלוע אותם באותה הקלות."

היא צדקה. בכל מחקר יש בעיות ופרטים קטנים שמקשים לקבל את התוצאה כאמת ברורה. כך גם במחקר החדש של מיקרוסופט.

אמרתי שהם השוו את ביצועי הבינה המלאכותית לרופאים? זה נכון, אבל איזה רופאים? ובכן, כל הרופאים במחקר היו רופאים "כלליים". כלומר, ללא מומחיות ספציפית בשאלות עליהן נשאלו. כך שמלכתחילה מיקרוסופט משווים את הבינה המלאכותית שלהם לרופאים ברמת 'הבסיס'.

אבל זה נהיה גרוע יותר.

הרופאים שהשתתפו במחקר התבקשו שלא להשתמש במקורות חיצוניים כדי לענות על השאלות. לא גוגל, לא צ'אט-GPT, או כל מקור אחר ברשת. פשוט לא. כלומר, הם היו צריכים לענות על השאלות בהסתמך על מוחותיהם האנושיים בלבד. אני לא בטוח שקיים עדיין רופא שיודע לחשוב בלי עזרים חיצוניים. אבל הם היו צריכים לענות על השאלות בצורה הזו.

אבל זה אפילו יותר גרוע.

הרופאים האנושיים קיבלו 56 מקרים שהתבקשו לאבחן. לא הוטלה עליהם מגבלת זמן, אבל אפשר להבין שאחרי כמה מקרים כאלו, הם בוודאי כבר היו מותשים. היה יכול להיות מעניין להשוות בין שיעור ההצלחה שלהם בפענוח המקרים הראשונים, לבין ההצלחה בפענוח המקרים האחרונים, כשכבר היו בשארית כוחותיהם. לבינה המלאכותית, כמובן, אין בעיות דומות. היא הייתה יכולה להמשיך ולעבור על אלפי מקרים, עד לקריסת הציביליזציה האנושית והחלפתה בדיונונים תבוניים.

אבל זה עוד יותר גרוע.

אמרתי שהוועדה הרפואית האוטונומית הגיעה לתוצאות מדויקות ויעילות (עם בדיקות זולות). זה נכון, אבל לא הזכרתי שהחוקרים זרקו לקלחת גם בינות מלאכותיות מסוג "מודלי היסק" (reasoning models): למשל, GPT-O3, קלוד 4-אופוס וג'מיני 2.5-פרו. אותם מודלים לא הופעלו בצורה של ועדה רפואית, אלא נשאלו בפשטות מה המחלה ממנה סובלים המטופלים. גם להם ניתנה האפשרות לשאול שאלות ולהזמין בדיקות. המודלים האלו פשוט כמודלים 'בודדים', ולא כחלק מוועדה רפואית אוטונומית.

והם הצליחו ברמה גבוהה.

מנוע GPT-O3 – זה שכל אחד מאיתנו יכול להשתמש בו בעלות של עשרים דולרים לחודש – הצליח להגיע כמעט לשמונים אחוזי דיוק באבחנות שלו (למרות שהוא דרש בדיקות יקרות במיוחד לפני שהגיע למסקנה). קלוד 4-אופוס וג'מיני 2.5-פרו הגיעו בערך לשבעים אחוזי דיוק, וגם הם הזמינו בדיקות יקרות.

מודל הוועדה עדיין הצליח יותר מהמנועים הבודדים, אבל לא הרבה יותר. ואולי זה לא צריך להפתיע אותנו. אנחנו יודעים שכאשר מנועי ההיסק מנסים לפתור בעיה מורכבת, הם תוקפים אותה מכיוונים שונים ומזוויות ומנקודות מבט שונות. בהחלט ייתכן שמודל הוועדה מוטמע באופן אוטומטי במנועי ההיסק, כך שהם 'מפרידים את עצמם' לישויות שונות כשהם מנסים לפתור בעיה, נותנים להן לדבר אחת עם השנייה, ומסכמים את התוצאות. כלפי חוץ הם נראים כאילו יש שם קו מחשבה אחד בלבד. אבל מבפנים? רק חברות הבינה המלאכותית יודעות איך בדיוק מודלי ההיסק פותרים בעיות.

וכל הקטנוניות הטרחנית הזו לגבי המחקר, לא משנה כאמור את התוצאה הסופית: בינות מלאכותיות שבידי כולנו כיום, מסוגלות לתת מענה בדיוק של שמונים אחוזים בערך, לשאלות רפואיות מורכבות. האם הן עושות זאת טוב יותר מהרופאים האנושיים? אולי. עם כל המגבלות שהחוקרים הטילו על הרופאים האנושיים, די ברור שהם היטו את המגרש. אבל למי אכפת. העיקר שהבינות המלאכותיות מצליחות לפתור בעיות רפואיות ברמה גבוהה כל-כך. 

ההצלחה הזו, בפני עצמה, תשנה את העולם ואת מקצוע הרפואה. לכל אחד מאיתנו תהיה ועדה של רופאים מומחים שמסתכלת עליו ובוחנת אותו בכל עת שירצה. כל אחד יוכל לקבל את ההמלצות של ועדה שכזו, בעלות אפסית. וזה יקרה בכל תחום: ברפואה, בעריכת דין, בראיית חשבון ובשידוכים. הכל.

זו המשמעות האמיתית של המחקר של מיקרוסופט.