אחד מכתבי-העת הרפואיים הנחשבים בעולם, New England Journal of Medicine, פרסם מאמר עם הצעה יוצאת-דופן: לאשר בינות מלאכותיות בדרך דומה לתהליך האישור שעוברים רופאים אנושיים. או במילים אחרות: להעניק לבינות מלאכותיות רישיון לעסוק ברפואה לאחר שעבר בביצועיו את ביצועי הרופאים המתמחים
בקרוב, בינות מלאכותיות יוכלו לעסוק ברפואה ברמה גבוהה. אבל כיצד נדע אם הן בטוחות או לא? מה יעשה המחוקק, שאמור להיות אמון על בטיחותנו? אחד מכתבי-העת הרפואיים הנחשבים בעולם, פרסם מאמר עם הצעה יוצאת-דופן: לאשר בינות מלאכותיות בדרך דומה לתהליך האישור שעוברים רופאים אנושיים. או במילים אחרות: להעניק לבינות מלאכותיות רישיון לעסוק ברפואה.
נתחיל בגילוי: האמונה בעמק הסיליקון כרגע היא שנצליח להגיע תוך ארבע שנים בערך ל- “בינה מלאכותית כללית”. כלומר, נפתח בינה מלאכותית שמסוגלת לעשות כמעט כל מה שבני-אדם מסוגלים לעשות. גם אם אנשי עמק הסיליקון אופטימיים מדיי – וזה בהחלט ייתכן – איש אינו חושב שהתקדמות הבינה המלאכותית תיעצר בשנים הקרובות. בדיוק להפך. הקונצנזוס הכללי הוא שהיא תמשיך להתפתח ולהשתכלל. אולי היא לא תוכל לעשות הכל ברמה אנושית, אבל מטלות מסוימות, ומקצועות מסוימים, יזכו לאוטומציה מהר יותר מאחרים.
אחד מהם עשוי להיות מקצוע הרופא.
העולם המערבי – ובמיוחד ארצות הברית – חווה כיום מחסור דרמטי ברופאים. המחסור עתיד רק להחריף. לפי דו”ח של איגוד בתי-הספר לרפואה האמריקני, עד שנת 2034 בארצות הברית, המדינה תזדקק לכמעט 125,000 יותר רופאים מהמספר שצפוי להיות בה.
אבל האמת עגומה עוד יותר, מכיוון שאנחנו צריכים רופאים תמיד. אנחנו פשוט לא מבינים את זה עדיין, כי התרגלנו לחיות בסביבה של מחסור. ייעוץ רפואי הוא מצרך יקר ביותר, מכיוון שהוא מחייב את הזמן ותשומת הלב של אדם שלמד במשך יותר משני עשורים כדי לרכוש את המיומנות הנדירה שלו. אותם אנשים יושבים במרפאות, בקליניקות או בבתי-החולים, והחולים עולים אליהם לרגל בהשקעה לא-מבוטלת של זמן וכסף.
בעולם בו בינה מלאכותית יכולה לקחת על עצמה את תפקיד הרופא, כל אחד מאיתנו יוכל לקבל ייעוץ רפואי בקלות ובמהירות. לא נצטרך להוציא שעות מזמננו כדי להגיע למשרד של הרופא, אלא נוכל לקבל את עצתו בבית. ולא נצטרך להסתפק ברופא אחד, אלא נוכל לקבל ייעוץ מוועדות שלמות של רופאים מומחים – מבוססי-סיליקון כולם – שיתדיינו ביחד בעולם הווירטואלי ויגיעו להחלטה בנוגע למצבנו הרפואי.
כל זה טוב ויפה, אבל יש בעיה אחת גדולה: המחוקק לא עומד להסכים לכניסתם של הרופאים מבוססי-הסיליקון בכזו קלות.
ובצדק רב.
הרופא הקטלני ביותר
ג’ון שאו הסיע קשישים לבית-החולים ובחזרה במונית הקטנה שלו, בשנות התשעים של המאה האחרונה. עם הזמן, הוא שם לב לדפוס יוצא-דופן: יותר מעשרים קשישים שהגיעו לבית-החולים בבריאות טובה, מתו באופן פתאומי ולא-צפוי בבית-החולים עצמו. לאחר כמה מיתות יוצאות-דופן שכאלו, הוא זיהה את הגורם המשותף: דוקטור הרולד שיפמן היה הרופא שטיפל בכולם.
שאו דיווח למשטרה על חשדותיו באוגוסט 1998, ושיפמן נעצר זמן קצר לאחר מכן. לאחר חקירה ומשפט ארוכים, קבע בית המשפט כי שיפמן רצח לפחות חמישה-עשר מטופלים שנתנו בו את אמונם, וזייף את צוואתה של אחת מהן כדי שתוריש לו את ממונה. הרציחות התבצעו באמצעות מנת-יתר של תרופות כדי למנוע חשד. האמונה כיום היא שלאורך כל הקריירה הענפה שלו, שיפמן הספיק לרצוח 250 מטופלים.
בינה מלאכותית תוכל להרוג מספר גדול בהרבה.
הגורם המרכזי שהגביל את שיפמן היה הזמן. רופא אנושי יכול לטפל מספר מצומצם של חולים ביום – לא יותר מכמה עשרות, לכל היותר. מנוע בינה מלאכותית יחיד, לעומת זאת, יוכל לספק ייעוץ רפואי למיליוני אנשים מדי יום, ואפילו למיליארדים. ואם הוא יעשה טעויות מסוימות שוב ושוב, או ילקה ב- ‘נקודת עיוורון’ לגבי מחלות מסוימות, הרי שהוא יוכל להסב נזק לרבים תוך זמן קצר מאד.
אין פלא, לפיכך, שהמחוקקים רוצים לוודא שהבינות המלאכותיות של העתיד – אלו שיוכלו לספק ייעוץ רפואי ישירות למטופלים – יהיו בטוחות ביותר.
אבל איך עושים את זה?
לפי דיוויד בלומנטל, רופא באוניברסיטת הרווארד, הפתרון פשוט: המחוקקים צריכים לבחון את הבינות המלאכותיות כאילו היו רופאים בעצמן.
רופאים או כלים
בלומנטל פרסם באמצע 2024 מאמר באחד מכתבי-העת הרפואיים הנחשבים בעולם: New England Journal of Medicine. או לפחות בנגזרת של כתב-העת הזה, שמתרכזת במיוחד בבינה המלאכותית. ביחד עם עמית מגוגל, בלומנטל טען במאמר שהכללים הרגולטוריים שתקפים כיום עבור בינות מלאכותיות ברפואה, פשוט אינם מספיקים כדי להתמודד עם הבינות המלאכותיות החדשות. ספציפית, מנועי השפה הגדולים כמו ChatGPT, שיכולים לתת ייעוץ רפואי ברמה מרשימה – גם אם הם עושים עדיין טעויות, ואפילו קשות.
כיום, המחוקק בארצות הברית מתרכז בעיקר בכמה סוגים של בינות מלאכותיות. הבסיסיות ביותר הן מערכות “סיוע בקבלת החלטות קלינית”. אלו מערכות ממוחשבות שמספקות אזהרות לרופא אודות הדרך המזיקה בה שתי תרופות יכולות להשפיע זו על זו, או ממליצות לו על קוטר הקטטר המתאים ביותר, וכן הלאה. מערכות ‘פשוטות’ אחרות יכולות לספק הערכות סטטיסטיות בשאלות נקודתיות-ביותר: למשל, להעריך את סיכוייו של מטופל לפתח התקף לב בהינתן מגוון של נקודות מידע אודות בריאותו.
המערכות הללו מפותחות ומתוכנתות על-ידי בני-אדם, והאלגוריתמים שמאחוריהן פשוטים וברורים. לפי המאמר של בלומנטל, מערכות אלו אינן דורשות אפילו אישור מצד המחוקק, מכיוון שהן מבוססות לגמרי על ספרי הרפואה – ופשוט מאפשרות לרופא למצוא את ההמלצות מהספרים הרלוונטיים באופן אוטומטי.
סוג מתקדם יותר של בינה מלאכותית מבוסס על “למידת מכונה”. במקרה זה, המכונה עצמה היא זו שעוברת על אוסף עצום של פריטי מידע ומזהה דפוסים שחוזרים על עצמם. מערכות כאלו יכולות לנתח צילומי רנטגן, למשל, או לחזות את הסיכוי של מטופל לפתח סוכרת – אך לא חובה שיהיה הסבר ברור מאחורי המסקנות שלה. המחוקק מאשר את המערכות מבוססות “למידת המכונה”, אבל מגביל אותן רק לקטגוריות ניתוח מאד מסוימות בהן הוכיחה את עצמה. תוכנה מסוימת שאומנה על צילומי רנטגן מגברים לבנים, למשל, עלולה לטעות לחלוטין כשהיא נתקלת בצילומים של נשים לבנות.
במקרה הזה, המחוקק מאשר פעם אחת את הבינה המלאכותית מבוססת “למידת מכונה”. אבל מכיוון שברור שאפשר לשפר אותה באמצעות הזנת מידע נוסף, המחוקק מאפשר למפתחי הבינה המלאכותית לשפר אותה מדי פעם, לבחון את המערכת המשופרת, ואז “לנעול” אותה לשינויים נוספים עד הפעם הבאה בה ירצו לשפר אותה. זה תהליך ארוך ומסובך, אבל הוא עבד היטב עד עכשיו.
ואז הגיעו מנועי השפה הגדולים, ופתאום ברור לכולם שהחוקים הקיימים אינם מספיקים.
המתמחה שאכזב אותי
באפריל 2024 פרסמו שלושה חוקרים ישראליים – ערן כהן, אוריאל כץ ועידו וולף – מחקר עם תוצאות מביכות במיוחד עבור מתמחים רבים. החוקרים הריצו את מנוע השפה המתקדם ביותר באותו הזמן – GPT-4 – על מבחני הרישוי שעברו מתמחים במקצועות ילדים, כירורגיה כללית, גינקולוגיה, פסיכיאטריה ורפואה פנימית. תשובותיו של המנוע הושוו לאלו של 849 מתמחים מקבילים.
התוצאה, כאמור, הייתה מביכה למתמחים. כפי שהסביר ד”ר כהן בראיון ל- Ynet –
“הבנו שלא רק שצ’אט GPT-4 מצליח לעבור את המבחן, אלא בחלק מהמבחנים הוא קיבל ציונים יותר גבוהים מהמתמחים.”
בזמן שציוניהם של המתמחים נעו בין 30 ל- 85, מנוע הבינה המלאכותית היה עקבי וכמעט לא נכשל. ברפואה פנימית ופסיכיאטריה במיוחד, הוא הצליח לקבל ציון גבוה יותר מרוב המתמחים שניגשו למבחן.
הנקודה הראשונה המרגשת במיוחד במחקר, מבחינתי, היא שהחוקרים לא בחנו מנועי שפה גדולים שונים. כלומר, המנוע לא הותאם ואומן לכל אחד ממבחני ההתמחות השונים. בדיוק להפך: אותו מנוע הגיע לתוצאות המרשימות הללו בכל תחומי ההתמחות. הנקודה השנייה היא שכאשר החוקרים בחנו את ‘אביו’ של GPT-4, הלוא הוא GPT3.5, הם ראו שהוא נכשל תכופות במבחנים. כמה זמן לקח בין השחרור של 3.5 לשוק, להגחתו של GPT4? פחות משנה.
זה קצב האירועים כיום.
מומחי התעשייה מעריכים שזמן דור של מנועי השפה הגדולים – כלומר, משך הזמן שנחוץ כדי להגיע לשיפור משמעותי של המנועים הללו – עומד על שמונה חודשים בלבד. המחוקק לא יודע לעבוד ולבחון את ההצלחות שלה בקבועי זמן כאלו. וגם אם המחוקק היה יכול לעשות זאת, על מה הוא יבחן אותה? על תת-תת-יכולת כלשהי, בזמן שהיא מסוגלת לספק תשובות על… הכל? בזמן שהיא עוקפת את המתמחים ומשאירה אותם הרחק מאחור – ובקרוב גם את הרופאים המומחים עצמם?
כך הגיע בלומנטל לפתרון שלו: להעריך בינות מלאכותיות חדשות כאילו היו רופאים אמיתיים.
בחינות רישוי לבינות מלאכותיות
במאמר שפרסם, מציע בלומנטל שנתייחס לבינות המלאכותיות החדשות לא כאל מכשירים רפואיים, אלא כ-
“סוג חדש של אינטיליגנציה קלינית: כלומר, להעביר עליהם רגולציה פחות כאילו היו מכשירים, ויותר כאילו היו קלינאים.”
בלומנטל מצביע בצדק על כך שיש לנו שפע של ניסיון באומדן יכולותיהם של הרופאים בבתי-ספר לרפואה ובהתמחויות שבבתי-החולים. הרופאים צריכים לסיים לימודים באוניברסיטה, לעבור מבחני רישוי, לעשות תקופה של התמחות בשטח, להמשיך להתאמן ולרכוש ניסיון ומומחיות, ולהסכים שאיכות הטיפול שלהם תיבדק מפעם לפעם.
בלומנטל מציע שהמחוקק יאשר את מנועי השפה הגדולים לאחר שאלו ייבחנו במספר דרכים, שמזכירות באופן חשוד את מסלול ההכשרה והבחינה של רופאים מומחים. אחת מהדרכים, למשל, תכלול הצלחה במבחנים שיתבססו על מבחני הרישוי המקצועיים. דרך אחרת תהיה “תקופת התמחות”: משך זמן בו הבינה המלאכותית תופעל במצבים קליניים ותספק ייעוץ, אבל רופאים מומחים בכירים יהיו לצידה כדי לתקן ולדייק אותה במידה ותטעה. ובכל פעם שהבינה המלאכותית תעבור שדרוג – היא תצטרך לעבור מחדש את המבחנים התיאורטיים ואת תקופת ההתמחות.
אחרון חביב, וחשוב ביותר, בלומנטל מציע שתוצאות כל המבחנים וההתמחויות האלו תהיינה זמינות לציבור. ממש כפי שכל רופא תולה על קירות הקליניקה את הדיפלומות שלו, כך גם הבינה המלאכותית תראה למטופלים ש- “יש על מי לסמוך”.
זהו, אם כך, הפתרון של בלומנטל לבעיית הרישוי של הבינה המלאכותית בתחום הרפואה.
ולא נעים לי לומר, אבל יש בו גם חורים.
הבעיות – וההצלחה
נתחיל דווקא בצד החיובי: אני אוהב את הפתרון של בלומנטל מכיוון שהוא צופן פני עתיד. העובדה שבאחד מכתבי-העת הנחשבים ביותר ברפואה מבינים כבר ש- “מה שהיה הוא לא מה שיהיה”, מבהירה את גודל השינוי. קובעי המדיניות בתחום הרפואה מתחילים לצרף את הראיות זו לזו, ומבינים שהם צריכים להיערך לעולם שונה מאד מזה שהיה לנו עד היום.
המשמעות של שינוי גדול כל-כך, היא גם שכל פתרון שיוצע כדי להתמודד איתו יהיה גרוע בהכרח. כך קורים הדברים תמיד. לעולם אי אפשר לפתח מדיניות מראש שתבין את מלוא המורכבויות של הטכנולוגיה, לפני שזו מגיעה למימוש, ובני-אדם מתחילים לשחק עמה. פתרונות המדיניות יהיו גרועים – ואפילו ייראו לנו מגוחכים ונאיביים – בהתחלה. אבל הם ישתפרו.
ובכל זאת, אנחנו יכולים לעשות מאמץ להפיק פתרונות מדיניות חכמים יותר כבר בהתחלה.
הבעיה המרכזית שאני רואה עם הפתרון של בלומנטל הוא שהבינה המלאכותית אינה יכולה להיות “טובה כמו רופא אנושי”. היא לא יכולה גם להיות “יותר טובה מרופא אנושי”. היא צריכה להיות “הרבה יותר טובה”. אולי אי אפשר להגיע לשלמות, אבל היא צריכה להיות מצוינת באמת ובתמים.
למה? מכיוון שמספר הפניות שיגיע אליה יהיה עצום. מהרגע שנוכל להתייעץ עם בינה מלאכותית בקלות של לחיצת כפתור או שיחת וידאו, אנו נערוך עמה דיונים מדי יום. וההיפוכונדרים מבינינו יעשו זאת מדי שעה. אנחנו נבקש את עצתה במגוון רחב של נושאים – ובכל אחד ואחד מהם, יש סיכוי שהיא תיכשל. ואם היא תיכשל, היא עלולה לעשות זאת בדרכים לא-צפויות, מכיוון שהיא אינה ניחנת באותו תהליך חשיבה כמו זה האנושי.
פה נמצאת גם הבעיה השנייה עם הפתרון של בלומנטל: איך עושים “תקופת התמחות”, כאשר השימושים בבינה המלאכותית עומדים להיות שונים מתחומי ההתמחות שיש לנו כיום?
בעיה שלישית נוגעת בקבועי הזמן. האם באמת אפשר לבחון את הבינה המלאכותית תוך זמן קצר מספיק – נאמר, בשמונה חודשים או פחות? ואם כן, מי יבחן אותה?
אבל אני מודה שהשאלות האלו עשויות להיות קנטרניות.
בסופו של דבר, בלומנטל מציע פתרון אפשרי, וגם הוא בוודאי מבין שמדובר רק בפתיחת תהליך חשיבה אודות העתיד, ושאי-אפשר להגיע לפתרון מושלם על ההתחלה. הפתרון שלו גם מכיר לראשונה בכך שמנועי השפה הגדולים שונים כל-כך מבינות מלאכותיות קודמות, שצריך להתייחס אליהם אחרת. למעשה, שהדרך היחידה שלנו להעריך את יכולותיהם היא אם ניישם עבורם את אותן דרישות מחמירות שאנו קובעים עבור רופאים אנושיים.
אני מאמין שאנו צריכים לחשוב על פתרון דומה בכל תחום: בראיית חשבון, בעריכת דין, בפסיכולוגיה ובכל היתר. לא מוגזם לחשוב שבעוד שנים ספורות, נידרש להבין בכל אחד מהתחומים הללו האם הבינה המלאכותית מסוגלת לעשות עבודה ברמה מקבילה או טובה מזו של המומחים האנושיים. וכמובן, להחליט איך להנגיש את הבינות המלאכותיות הללו לציבור.
החזון האופטימי עבור הרפואה
אסיים באופטימיות: אנו מתקדמים לעתיד של שפע. המאמר של בלומנטל מבהיר שבעתיד, בינות מלאכותיות בתחום הרפואה יהיו בעלות יכולות של רופאים אנושיים – וכנראה יתעלו עליהם במוקדם או במאוחר. זה יהיה עתיד בו כל אחד מאיתנו יזכה באורח החיים שרק העשירים ביותר נהנים ממנו כיום: רופא אישי לכל אדם, בכל עת. ולא רק רופא אחד, אלא ועדה שלמה של רופאים מומחים. כל הזמן. הם ידאגו לנו, יזהו בעיות רפואיות שנים לפני שהיו מתגלות באופן רגיל, ויוכלו לוודא שנקבל את הטיפול המוצלח ביותר, מוקדם ככל האפשר.
ואולי הדרך לדעת שהם באמת יודעים על מה הם מדברים, תהיה בדיוק כפי שאנו בוחנים היום את הסטודנטים שלנו לרפואה.
נאחל אם כך הצלחה לרופאי העתיד הממוחשבים – הם עומדים לעזור לכולנו. לפחות ברגע שיקבלו את הרישיון שלהם.
עוד בנושא באתר הידען: