לאתר הטיות כבר בשלב הנתונים, לפני שהן מגיעות לאלגוריתם

ד"ר יובל מוסקוביץ', חוקרת מהפקולטה למדעי המחשב והמידע באוניברסיטת בן־גוריון מפתחת כלים אלגוריתמיים לזיהוי ותיקון הטיות במערכות מבוססות־נתונים, באמצעות Data Provenance "קורות החיים" של הנתונים לאורך תהליך העיבוד

Responsible Data Management - ניהול נתונים אחראי - הוא תחום שעוסק בהוגנות, שקיפות, אחריותיות ואמינות של תהליכי עיבוד נתונים. <a href="https://depositphotos.com. ">המחשה: depositphotos.com</a>
Responsible Data Management – ניהול נתונים אחראי – הוא תחום שעוסק בהוגנות, שקיפות, אחריותיות ואמינות של תהליכי עיבוד נתונים. המחשה: depositphotos.com

יובל מוסקוביץ’, חוקרת מהפקולטה למדעי המחשב והמידע באוניברסיטת בן־גוריון בנגב, עוסקת במחקר הנתמך במענק שקיבלה מהקרן הלאומית למדע (ISF) באחת הסוגיות הבוערות בעולם המחשוב כיום: איך מזהים הטיות (bias) במערכות מבוססות־נתונים, ואיך מצמצמים אותן עוד לפני שהן “ננעלות” בתוך מודלים ואלגוריתמים. לדבריה, נקודת המפתח היא לא רק המודל עצמו, אלא כל שרשרת העיבוד של הנתונים — מהרגע שהם נאספים, דרך שלבי ניקוי וסינון, ועד השלב שבו הם מוזנים לאימון או לחישוב.

מוסקוביץ’ פועלת בתחום ניהול הנתונים (Data Management), ובפרט בתחום המכונה    Responsible Data Management  – ניהול נתונים אחראי. זהו תחום שעוסק בהוגנות, שקיפות, אחריותיות ואמינות של תהליכי עיבוד נתונים. במקום לשאול רק “האם המודל הוגן?”, היא שואלת גם “מה קרה לנתונים לאורך הדרך?”, “באיזה שלב נוצרה ההטיה?”, ו”האם אפשר היה לעצור אותה מוקדם יותר?”.

הצורך הזה נולד מהצטברות של מקרים מוכרים של אפליה אלגוריתמית. מוסקוביץ’ מזכירה את הדוגמה הידועה של מערכת סינון קורות חיים שפותחה באמזון, שלמדה להעדיף מועמדים גברים ולהפלות נשים. לדבריה, לא תמיד ההטיה מופיעה בצורה ישירה וברורה. לעיתים האלגוריתם לומד קשרים עקיפים: מוסד לימודים, כתובת מגורים, או מאפיינים אחרים שמקושרים היסטורית לקבוצות מסוימות. במילים אחרות, גם בלי “לראות” מגדר או מוצא במפורש, המערכת עלולה לשחזר דפוסים מפלים מתוך הנתונים.

מה השאלה? כיצד מזהים הטיות (bias) במערכות מבוססות־נתונים, ואיך מצמצמים אותן עוד לפני שהן “ננעלות” בתוך מודלים ואלגוריתמים?

הבעיה מתחילה הרבה לפני המודל

אחת התובנות המרכזיות במחקר של מוסקוביץ’ היא שהטיה יכולה להיווצר הרבה לפני שלב האימון. נתונים עוברים לאורך הדרך אינספור פעולות: סינון, בחירה, ניקוי, חיבור טבלאות, שאילתות שונות ושינויי מבנה. כל פעולה כזו עשויה, למשל, לשנות את הייצוג של קבוצות באוכלוסייה. כך, גם אם האלגוריתם הסופי “נייטרלי” לכאורה, הוא עלול לקבל קלט שכבר עבר עיוות.

לכן המטרה שלה היא לזהות את ההטיות לאורך הדרך, ובמקרים שבהם הדבר אפשרי — גם לתקן אותן באופן מבוקר תוך שינוי מינימלי. כלומר, לא “לשבור” את החישוב המקורי, אלא לבצע התאמות קטנות שמחזירות ייצוג הוגן יותר, בלי לשנות את מהות החישוב.

 :Provenance מושג מהאמנות שעבר לעולם הנתונים

הטכניקה המרכזית שמוסקוביץ’ נשענת עליה נקרא Data Provenance . מקור המושג Provenance  הוא בעולם האמנות והארכיאולוגיה, שם מדובר בתיעוד של ההיסטוריה של יצירה: מי יצר אותה, דרך אילו ידיים עברה, מה מקוריותה, ומהו ההקשר שלה. התיעוד הזה משפיע גם על האמון במקוריות היצירה וגם על ערכה.

בעולם הנתונים Data Provenance הוא מעין “קורות חיים” של הנתון: מסלול העיבוד שלו, הפעולות שהופעלו עליו, והתלות בינו לבין נתונים אחרים. המידע הזה משמש כמטא־דאטה חישובי, שמאפשר להבין לא רק מה יצא בסוף, אלא גם למה.

לדברי מוסקוביץ’, היתרון הגדול של Provenance הוא שהוא מאפשר לזהות באופן יעיל את הנקודות שבהן נוצרת הטיה, ובמקרים מסוימים גם לחשב מהו השינוי הקטן ביותר שנדרש כדי לשפר את הייצוג בפלט.

דוגמת המלגות: איך משנים שאילתה “כמה שפחות”, אבל משפרים ייצוג

כדי להסביר את הרעיון, מוסקוביץ’ נותנת דוגמה פשוטה שאינה תלויה בלמידת מכונה: מערכת שמעניקה מלגות לסטודנטים שבוחרת את הזכאים לפי קריטריונים שנראים לגמרי ענייניים: ממוצע ציונים גבוה ולימודים בתחומי ה-STEM . על פניו זה נשמע הוגן. אבל אם בעבר תחומים כאלה היו פחות נגישים לקבוצות מסוימות, הן מיוצגות בהם פחות, ולכן גם יופיעו פחות ברשימת הזכאים למלגה. במילים אחרות, גם כששיטת הבחירה נראית ניטרלית, היא עלולה לשקף פערים שכבר קיימים בתוך הנתונים.

כאן נכנס האלגוריתם שלה: אם מגדירים אילוץ ייצוג – למשל, יעד של ייצוג מאוזן יותר של קבוצות מסוימות — אפשר לחפש שינוי מינימלי בשאילתה כך שהפלט יעמוד ביעד, או לפחות יתקרב אליו, בלי לשנות מהותית את כוונת השאילתה המקורית. במקום להריץ שוב ושוב וריאציות רבות של השאילתה על בסיס הנתונים (תהליך יקר חישובית), ה־   Provenance מאפשר לזהות במהירות את השינויים הקטנים והאפקטיביים ביותר.

מבחינתה, זה בדיוק האיזון החשוב: מצד אחד לשמור על המטרה המקורית של החישוב, ומצד אחר למנוע מצב שבו התוצאה משמרת הטיה לא רצויה רק בגלל הדרך שבה הנתונים עברו עיבוד.

מתמטיקה, אלגוריתמים, ומה אפשר לפתור ביעילות

מוסקוביץ’ מתארת תהליך מחקרי שמתחיל בבעיה מהעולם האמיתי, ממשיך לניסוח פורמלי מתמטי, ורק אחר כך לפיתוח פתרון אלגוריתמי. היא בוחנת מתי ניתן לפתור בעיה בצורה מדויקת ויעילה, ומתי חייבים להסתפק בקירובים או ביוריסטיקות.

במקרים שבהם יש פתרון מדויק, אפשר גם להוכיח מתמטית שהאלגוריתם אכן נכון. במקרים מורכבים יותר — למשל בעיות דירוג — לא תמיד ניתן לבנות Provenance יעיל באותה צורה, ואז נדרשים פתרונות מקורבים. היתרון של פתרונות כאלה הוא שלעיתים קל יותר להפעילם על נתונים גדולים, אך המחיר הוא קושי להבטיח עד כמה הם קרובים לפתרון האידיאלי.

הוגנות” אינה דבר אחד

מוסקוביץ’ מדגישה כי הוגנות אלגוריתמית אינה מושג יחיד. יש הגדרות רבות להוגנות, ולעיתים הן אפילו סותרות זו את זו. לכן, היא אינה טוענת שיש “הגדרה נכונה אחת”, אלא מציעה גישה מעשית: לבחור הגדרה שמתאימה להקשר, ואז לפתח אלגוריתם שמבטיח עמידה בתנאים שנקבעו.

במילים אחרות, המחקר שלה אינו מכריע בשאלה הערכית מהי הוגנות “אמיתית”, אלא מספק כלים חישוביים שיכולים לשרת מדיניות או הגדרה שנבחרה מראש.

עוד בנושא באתר הידען:

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אתר זו עושה שימוש ב-Akismet כדי לסנן תגובות זבל. פרטים נוספים אודות איך המידע מהתגובה שלך יעובד.