גוגל AI הכריזה על WIT: סדרת נתונים המקשרת תמונות טקסטים והקשר מויקיפדיה

המערכת הכוללת 11 מיליון תמונות והקשריהם ב-108 שפות מיועדת לאימון בינה מלאכותית. סדרת הנתונים זמינה לציבור וגוגל אף תקיים תחרות יישומים מבוססי WIT ביחד עם קרן ויקימדיה ואתר KEGGLE

דוגמה לניתוח תמונה והקשר מויקיפדיה עבור פרויקט WIT של גוגל AI. צילום יחצ

חברת גוגל חוגגת היום 23 שנה להקמתה. גוגל AI, אחת החטיבות הצעירות בחברה הכריזה על WIT: סדרת נתונים המקשרת תמונות טקסטים והקשר מויקיפדיה הפתוחה לציבור הרחב לצורך אימוני בינה מלאכותית.

קרישנה סריניוואסאן, מהנדס תוכנה וקארתיק רמאן,מדען מחקר, גוגל מחקר פרסמו את הפרטים על ההכרזה של גוגל AI על WIT- סדרת תמונות עצומה מויקיפדיה והתאמתן לטקסט בשפות רבות – לאימון בינה מלאכותית.

בבלוג שלהם באתר גוגל AI כותבים השניים: "מודלים מודרניים של תמונות ותיאורן בטקסטים רב לשוניים עשירים יכולים לסייע להבין את הקשר בין תמונות לטקסט."

"באופן מסורתי, ערכות נתונים אלה נוצרו על ידי הוספת כיתוב ידני לתמונות, או סריקת האינטרנט וחילוץ הטקסט האלטרנטיבי ככיתוב לתמונות. בעוד שהגישה הקודמת מאפשרת להפיק נתונים באיכות גבוהה יותר, תהליך הפירושים הידני האינטנסיבי מגביל את כמות הנתונים שניתן ליצור. מצד שני, גישת החילוץ האוטומטית יכולה להוביל ערכות נתונים גדולות יותר, אך אלה דורשות היוריסטיקה וסינון זהיר כדי להבטיח איכות נתונים או להפעיל מודלים של שינוי קנה מידה כדי להשיג ביצועים חזקים. מחסור נוסף של ערכות הנתונים הקיימות הואמחסור בכיסוי בשפות שאינן אנגלית. הדגבר הוביל אותנו באופן טבעי לשאול: האם אפשר להתגבר על מגבלות אלה וליצור ערכת נתונים רב לשונית איכותית, גדולה ורב לשונית עם מגוון תכנים?"

"כיום אנו מציגים את ערכת הנתונים של טקסטים ותמונות (WIT) המבוססת על ויקיפדיה, שנוצרה על ידי חילוץ טקסטים מרובים בתיאורי התמונות ממאמרי ויקיפדיה וקישורי התמונות בויקימדיה. ערכנו סינון קפדני שדאג שרק ערכות טקסט-תמונה באיכות גבוהה ייסרקו. כפי שמפורט ב-"WIT: ערכת נתונים של טקסט תמונה מבוססי ויקיפדיה עבור למידת מכונה רב-לשונית רב-לשונית רב-לשונית רב-ממדית", שהוצגה ב-SIGIR '21, התוצאה הייתה מאגר של 37.5 מיליון דוגמאות טקסט ותמונהעשירות ובהן 11.5 מיליון תמונות ייחודיות ותיאוריהן ב-108 שפות. ערכת הנתונים של WIT זמינה להורדה ולשימוש תחת רישיון Creative Commons."

היתרונות הייחודיים של מערך הנתונים של WIT הם:

גודל: WIT הוא מערך הנתונים הרב-מודאלי הגדול ביותר של דוגמאות טקסט-תמונה הזמין לציבור.
רב לשוניות: 108 שפות , ל-WIT יש 10 שפות יותר מכל מערך נתונים אחר.
מידע קונטקסטואלי: בניגוד למערכות נתונים מולטי-מודאליות טיפוסיות, שיש להן כיתוב אחד בלבד לכל תמונה, WIT כולל מידע הכולל הקשרים ברמת הדף ורמת המדור.
ישויות בעולם האמיתי: ויקיפדיה, בהיותה בסיס ידע רחב, עשירה בגופים בעולם האמיתי המיוצגים ב- WIT.
מערך מבחנים מאתגר: בעבודותינו האחרונות שהתקבלו ב- EMNLP, כל המודלים החדישים הפגינו ביצועים נמוכים משמעותית ב- WIT לעומת מערכי הערכה מסורתיים (למשל, ירידה של כ -30 נקודות בזיכרון).

ערכת אימון איכותית ומדד הערכה מאתגר

הסיקור הרחב של מושגים מגוונים בוויקיפדיה פירושו שמערכות ההערכה של WIT משמשות אמת מידה מאתגרת, אפילו למודלים חדישים. מצאנו כי ציוני האחזור הממוצע של ערכות נתונים מסורתיות היו בסביבות 80 אחוזים, ואילו ערכת הבדיקות של WIT נתנה תוצאות בסביבות 40% בשפות בעלות משאבים טובים ובסביבות ה -30 עבור השפות חסרות המשאבים. אנו מקווים שזה בתורו יכול לעזור לחוקרים לבנות מודלים חזקים וחזקים יותר.

ערכת נתונים ותחרות של WIT עם ויקימדיה וקגל

בנוסף, אנו שמחים להודיע כי אנו משתפים פעולה עם ויקימדיה מחקר וכמה משתפי פעולה חיצוניים כדי לארגן תחרות עם ערכת הבדיקות של WIT. אנחנו מארחים את התחרות הזאת בקגל. התחרות היא משימת אחזור טקסט תמונה. בהינתן קבוצה של תמונות וכיתובי טקסט, המשימה היא לאחזר את הכיתובים המתאימים עבור כל תמונה.

כדי לאפשר מחקר בתחום זה, ויקיפדיה הפכה תמונות זמינות ברזולוציה של 300 פיקסלים והטבעות תמונה מבוססות Resnet-50 עבור רחב האימונים של בדיקת בסיס הנתונים. Kaggle תארח את כל נתוני התמונה בנוסף לערכת הנתונים של WIT עצמה. יתר על כן, למתחרים תהיה גישה לפורום דיונים בקאגל על מנת לשתף קוד ולשתף פעולה. זה מאפשר לכל מי שמעוניין במידול כדי להתחיל ולהפעיל ניסויים בקלות. אנו נרגשים ומצפים למה שייווצר מערכת הנתונים של WIT ותמונות ויקיפדיה בפלטפורמת Kaggle.

"לכל שאלה, אנא צרו קשר עם [email protected]. נשמח לשמוע כיצד אתם משתמשים בערכת הנתונים של WIT." מסכמים החוקרים.

קישור לסדרת הנתונים באתר Github

למחקר המדעי

עוד בנושא באתר הידען: