סיקור מקיף

Rankbrain – איך עובד המנוע החדש של גוגל ואיך זה משפיע על קידום אתרים

זה לא סוד שגוגל הוא מנוע החיפוש המתקדם והמשוכלל ביותר בעולם הודות לאלגוריתם הייחודי שלו. כדי להבין מה מייחד את החלק החדש באלגוריתם שלו, Rankbrain, צריך קודם כול ללמוד קצת על ההיסטוריה של גוגל ובמה הוא היה שונה מכל מנוע החיפוש שהיו לפניו:

ב-1998, כאשר חברת גוגל רק נכנסה לזירת מנועי החיפוש, רוב המנועים לא היו חכמים במיוחד והתבססו על התאמות פשוטות של מילות מפתח שאותן המשתמש הקליד בתיבת החיפוש לטקסט שנמצא בתוך הדפים שאותם הם סרקו. לאתרים היה קל מאוד להערים על מנועי החיפוש באמצעות שילוב של המילים שהם חיפשו, גם אם הטקסט בדף היה באיכות נמוכה ביותר או כלל לא רלוונטי למה שהמשתמש חיפש. על כן, קידום אתרים (SEO) היה קל מאד בזמנו – מה שלא קיים היום.

חברת גוגל לעומת זאת שילבה באלגוריתם שלה אלמנט חדש שנקרא Pagerank. Pagerank נתן קרדיט לאתרים על פי מספר האתרים האחרים שקישרו אליהם מתוך נקודת הנחה שאתר שזוכה ליותר הצבעות ברשת יהיה גם אתר איכותי יותר. כדי שגוגל יוכל להתחיל לעבוד, שני המייסדים של גוגל (סרגי בריין ולארי פייג’) בחרו במספר אתרי “ליבה” שהיו לדעתם האיכותיים ביותר.

אף על פי שבשלב זה (סוף המאה ה-20 ותחילת המאה ה-21) המנוע של גוגל אכן היה המתקדם ביותר בשוק וכבש את הרשת בסערה, לעיתים דווקא ההסתמכות שלו על קישורים הייתה בעוכריו. מדוע? מי שרצה לבצע מניפולציה על תוצאות החיפוש פשוט היה צריך לשתול קישורים באתרים שונים כדי להערים על גוגל. מלבד זאת, אפילו מניפולציה על המילים בטקסט עדיין עבדה כשהיא נעשתה בשיטה מסוימת.

גוגל כמובן לא נשארה חייבת, וכדי להילחם במניפולציות האלו המשיכה לשכלל ולשנות את האלגוריתם שלה על בסיס קבוע בנוסף ל-Pagerank המקורי. לדוגמה, חלק מהחידושים באלגוריתם כמו “עדכון פנדה” נועדו לטפל בטקסטים באיכות ירודה מאוד (למעשה ספאם) ו”עדכון פינגווין” נועד להילחם במי שביצע שימוש קיצוני בקישורים מניפולטיביים.
מגבלה נוספת של גוגל הייתה שאילתות חדשות שלא נשאלו קודם. בדרך כלל, כאשר גוגל נשאל על חיפוש שכבר הוקלד בעבר, הוא יכול לדעת לכל הפחות מהם החיפושים הקשורים והאם המשתמשים הקלידו גם חיפושים דומים עד שמצאו את התשובה שחיפשו. לעומת זאת, שאילתה חדשה יכולה להוות בעיה מכיוון שיש לגוגל הרבה פחות מידע להסתמך עליו. לכן גוגל הייתה חייבת למצוא דרך לטפל גם בשאילתות לא מוכרות שהיוו בין 20% ל-25% מכלל השאילתות.

כיצד Pagerank הצליח לפתור את בעיית השאילתות החדשות?

בגוגל החלו לעבוד על מנוע עזר שיעסוק בלימוד מכונה של אינטליגנציה מלאכותית. מדובר במנוע שיכול ללמוד בעצמו על הקשרים בין מילים או מושגים ולפיכך לספק את התשובות הנכונות גם אם כל המילים שהמשתמש חיפוש לא מופיעות בהכרח בטקסט.

למשל, גוגל לא בהכרח יודע שברלין היא עיר הבירה של גרמניה, אבל הוא כן יודע שיש להן קשר דומה לקשר שבין ירושלים וישראל. ניתן גם להתייחס לקשרים האלו כ”קונספטים” או “וקטורים”.

אלמנט זה זכה לרבות הימים בכינוי Rankbrain והוצג לראשונה בסוף 2015. כיום גוגל הוסיפה לו עוד כמה גלגלי עזר כגון BERT, אך העיקרון עצמו נותר זהה.

כדי לסבר את האוזן ניתן שתי דוגמאות, אחת פשוטה יחסית ואחת מורכבת:

1.אם נקיש באנגלית “קונסולת המשחק האפורה שיוצרה על ידי סוני” נקבל את התשובה Sony Playstation (למי שלא גדל בשנות ה-90 נזכיר כי המודל המקורי אכן היה אפור…).

2.דוגמה מורכבת יותר (גם כן באנגלית): אם נשאל “מהו השם של הצרכן הגבוה ביותר בשרשרת המזון” נקבל הסבר על שרשרת המזון בהקשר הביולוגי שלה : גוגל הבין שאנחנו מחפשים מונח מתחום הביולוגיה ולא משהו מתחום האוכל שאנחנו אוכלים ולכן אתרים שעוסקים בנושא הזה.

3.דוגמה דומה מאוד ואפילו מרשימה יותר היא “מי נמצא בראש שרשרת המזון”. כאן גוגל מציג בעמוד הראשון את העמוד הספציפי על “טורף על” מויקיפדיה.

עד כמה Rankbrain משפיע על גוגל?

במקור הצהירה גוגל ש-Rankbrain מהווה את הגורם השלישי בחשיבתו באופן שבו המנוע שלה מדרג אתרים, אך מכיוון שיש כל כך הרבה פרמטרים שמשפיעים על החיפוש והם משתנים כל יום, כיום יש לקחת את ההצהרה הזו בעירבון מוגבל.

עם זאת, אנשים שמנסים לעקוב אחרי השינויים באלגוריתם של גוגל אכן שמו לב שבשנים האחרונות לא מספיק לכתוב רק טקסטים איכותיים עם מילות המפתח הנכונות, אלא הרלוונטיות למה שהמשתמש מחפש חשובה מאוד גם היא. במילים אחרות, אתר שלא יספק את התשובה המדויקות (או כמה שיותר מדויקת) למה שהגולש רוצה למצוא לא יופיע במקום ראשון גם אם מדובר באתר איכותי באופן כללי.

אילו עוד יכולות Rankbrain מעניק לגוגל?

בוודאי יצא לכם לראות לעיתים שגוגל מספק פרטים כללים על להקה, מקום או אישיות מסוימת. דבר זה מתאפשר בין היתר באמצעות הטכנולוגיה של Rankbrain. לרוב המידע מדויק, אך גוגל לא תמיד יודע להצליב מקורות ולכן קורות עדיין טעויות. במקרים המביכים ביותר גוגל עשוי לטעון שאדם מפורסם מת על סמך שמועות או פייק ניוז באתרים מסוימים.

יכולת אחרת, אולי אפילו חשובה יותר היא לתת תשובות ישירות לשאלות שאותן שואל הגולש בלי שהוא כלל יצטרך להיכנס לאתר מסוים. פורמט אחד של התשובות האלו מציג את התשובה בטקסט בולט ופורמט אחר לוקח חלקים מתוך אתרים ומבליט אותם (לעיתים הגולש רואה תשובות מכמה אתרים).

התשובות הבולטות ביותר הן לרוב מוחלטות ולא ניתנות לפרשנות. לדוגמה, “כמה מטרים יש בקילומטר”.

האם Rankbrain עובד באופן זהה בכל השפות?

Rankbrain אומנם השתפר מאוד בשנים האחרונות, אך מכיוון שבכל שפה הקשרים שונים, יכולת העזר שלו אינה אחידה בכל השפות. לדוגמה, אם ניקח את שתי הדוגמאות שהצגנו קודם ונקיש אותן בגוגל ישראל בעברית, לא נקבל תשובות מתאימות, אלא רשימת אתרים סטנדרטים שלא ממש מספקים את התשובה. למעשה, די קשה למצוא דוגמאות בולטות בעברית למעט תשובות פשוטות כמו למשל ערי בירה של מדינות מסוימות שמחזירות בלוק של עובדות על אותה עיר בירה בלי שצריך להיכנס לאתר מסוים. (דוגמה ספציפית היא עיר הבירה של סודן, חרטום).
הסיבה העיקרית לכך היא ככל הנראה ההבדלים באוצר המילים, היחס ביניהן והדקדוק השונה בין עברית לשפות ממשפחות אחרות ופופולאריות יותר כגון אנגלית ושפות אירופאיות שונות. ג’ון מולר, בכיר בגוגל העובד עם בעלי אתרים, השיב בריאיון שהתקיים אתו בסוף 2019 בעת ביקורו בארץ שגוגל אכן לא תמיד מצליחה להבין באותו האופן את כל השפות גם בגיבוי של מערכת למידת מכונה כמו Rankbrain.

כתבה זו היא תוכן מקודם בשיתוף דניאל זריהן.