חוקרים פיתחו אלגוריתם המאפשר למצוא שם משפחה של גבר על סמך מידע גנטי מכרומוזום Y. כיצד הצליחו לזהות משפחה על פי כרומוזומי Y של בניה, האם פרסום מידע גנטי באינטרנט מסוכן ומה התועלת במאגר כזה?
עמוס לבב, גלילאו
החוקרים הצליחו להתחקות אחר שמו ומיקומו של אדם מסוים לפי שילוב של כרומוזום Y שלו, גילו והעובדה שהוא מתגורר בקליפורניה
חוקרים ישראלים ממכון וויטהד, בוסטון, ומאוניברסיטת תל-אביב פיתחו אלגוריתם המאפשר למצוא שם משפחה של גבר על סמך מידע גנטי בכרומוזום Y . למחקר עשויות להיות השלכות משמעותיות בנושא של פרטיות המידע. המחקר פורסם בכתב-העת Science.
שושלת Y
"מאז שהתפתחה היכולת לרצף את הגנום האנושי, מבקשים אנשים רבים להתחקות אחר השושלת הגנטית שלהם", מסביר פרופ' ערן הלפרין, מבית הספר למדעי המחשב ומהמחלקה למיקרוביולוגיה וביוטכנולוגיה באוניברסיטת תל-אביב. "כדי לענות על הצורך, קמו בארצות-הברית חברות שנוטלות מהמעוניינים דגימות רוק, ומעלות את הגנום האישי שלהם למאגרי נתונים הפתוחים לציבור. אנחנו נעזרנו במאגרים אלה כדי לבחון השתייכות משפחתית על פי כרומוזום Y – כרומוזום המין הזכרי. כרומוזום Y התאים במיוחד למחקר שלנו, מכיוון שהוא עובר מאב לבנו לאורך הדורות (עם שינויים קלים הנובעים ממוטציות), ולכן – ממש כמו שם המשפחה – הוא משותף למעשה לכל הגברים במשפחה המורחבת."
המחקר המקורי – פרי יוזמה של ד"ר יניב ארליך ממכון ווייטהד למחקר ביו-רפואי שבבוסטון, ובהשתתפות פרופ' הלפרין והדוקטורנט דוד גולן מהמחלקה לסטטיסטיקה באוניברסיטת תל-אביב – התמקד בבניית אלגוריתם ממוחשב, שיידע לקבוע את שם משפחתו של אדם אך ורק על פי נתוני כרומוזוםY שלו. האלגוריתם מתבסס על מיפוי של מקטעים מיוחדים בגנום שנקראים STR`s (Short Tandem Repeats). הגנום, כידוע, הוא רצף ארוך המורכב מארבעה נוקליאוטידים, המסומנים באותיות A,C,G ו-T. STR הוא רצף שבנוי מכמה חזרות של רצף בסיסי קצר יותר, למשל ACTACTACTACT – ארבע חזרות של הרצף הבסיסי ACT. בגלל המבנה המיוחד של ה-STR`s, מספר החזרות של כל STR נוטה להשתנות בין דור לדור.
שינוי כזה נקרא מוטציה, וקצב המוטציה של STR`s גבוה במיוחד בהשוואה לסוגי מוטציות אחרות בגנום. כמה עשרות STR`s כאלו נמצאים על כרומוזום Y – כרומוזום המין הזכרי, הנמצא אך ורק אצל זכרים, ועובר בשלמותו מאב לבן. למעשה, בדיקות אבהות (לגבי בנים) בין ילד לאב ביולוגי משוער מבוססות על השוואת STR`s שנמצאים על כרומוזום Y. קצב המוטציה של ה-STR`s מספיק גבוה כדי לזהות אם מדובר אכן באב הביולוגי.
בהינתן הגנום של אדם אנונימי כלשהו, האלגוריתם ממפה את הSTR`s- על כרומוזום Y, ואז בודק את התוצאות מול מאגרי הנתונים המקוונים, במטרה למצוא קרובי משפחה. אם נמצאה התאמה באיכות מספקת, אפשר להסיק כי שני הפרטים הם קרובי משפחה מצד האב, והאלגוריתם קובע כי שם המשפחה של האדם האנונימי זהה לשם המשפחה שנמצא במאגר.
האלגוריתם המיוחד נבחן על מדגם של 900 גברים בארצות-הברית. נתוני כרומוזוםY של המשתתפים הוצגו למאגר אינטרנטי ובו גנומים מרוצפים של 135 אלף בני אדם – שמהווים ייצוג נאמן להתפלגות שמות המשפחה בארצות-הברית, בעיקר לכאלה ממוצא אירופי. כעיקרון, האלגוריתם אינו מוגבל למוצא מסוים, אולם כיום מרבית הגנומים הזמינים הם של אנשים ממוצא אירופי. נוסף על כך, עקב מגוון סיבות היסטוריות, חברתיות וכלכליות, מאגרי המידע של החברות שמציעות בדיקות גנטיות כאלו מוטים לטובת אוכלוסיות אירופיות, וזאת הסיבה לכך שהדגמת יכולת הפעולה של האלגוריתם נעשתה על אנשים ממוצא זה.
"האלגוריתם זיהה במדויק את שם המשפחה של אחד מכל שמונה נבדקים", אומר פרופ' הלפרין. כלומר, עבור אחד מכל שמונה נבדקים נמצאה התאמה באיכות גבוהה בין כרומוזוםY של הנבדק לכרומוזוםY שנמצא במאגר, וכן שמות המשפחה של הנבדק והאדם במאגר היו זהים. עבור רוב הנבדקים האחרים, האלגוריתם הכריז כי הוא "לא יודע" את שם המשפחה.
במקרה אחר הצליחו החוקרים להתחקות אחר שמו ואחר מיקומו של אדם מסוים על פי שילוב של כרומוזוםY שלו, גילו, והעובדה שהוא מתגורר בקליפורניה. כך, לדוגמה, הם הציגו לאלגוריתם את נתוני כרומוזוםY של הגנטיקאי הידוע קרייג ונטר (Venter), שפרסם את כל הגנום שלו ברשת. האלגוריתם זיהה את שם המשפחה, ולאחר הצלבת השם עם נתונים נוספים – גילו של ונטר והעובדה שהוא מתגורר בקליפורניה – צומצם החיפוש לשני אנשים בלבד. כמו כן הצליחו החוקרים לזהות כמעט בוודאות משפחה מורמונית גדולה מיוטה, על פי כרומוזומי Y של בניה.
מידע בשרות המדע
"לטכניקת הזיהוי שפיתחנו יכולים להיות לא מעט שימושים מועילים, כמו איתור קרובים, זיהוי גופות באסונות טבע ועוד", אומר פרופ' הלפרין. "עם זאת, המחקר שלנו חשף בעיה מהותית שדורשת התייחסות: אם אדם מפרסם את הגנום שלו באינטרנט, גם כשהדבר נעשה בעילום שם, זהותו חשופה למדי. וצריך לזכור שאנחנו בדקנו כרומוזום אחד בלבד מתוך כלל המידע הגנטי, שכולל עוד 22 זוגות כרומוזומים וכרומוזם X. ההתמקדות בכרומוזום Y נובעת מהקשר המיוחד שלו לשם משפחה (גם כרומוזום Y וגם שם משפחה עוברים – ברוב החברות – מאב לבן)."
"למרות זאת חשוב לציין כי אנו רואים בחיוב את שיתוף המידע הגנטי במסדי מידע ציבוריים, בהסכמה כמובן. שיתוף המידע חיוני לקידום המדע, ויש יתרונות רבים למשתמשים בשירותים אלו. ואולם, חשוב שכל הגופים הקשורים לשיתוף המידע, כולל האנשים שנתוניהם נמצאים במסדי המידע, המדענים, והגופים המפרסמים את המידע, יהיו מודעים לאופי החשיפה ויפעילו את שיקוליהם בהתאם."
ד"ר יניב ארליך מציין כי "מסקנה מתבקשת מהמחקר שלנו היא שמאגרים ביומטריים יכולים ליצור מצבים בלתי צפויים. לדוגמה, מי חשב ששמות משפחה יכולים להתגלות ממידע גנטי? לכן אנו מאמינים שמחוקקים צריכים לנקוט במשנה זהירות כאשר הם מתכננים להקים מאגרים שכאלו."