איך מורידים זמן העברת נתונים גנומיים משש שנים למספר חודשים?

במרכז לחקר הסרטן של בית החולים שיבא (SCRC) חשבו שהתהליך של העברת 300 טרה-בייט של נתונים שנדרשו לצורך קידום המחקר שלהם יקח זמן סביר והתפלאו לראות שמדובר ב-43,800 שעות. אנשי מחב"א הצליחו להקים עבורם קו תקשורת של ג'יגה שאיפשר להם להעביר 4-6 טרהבייט ליום, ולהספיק לנתח את המחקר בתוך 100 ימים

מיחשוב ברפואה. איור shutterstock
מיחשוב ברפואה. איור shutterstock

במרכז לחקר הסרטן של בית החולים שיבא (SCRC) חשבו שהתהליך של העברת 300 טרה-בייט של נתונים שנדרשו לצורך קידום המחקר שלהם, מה- Genomic Data Commons Data Portal של המוסד הלאומי לחקר הסרטן (National Cancer institute ) של ארה"ב בשיקגו לאחסון מקומי, יהיה פשוט יחסית.

החוקרים ב-SCRC רכשו את המשאבים הדרושים ממרכז הנתונים של שיבא, פתחו חשבונות בפורטל הנתונים של GDC , קיבלו אישור גישה למאגרי המידע, התקינו את תוכנת הלקוח ולחצו על ENTER. ואז הם הופתעו לקבל את ההודעה הבאה: "ההורדה שלכם תמשך כ- 43,800 שעות". ייתכן שהשפה המדויקת של ההודעה הייתה קצת שונה, אבל המסר היה ברור: תשתית הרשת הקיימת לא תעמוד במשימה.

המרכז לחקר הסרטן בשיבא, המזוהה עם בית הספר לרפואה ע"ש סאקלר, הוקם ע"י פרופ' גדעון (גידי) רכבי שגם עומד בראשו. המרכז נודע כמעבדת מחקר חלוצית, שאינו נרתע מאתגרים טכנולוגיים.

פרופ' רכבי הוא לא רק חוקר בעל שם עולמי בתחום התמחותו: זיהוי התפקיד של אלמנטים גנטיים בהפעלת גנים הגורמים לסרטן ופענוח שינויים ב-RNA. הוא ידוע גם כבעל יוזמה בכל הנוגע לטכנולוגיה וכמי שמתעקש לעמוד בחזית הטכנולוגיה המאפשרת מחקר מתקדם בתחום הסרטן. החזון הזה מבטיח שה- SCRC יהיהמצויד בטכנולוגיות הנחוצות על מנת לאפשר פענוח מנגנונים גנטיים ואפיגנטיים המשפיעים על ביטוי גנים, ואת השפעתם על מחלת הסרטן. תחת הנהגתו, ה-SCRC היה מתקן המחקר הראשון בישראל שרכש טכנולוגיות microarray DNA מהדור הבא (NGS). פרופ' רכבי גם דאג לרכישת שטח אחסון מספיק כדי לעמוד במטרה השאפתנית של הורדת מערכי הנתונים של ה- GDC.

על מנת לבצע את העברת הנתונים, ד"ר ערן אייל, ראש הביואינפורמטיקה שלה- SCRC וצוותו החלו לחשוב מחוץ לקופסה. הרבה מחוץ לקופסה. "התיעצנו עם מחלקת ה-IT של שיבא ועם ספקי האינטרנט המסחריים", אומר ערן. "אבל לא היה להם פתרון מעשי. אפילו בחנו את האפשרות לנסוע מישראל למתקן NIH בשיקגו עם דיסקים במזוודות כדי להביא את הנתונים בחזרה לישראל. אבל העלות של נסיעה כזו היו גבוהות מדי. וצוות ה- NIH מעולם לא נתקל במעבדה שרצתה לעשות זאת".

רשת המו"פ של ישראל: הפתרון המסייע

פרופ' גדעון רכבי
פרופ' גדעון רכבי

צוות הפורטל של GDC הוא שהוביל אותם להתייעצות עם המרכז החישובים הבינאוניברסיטאי (מחב"א) – הרשת הלאומית למחקר ולחינוך (NREN) של ישראל. ערן יצר קשר עם הנק נוסבכר, מנהל תשתית רשת ומחשוב של מחב"א. שיבא כבר נעזר בשירותי מחב"א עבור יישום tele-medicine. אבל יישום זה לא דרש קישור או מהירות דומה למה שנדרש להעביר 300 טרה-בייט בצורה יעילה ומאובטחת.

הנק הציע קו של גיגה ביט לשנייה ייעודי בין מחב"א ו-SCRC באמצעות תשתית של מוביל קיים. הוא יצר קשר עם צוות ה-GDC, בדק את היישום על מנת לוודא שהוא פועל ושהקשר מישראל יוכל להתמודד עם עומס מתמשך של גיגה בייט לשנייה. באוקטובר 2017, הקו עבר את הבדיקות והוכנס לפעולה. "ההערכות הראשוניות הצביעו על כך שמה שהיה קודם לכן תהליך הורדה רב-שנתי מאוד לא-ישים, הפך להיות פרויקט מעשי מאוד שיערך כשלושה חודשים", נזכר ערן. "עכשיו שאנחנו רואים כמה טוב הפתרון עובד, אנו שוקלים להרחיב את היקף הפרויקט ולנסות להשיג עוד נתונים."

לדברי ד"ר ניצן קול ועמרי ניישול, חוקרי SCRC המטפלים בפועל בהעברה, הקונפיגורציה של המערכות של שיבא וה-NIH אינה מאפשרת להגיע בפועל למהירות האולטימטיבית של גיגה בייט לשנייה, אבל היא עדיין עונה על הצרכים של המשימה. "תשתית ה-TCP של ה-GDC בהחלט אינה אידיאלית. אנו רואים פסגות של כ-800 מגה בייט לשנייה וכמו כן שפלים של כ-600 מגה בייט לשנייה. אבל בסופו של דבר אנו מגיעים לבין 4 עד 6 טרה בייט ליום. די כדי לאפשר לנו להעביר את ה-300 טרה-בייט במסגרת הזמן המתוכננת ".

מחקר להשבת התקווה

ה-SCRC מתמקד כיום בשלושה תחומים עיקריים: שינויי RNA ותפקידם בהסדרת ביטוי גנים וגורל התא; מחקר של transposable genetic elements (TE(, הידוע גם בשם "גנים קופצים" או רצפי DNA העוברים ממקום אחד על הגנום לאחר; ואת הרצף הגנומי עבור רפואה מותאמת אישית. נתוני GDC חיוניים למחקר של TEs ולרצף גנום שלם של תת-קבוצות ספציפיות של חולי סרטן, מאחר והם כרוכים במערכי נתונים וניתוח עצומים.

בשל אופי ערכות הנתונים של GDC, אין שאלה של הישנות הנתונים לאורך זמן. "סוג זה של נתונים אינו הופך להיות 'מיושן'", אומר פרופ' רכבי. "הבעיה היחידה, עכשיו כשיש לנו דרך להעביר את הנתונים הודות למחב"א, הופכת להיות שאלה של קיבולת. ככל שאנו רוצים לקבל יותר נתונים, צריכים יותר שטח אחסון. זה עניין של איזון משאבים ". הרלוונטיות והתועלת של הנתונים חורגים מעבר למחקר במרכז בשיבא, ויש להם פוטנציאל להיות כלי חשוב במחקר הסרטן המתרחש בכל רחבי הארץ. "באופן עקרוני", אומר פרופ' רכבי, "SCRC ישמח לשתף את הנתונים הגנומיים שהם זמינים לציבור שהורדו בהיקף הפרויקט הזה."

https://www.inthefieldstories.net/delivering-the-data-for-groundbreaking-cancer-research/

שיתוף ב print
שיתוף ב email
שיתוף ב whatsapp
שיתוף ב linkedin
שיתוף ב twitter
שיתוף ב facebook

3 תגובות

  1. 2 כרטיסי טיסה לארה"ב + 30 דיסקים 3.5" בנפח 10TB + שלושה ימים = כל החומר בארץ בצורה מאובטחת ומהירה

  2. אני לא מבין כל ההתעסקות ואף אחד לא בדק את השירות של אמזון???
    יש שירות מעולה של אמזון להעברת נתונים… הוא נקרא AWS SnowBall
    לפי מה שבדקתי זה אמור לעלות קצת יותר 10K והם הם מבצעים הכל מאובטח ומהיר.
    והרבה יותר מהיר מ100 יום ולא צריך לדבר עם אלף איש והתיעצויות מחוץ לקופסא…נו באמת.

    מעניין כמה על כל העסק הזה…

כתיבת תגובה

האימייל לא יוצג באתר.

דילוג לתוכן