Sci - nature wiki

تيرا تخلص من ألم الحوسبة “omics” في السحابة

0

تنتج الأبحاث الطبية الحيوية كميات هائلة من البيانات. لكن في الواقع يمكن أن تكون مشاركتها تحديًا.

تقول إلينور كارلسون ، عالمة الوراثة في كلية الطب بجامعة ماساتشوستس في ووستر: “لا يهم مدى حماسك بشأن مشاركة البيانات ، فإن مشاركة البيانات في الواقع أمر مؤلم من الناحية اللوجستية”.

كارلسون هو قائد مشارك في جوهر علم الوراثة لمشروع شيخوخة الكلاب ، وهي دراسة طولية تمولها المعاهد الوطنية للصحة بالولايات المتحدة (NIH) ، وتهدف إلى فهم جينات الشيخوخة الصحية من خلال تحليل عدة آلاف من تسلسل الجينوم والبيانات الصحية من 100،000 حيوان أليف.

يتضمن المشروع باحثين من مؤسسات متعددة ، يحتاجون جميعًا إلى أن يكونوا قادرين على الوصول إلى البيانات وتحليلها. يقول كارلسون إن استراتيجيات مشاركة البيانات التقليدية – مثل الخوادم المشتركة وتنزيل البيانات وحتى شحن محركات الأقراص الفعلية – لم تكن على مستوى المهمة.

يعني التقدم في تسلسل الحمض النووي أنه من الأسهل بكثير جمع البيانات الجينية بدلاً من تحليلها. مع تضخم مجموعات البيانات ، يقول كارلسون ، “لقد تحولنا من كون نسخ البيانات إلى الخادم الخاص بي غير مريح ، إلى كونها باهظة التكلفة. لم يكن لدى المؤسسات الموارد اللازمة لمواكبة ذلك “.

لذلك تحول المشروع إلى نظام يمكنه: Terra.

بدأت Terra حياتها كخدمة تسمى FireCloud. تم تطويره من قبل فريق Data Services Platform (DSP) في معهد برود التابع لمعهد ماساتشوستس للتكنولوجيا وجامعة هارفارد في كامبريدج ، ماساتشوستس. في عام 2019 ، تمت إعادة تسميته وضمه إلى مختبر التحليل والتصور والمعلوماتية التابع للمعهد الوطني لأبحاث الجينوم البشري (AnVIL). توفر واجهة Terra المستندة إلى الويب وصولاً سهل الاستخدام إلى تدفقات عمل قابلة للتطوير وأدوات التعاون والتحليل. يسمح للباحثين بدمج مجموعات بيانات “omics” الضخمة وتحليلها بشكل سريع على Google Cloud Platform. بدلاً من إجبار الباحثين على البحث عن البيانات وتنزيلها لتحليلها محليًا ، تتيح لهم Terra العمل على البيانات فى الموقع، باستخدام قدر كبير أو ضئيل من قوة الحوسبة التي يحتاجون إليها.

“يتعلق الأمر حقًا بزيادة الوصول والانهيار [data kept in separate] يقول جيرالدين فان دير أويرا ، مدير الاتصالات في DSP في معهد برود: “صوامع بحيث يمكنك القيام بمزيد من العلوم الشيقة باستخدام البيانات التي يتم إنشاؤها”. توفر Terra الوصول إلى مجموعات البيانات مثل أطلس جينوم السرطان ، وقاعدة بيانات تجميع الجينوم ، وبرنامج All of Us Research ، والذي يضم آخرها حوالي 3.7 بيتابايت فقط. يمكن للمستخدمين أيضًا تحميل بياناتهم الخاصة ؛ يقتصر الوصول إلى المعلومات “الحساسة” (التي تحدد الهوية الشخصية) على الأشخاص الحاصلين على التفويض المناسب.

يمكن استخدام Terra في وضع “الدُفعات” ، وتشغيل البرامج النصية المكتوبة بلغة وصف سير العمل (أداة لتحديد تدفقات عمل معالجة البيانات) لدفع أي شيء من واحد إلى عشرات الآلاف من أجهزة الكمبيوتر الافتراضية. بدلاً من ذلك ، يمكن للباحثين استكشاف البيانات بشكل تفاعلي باستخدام أدوات مثل Jupyter Notebook و RStudio ومحرك سير العمل الرسومي Galaxy.

كان مايكل شاتز ، عالم الأحياء الحسابية في جامعة جونز هوبكنز في بالتيمور بولاية ماريلاند ، جزءًا من فريق استخدم Terra ومكونات AnVIL الأخرى لمعالجة البيانات لاتحاد Telomere-to-Telomere ، والذي وثق في مايو 2021 أول تجمع خالٍ من الفجوات من الجينوم البشري. يضيف هذا التجميع حوالي 200 مليون زوج أساسي من الحمض النووي إلى الجينوم البشري ، واستخدمه اتحاد Telomere-to-Telomere للبحث عن متغيرات في 3202 جينوم تم تسلسلها كجزء من مشروع 1000 جينوم. مجموعة الحوسبة داخل مركز ماريلاند للأبحاث المتقدمة للحوسبة (MARCC) في بالتيمور ، وهي منشأة عالية الأداء بملايين الدولارات ، كانت ستحتاج إلى ما يصل إلى عام لإجراء تلك التحليلات ، حسب تقديرات شاتز. لكن استخدام Terra استغرق أسابيع فقط ، بما في ذلك وقت التحسين. يقول: “إذا اضطررنا إلى القيام بذلك مرة أخرى ، فمن المحتمل أن نتمكن من إنجاز كل شيء في غضون أسبوع تقريبًا”.

بالنسبة إلى Karlsson ، تعمل Terra على تسهيل الوصول إلى البيانات ومشكلات التعاون. قامت طالبة الدكتوراه ، كاثلين موريل ، بإنشاء نصوص لأتمتة تحميل وتحليل مجموعات البيانات الجديدة ، على سبيل المثال لتحديد جنس الحيوانات المتسلسلة. يمكن للباحثين الذين يرغبون في استكشاف هذه البيانات بشكل أكبر تسجيل الدخول ببساطة ونسخ مساحة العمل المشتركة الخاصة بها والبدء في العمل. يقول موريل: “في المختبر المادي ، ستجعل بياناتك قابلة لإعادة الإنتاج من خلال دفتر ملاحظاتك المعملي”. “من خلال إجراء التحليل على السحابة في مساحات عمل Terra هذه ، يصبح من السهل تتبعها ومشاركتها وإعادة إنتاجها.”

سي. تيتوس براون ، عالم المعلومات الحيوية بجامعة كاليفورنيا ، ديفيس ، وفريقه يقومون بإنشاء برامج تعليمية لـ Terra كجزء من عملهم في النظام البيئي لبيانات الصندوق المشترك للمعاهد الوطنية للصحة ، وهي مبادرة لإعادة استخدام البيانات. على الرغم من أنه وجد النظام الأساسي واعدًا ، إلا أن براون يحذر من أن الحوسبة السحابية لا تزال جديدة ، ويقول إنها ستمضي بعض الوقت قبل أن تصبح الخيار الأفضل للجميع. ويوضح قائلاً: “هناك منحنى تبني تكنولوجي ، وما زلنا [in the] مراحل مبكرة جدا “. قليل من العلماء مرتاحون للعمل في السحابة ، حتى مع واجهة Terra سهلة الاستخدام نسبيًا. والباحثون والمؤسسات أكثر دراية بشراء أجهزة الكمبيوتر من تأجير الوقت عليها.

ثم هناك حقيقة أن تكلفة الحوسبة السحابية يمكن أن تكون مبهمة. يتذكر ألكساندر بيك ، عالم الوراثة البشرية في المركز الطبي بجامعة فاندربيلت في ناشفيل بولاية تينيسي ، طالبًا أفرط عن غير قصد في طلب موارد الحوسبة على Terra ، وحصل على علامة تبويب بقيمة 500 دولار أمريكي لوظيفة كان من المفترض أن تكلف 5 دولارات فقط. يقول: “لقد كانت من بين أغلى السباقات التي حصلنا عليها”. لكنه يشير أيضًا إلى أنه يمكن مقارنته بإهدار قارورة من الأجسام المضادة. “انها كلها مرتبطة.”

ينصح شاتز بالبدء على نطاق صغير ، على سبيل المثال عن طريق تحليل بعض العينات لتقييم التكلفة لكل عينة ، ثم التوسع. أنشئ جدران حماية حتى لا تستنفد عمليات سير العمل المكثفة ميزانيتك. وحسّن سير عملك ، كما يضيف رايان كولينز ، عالم الوراثة الحاسوبية وطالب الدكتوراه في كلية الطب بجامعة هارفارد في بوسطن. “كل غيغا بايت إضافية من ذاكرة الوصول العشوائي التي تطلبها ستترجم مباشرةً إلى تكلفة ستتم إعادتها إليك” ، كما يقول.

يسرد موقع Terra على الويب مساحات العمل التي تجمع مهام سير عمل مختلفة مع بيانات النموذج ، بما في ذلك تفاصيل التسعير لمساعدة المستخدمين على تقدير تكلفة بياناتهم الخاصة. يقول فان دير أويرا إنه تم إنشاء حوالي 56 مساحة عمل مميزة من هذا القبيل ، بما في ذلك اثنان من مشروع Human Cell Atlas.

بالنسبة إلى Brown ، تتألق Terra عند التعامل مع البيانات الحساسة أو الكبيرة للغاية. يلاحظ أن قواعد الخصوصية تمنع العمل مع البيانات الصحية الحساسة على الأنظمة غير الآمنة. وقد يكون تنزيل البيانات من السحابة مكلفًا ، حيث تكلف بعض مجموعات البيانات عشرات الآلاف من الدولارات للتنزيل بسبب حجمها. “إذا كان بإمكانك بدلاً من ذلك إنفاق 3000 دولار على Terra للقيام بالحوسبة الخاصة بك ، فمن الواضح أن هذا فوز.”

إلى جانب ذلك ، لا يوجد في كثير من الحالات خيار عملي آخر ، كما يشير كارلسون ، حتى بالنسبة للمؤسسات ذات موارد الحوسبة المحلية عالية الأداء. لا تزال المجموعات المحلية القوية ، مثل MARCC ، تعاني من مجموعات بيانات الجينوم الحديثة. “سواء أكانت Terra أو أي شيء آخر ، فنحن بحاجة إلى شيء ما للوصول إلى هذه البيئة الضخمة من البيانات” ، كما تقول.

Leave A Reply

Your email address will not be published.