مقدمة حول استخدام مساحات العمل وبيانات البرنامج العالمي حول الجينات المرتبطة بداء باركنسون GP2
عودة إلى المدونة

مقدمة حول استخدام مساحات العمل وبيانات البرنامج العالمي حول الجينات المرتبطة بداء باركنسون GP2

| , , | المرض المعقد – مجموعة عمل «تحليل البيانات» في GP2 بواسطة
Author(s)
  • المرض المعقد – مجموعة عمل «تحليل البيانات» في GP2

    |

    تمت كتابة هذه المدونة من قبل أعضاء مجموعة عمل تحليل بيانات المرض المعقد في GP2: هامبتون ليونارد، مايك نالز، ييجين سونغ، ودان فيتال

تتم استضافة البيانات التي ينتجها البرنامج العالمي حول الجينات المرتبطة بداء باركنسون GP2 وبرنامج الشراكة من أجل تسريع تطوير أدوية داء باركنسون (AMP®PD) على منصة Terra، وهي منصة سحابية للمعلومات الحيوية تم تطويرها من قبل معهد برود بالتعاون مع كل من مايكروسوفت وفيريلي. تتيح لكم Terra فرصة إجراء التحاليل مباشرةً على المنصة السحابية، بحيث لا تحتاجون إلى تحميل البيانات على حاسوبكم الشخصي. ويمكنّكم ذلك من الالتزام بمعايير متقدمة لحماية البيانات وضمان الخصوصية، ويُسهّل الامتثال لمبادئ العلم المفتوح وإعادة الإنتاج بفضل الرموز والنتائج المنظمة والقابلة للمشاركة. وتدعم Terra نوعين من التحاليل هما: دفاتر ملاحظات Jupyter ولغة ومسارات عمل «ويدل». دفاتر الملاحظات هي وثائق يتم تفكيكها إلى خانات تحتوي على مقاطع من الرموز تمكّنكم من إجراء التحليل بشكل متتابع. وتدعم دفاتر الملاحظات عدداً من اللغات، بما فيها لغة Python، وهي مفيدة لمجموعة من التحاليل مناسبة جداً للعرض البصري والتوثيق. قد تجدون في نهاية المطاف أنكم بحاجة إلى قوة حاسوبية أكبر أو وقت أطول من العمل لإجراء التحاليل بشكل يفوق ما يقدمه دفتر الملاحظات. في هذه الحالة، يمكنكم استخدام مسار عمل Terra كبديل. تم تطوير هذا الخيار باستخدام لغة «ويدل»، والتي يتم تقديمها على شكل مجموعات على أي خادم سحابي. يُعّد استخدام مسارات العمل مفيداً للتحاليل التي تتطلب قوة عالية، مثل تحاليل المواءمة أو دراسات ارتباط الجينات ببعض الأمراض التي تحتوي على كميات كبيرة من العينات.

مثال على هيكلية دفتر الملاحظات

مثال على هيكلية «ويدل»

عندما تحصلون على إذن الدخول إلى بيانات GP2، سوف تتمكّنون من الدخول إلى مساحات عمل Terra الرسمية التابعة لـGP2 أيضاً. سيكون ملف README لأحدث إصدار من بيانات GP2 متوفراً في مساحات عمل المستويين الأول والثاني. نوصي بشدة بقراءة هذا الملف، لأنه يحتوي على شرح لكل الملفات الموجودة في كل إصدار. ننصحكم بزيارة مساحات العمل هذه باستمرار، إذ ستتم استضافة المزيد من الموارد حول الرموز، ودفاتر الملاحظات وسير العمل المتعلقة ببيانات GP2 أثناء تطويرها. لمباشرة العمل عليكم تقديم فكرة مشروع لتتم مراجعتها من قبل GP2. عند الموافقة على الفكرة، سوف تقوم المؤسسة التي تنتمي إليها بإنشاء مشروع ومساحة عمل أو سيقوم GP2 بإنشائها لك. بعد تأسيس مساحة العمل، يُمكنك البدء من خلال إنشاء دفتر ملاحظات جديد للتحليل الخاص بك. سوف تحتاجون إلى إنشاء بيئة سحابية للعمل على دفتر ملاحظاتكم. يُمكنكم تعديل البيئة السحابية لتناسب احتياجاتكم، ولكن إن كنتم تخططون لاستخدام بيانات GP2 حول المرض المعقد، عليكم التأكد من طلب مساحة تخزين دائمة لا تقل عن 100 جيجابايت، لضمان وجود مساحة كافية للتعامل مع 82 جيجابايت من البيانات، ابتداءً من إصدار 2.0. بإمكانكم تجريب مختلف الخيارات المتاحة لتحديد الأفضل بالنسبة لكم، ولكن تذكروا بأنه كلما استخدمتم المزيد من الموارد، كلما زادت التكلفة.

مثال على البيئة السحابية

عندما تنجحون في تشغيل بيئتكم السحابية وإنشاء دفتر ملاحظات جديد، ستصبحوا مستعدين لبدء التحليل الخاص بكم. ومن أجل إنشاء دفتر ملاحظاتكم، قد ترغبون في الاستفادة من بعض الحزم المفيدة والخيارات المتوفرة أدناه وعلى مساحات عمل GP2 الرسمية.

حزم مفيدة

إنشاء البيئة

من أجل الاطلاع على البيانات المتوفرة ونقل البيانات من السحابة إلى مساحة العمل الخاصة بكم، سوف تستخدمون حزمة أدوات gsutil. على سبيل المثال، من أجل الحصول على قائمة بالبيانات المتوفرة في المستوى الثاني من بيانات GP2، يُمكنكم استخدام أمر كهذا إذ يعمل على تعداد كل الملفات المتوفرة في مجلد الإصدار الثاني يمكنكم تغيير المسارات للاطلاع على كل دليل، فإذا قمتم مثلاً بتغيير المسار إلى هذا الخيار فسوف يعدّد المجلدات لكل البيانات المصنفة بحسب النماذج الوراثية والمقسمة بحسب السلالة المتوقعة وعندما تتخذون قراراً بشأن الملفات التي تحتاجونها، يُمكنكم نسخها إلى مساحة العمل الخاصة بكم كالتالي: أولاً، أنشئوا دليلاً لتنسخوا الملفات إليه. ومن ثم انسخوا الملفات إلى دليلكم الجديد. في هذا المثال، نقوم بنسخ ملخص إحصائيات داء باركنسون من «نولز وآخرون». 2019 بدون بيانات 23 وأنا. تأكدوا من نسخ كل شيء بطريقة صحيحة من خلال مراجعة الملف: ها هي بياناتكم جاهزة للتحليل!


هذا مثال مختصر حول كيفية استخدام مساحات العمل ودفاتر الملاحظات للعمل على بيانات GP2. للاطلاع على دليل إرشادي أكثر تفصيلاً، يُرجى الاطلاع على نظام إدارة التعلم في GP2وأكملوا دراسة «المساق 1: استخدام Terra للوصول إلى البيانات وإجراء التحليلات».