فهم دراسات ارتباط الجينوم ببعض الأمراض GWAS: الجزء الثاني-أفكار ونصائح إضافية

مايو 24, 2021

بواسطة المرض المعقد - مجموعة عمل «تحليل البيانات» في GP2

A visual representation of running Genome-Wide Association Studies data.

⁩في آخر ⁧⁩⁧⁩⁧⁩مدونة لنا⁧⁩⁧⁩⁧⁩عرضنا مقدمة لدراسات ارتباط الجينوم ببعض الأمراض، بما يشمل المعادلات الإحصائية، وتدفقات العمل، وأمثلة من آخر الدراسات حول ارتباط الجينوم بداء باركنسون. والآن، نريد أن نقدم لكم أفكاراً جديدة ونصائح لكي تقوموا أنتم بدراساتكم الخاصة حول ارتباط الجينوم ببعض الأمراض.⁧⁩ ⁧⁩ضبط الجودة وعمليات التنسيب.⁧

  • ⁩نماذج وراثية ذات جودة عالية (غير متناوبة، أي لا يوجد A/T, G/C إن أمكن، مع علامة عالية لـ Illumina Gentrain كمؤشر على جودة الكتلة) مع تدني للفقدان (أقل من 1% لكل عينة ويفضل لكل النوكليوتيدات المفردة متعددة الأشكال SNP).⁧
  • ⁩تركز بشكل عام على تردد الأليل الشائع وقليل الأثر أقل من 1%، أو حتى أقل ونأمل أن تبدو تجمعات النماذج الوراثية جيدة (يجب فحصها).⁧
  • ⁩افحصوا عينات المستويات العالية من تغاير الزيجوت heterozygosity، لأن هذا يمكن أن يكون مؤشرا على التلوث. قد تكون هناك إشكالية أيضاً في المستويات المتدنية من تغاير الزيجوت.⁧
  • ⁩انتبهوا لتكرار العينات والعينات المرتبطة بالشيفرة.⁧
  • ⁩تأكدوا من العيّنات وقسموها خوارزمياً حسب الأصول الجينية (نستخدم خليطاً من ⁧⁩⁧⁩⁧⁩fastStructure ⁧⁩⁧⁩⁧⁩و ⁧⁩⁧⁩⁧⁩flashPCA⁧⁩⁧⁩⁧⁩). لنعظّم التنوع ولكن توخوا الحذر من الهياكل الفرعية للمجموعات السكانية وتأثيرها على نتائج التحاليل.⁧
  • ⁩افحصوا النوكليوتيدات المفردة متعددة الأشكال غير المفقودة بالصدفة، بما يشمل انحياز للفقدان حسب الحالة:ضبط الوضع أو المحددات الجينية في الكروموزوم الواحد.⁧
  • ⁩لا يوجد ما يمنع استخدام عدة لوحات مرجعية إسنادية لمجموعة سكانية واحدة واستخدام النموذج الوراثي الناتج مع أفضل المقاييس جودة. وهذا مفيد بشكل خاص في حالة السكان ذوي العيّنات مختلطة.⁧

⁩نصائح حول التحاليل على مستوى الدراسة⁧⁩⁧⁩ ⁧

  • ⁩الانتكاس- تستخدم الدراسات حول ارتباط الجينات ببعض الأمراض نماذج خطية للانتكاس للحصول على مخرجات مستمرة ولوجستيات المخرجات المنعزلة. وتحسب المخاطر في النوكليوتيدات المفردة متعددة الأشكال في خضم احتساب التباينات المشتركة.⁧
  • ⁩هناك عدد من رزم البرمجيات التي يمكن استخدامها لعرض نماذج خطية مختلطة، وهذه النماذج يمكن أن تأخذ بعين الاعتبار الارتباطية والهياكل الفرعية الدقيقة للسكان.⁧
  • ⁩العناصر الرئيسية- احتساب عبء العناصر الرئيسية بناء على بيانات الأنماط الجينية واسعة النطاق يوفر مجموعة مفيدة من التباينات المشتركة للنماذج الانتكاسية الخاصة بكم، بما يتيح لكم أخذ الهياكل الفرعية السكانية بعين الاعتبار بشكل فعّال.⁧

⁩والآن لنقم بتحليل ميتا meta analyze⁧⁩⁧⁩ ⁧

  • ⁩الثابت مقابل العشوائي-تلك هي أساليب للتحليل الميتا من أجل دمج البيانات على مستوى ملخص إحصائي، عبر مستودعات البيانات و/أو المنشورات. غالباً ما تكون تحاليل الميتا الثابتة مفيدة للتحاليل الاستكشافية وفي الغالب تكون أقوى، مع أن بعضنا يفضل نماذج التأثير العشوائية لأنها محافظة أكثر وتأخذ بعين الاعتبار اختلاف الخصائص عبر مستودعات البيانات.⁧
  • ⁩تقديرات اختلاف الخصائص-غالباً ما يتم التعبير عنها كـ Cochrane’s Q or I2. وتُعّد هامة جداً لأنها تعطي فكرة عن التحيز في التعامل مع القيم المتطرفة وإمكانية تعميم النتائج.⁧

⁩نتائج التمحيص⁧⁩⁧⁩ ⁧

  • ⁩مستويات لامدا للدراسة – يجب أن تكون ما بين 0.95 و 1.05، كل ما عدا ذلك يعني أن لديك مشكلة.⁧
  • ⁩لامدا الاجمالية ولامدا 1000-احتساب اللامدا إما على مستوى الدراسة أو التحليل الميتا يمكن أن يكون محفوفاً بالمخاطر حين يكون لديك حالة: اضبط الاختلالات. إن وجود فائض كبير من الضوابط يمكن أن ينتج تضخماً مصطنعاً في إحصائيات لامدا. في هذه الحالة، استخدموا لامدا 1000 مكبرة على 1000 حالة و1000 ضوابط. مرة ثانية، الشيفرة لذلك موجودة في مستودع GitHub.⁧
  • ⁩اختلال الارتباطات (LD) في تقاطع النتيجة -بديل/مكمل لامدا وأكثر صرامة لهيكلية LD والحالة: ضبط الاختلالات.⁧
  • ⁩تصل LD إلى الذروة في الرسمات التي تظهر التجانس-وهذا واضح، يجب رسم نتائجكم لتبدو مثل عمارات مانهاتن (أو اي مدينة أخرى من اختياركم، مثلا واشنطن العاصمة) وليس عاصفة ثلجية.⁧
  • ⁩التكرار- دوماً جيد ولكن أحياناً قد لا تكون لديك مجموعات البيانات المتاحة. حين لا تكون البيانات الإضافية متاحة، جربوا خليطاً من تحليل-الميتا-ناقص-واحد والتحقق-المتبادل.⁧

⁩بعض التحاليل ما بعد دراسات ارتباط الجينوم ببعض الأمراض⁧⁩⁧⁩ ⁧

  • ⁩أو «ما الذي يجب القيام به حال الانتهاء من تحليل الميتا لدراسات ارتباط الجينوم ببعض الأمراض.» تذكروا بأن البرنامج العالمي GP2 سوف يوفر مزيداً من المدونات والمساقات حول هذه المواضيع.⁧
  • ⁩التحليل المشروط-استخدموا أهم النوكليوتيدات المفردة متعددة الأشكال في المنطقة لفحص التباين المشترك وكرروا التحليل أو استخدموا أداة مثل ⁧⁩⁧⁩⁧⁩GCTA⁧⁩⁧⁩⁧⁩. قد تجدون إشارات مستقلة متعددة لكل موضع.⁧
  • ⁩الترسيم الدقيق-يمكن القيام بذلك من خلال تحليل تقريبي لعنصر بايز في رزم مثل ⁧⁩⁧⁩⁧⁩coloc ⁧⁩⁧⁩⁧⁩بما يشمل التموضع المشترك البايزي (باستخدام البيانات المرجعية الجينومية لتعابير الجينات أو مقاييس مشابهة).⁧
  • ⁩أوزان التنبؤ وTWAS-مجموعة متنوعة من الرزم متاحة لاستخدام الأوزان الخارجية من التعابير الجينية، إضافة مجموعة ميثيل، أو دراسات الكروماتين، الخ. وذلك لتحديد الجينات التي يفترض ارتباطها الميكانيكي ببعضها البعض المختبئة في بيانات دراسات ارتباط الجينوم ببعض الأمراض.⁧
  • ⁩التعلم الآلي- تنبؤات لهدف محدد، رزمتنا المفضلة هي ⁧⁩⁧⁩⁧⁩GenoML ⁧⁩⁧⁩⁧⁩لأنها مؤتمتة بالأغلب وتسهل من التعلم الآلي في علم المجين.⁧

⁩للمزيد من المعلومات يمكنكم العثور على الشيفرة وخط مسار البيانات على ⁧⁩⁧⁩⁧⁩GP2 GitHub⁧⁩⁧⁩⁧⁩.⁧

تم تأليف هذه المدونة بشكل مشترك ما بين هامبتون ليونارد، مايك نولز، ييجين سونغ، ودان فيتال. يرجى زيارة صفحة GP2 لـ ⁧⁩فريق عمل تحليل بيانات المرض المعقد⁧⁩ لمعرفة المزيد عن خلفية عملهم.

تعرف على المؤلفين

المرض المعقد - مجموعة عمل «تحليل البيانات» في GP2