GWAS verstehen
Zurück zu Blogs

GWAS verstehen

Um GP2-Arbeitsgruppe Complex Disease – Data Analysis (Komplexe Krankheit – Datenanalyse) | |
Author(s)
  • GP2-Arbeitsgruppe Complex Disease – Data Analysis (Komplexe Krankheit – Datenanalyse)

    |

    Dieser Blog-Beitrag stammt von Mitgliedern der GP2-Arbeitsgruppe Complex Disease - Data Analysis (Komplexe Krankheit - Datenanalyse): Hampton Leonard, Mike Nalls, Yeajin Song und Dan Vitale.

GWAS verstehen … bzw. was hat es mit all diesen kleinen Odds Ratios oder Chancenverhältnissen auf sich? Die folgenden Ausführungen stellen eine grobe Vereinfachung von GWAS-Studien dar und können wohlmeinenden Sarkasmus enthalten.

Was können uns genomweite Assoziationsstudien (GWAS) über eine Krankheit sagen? Warum testet man über eine Million unabhängiger Merkmale des Genoms und nimmt schwerwiegenden Mehrfachtest-Missbrauch in Kauf? Die Antwort ist ziemlich einfach, und zwar aus zwei ganz einfachen Gründen. Erstens erweitert jede kandidatenassoziierte Genregion (auch bekannt als Locus) unser Wissen über eine Krankheit. Zweitens helfen uns all diese kumulativ kleinen Effekte, die Sie beobachten und von denen jeder eine marginale Erhöhung des genetischen Risikos bewirkt, das Risiko besser vorherzusagen und die Diagnosekriterien zu verfeinern. Es heißt, dass GWAS hypothesenfrei sei, aber in Wirklichkeit lautet die Hypothese: „Eine Variante oder ein Satz von Varianten im Genom könnte Schlimmes anrichten, wir müssen mehr herausfinden.“

Im Grunde ist eine GWAS nur eine Reihe von Gleichungen, von denen jede eine genomische Variante auf einmal betrachtet. Lassen Sie uns dies am Beispiel der Parkinson-Krankheit aufschlüsseln.

Parkinson-Krankheit (1 falls ja, 0 falls nein) ~  β0 + β1Variante +  β2Geschlecht + β3Alter + β4PC1 + β5PC2

Wenn Sie sich mit Statistik auskennen, ist Ihre Standard-GWAS-Formel eigentlich nur eine einfache multiple Regressionsgleichung. Diese spezielle Gleichung testet, ob wir vorhersagen können, ob eine Person Parkinson hat oder nicht, indem wir das Vorhandensein einer bestimmten Variante im Genom dieser Person heranziehen. Zusätzlich zu der getesteten Variante beziehen wir andere Faktoren wie Geschlecht, Alter und Hauptkomponenten ein, welche die genetische Abstammung auf individueller Ebene erklären.

Nun zu den Themen Odds Ratios und Betas. Die ‘βn‘-Terme vor den Variablen in der obigen Gleichung sind Koeffizienten. Diese sagen aus, um wie viel die geschätzte Wahrscheinlichkeit oder das „Risiko“ der Parkinson-Krankheit in Abhängigkeit vom Vorhandensein dieser Variable steigt oder sinkt. In GWAS-Manuskripten werden diese Effektgrößen der Varianten entweder als Beta-Werte oder Odds Ratios angegeben. Schauen wir uns nun ein Beispiel für die Interpretation der beiden Werte an. In der jüngsten und bisher größten GWAS zu Parkinson (Nalls 2019) ist eine der neuen Varianten, welche gemäß aktuellen Erkenntnissen signifikant mit der Parkinson-Krankheit assoziiert sind, die Variante rs76116224 auf Chromosom 2. Der mit dieser Variante assoziierte Beta-Wert beträgt 0,110. Das Odds Ratio beträgt 1,12 (Konfidenzintervall: 1,08–1,16). Der Betawert ist die Zunahme oder Abnahme des Ergebnisses pro Einheit. Für diese Studie bedeutet dies:

  • Eine Kopie der Variante rs76116224 hat ein geschätztes erhöhtes Parkinson-Risiko von 0,110 * 1 = 0,110. 
  • Zwei Kopien der Variante rs76116224 haben ein geschätztes erhöhtes Parkinson-Risiko von 0,110 * 2 = 0,220. 

Odds Ratios (OR) sind der Exponent der Beta-Koeffizienten, werden aber geringfügig anders interpretiert. Ein OR von größer als 1 ist mit einer höheren Wahrscheinlichkeit des Ergebnisses assoziiert, ein OR von 1 bedeutet keine Assoziation und ein OR von weniger als 1 ist mit einer geringeren Wahrscheinlichkeit des Ergebnisses assoziiert. Ein OR von 1,12 bedeutet also, dass wir für eine Erhöhung der Variantenkopie um eine Einheit eine 12%ige Erhöhung der Wahrscheinlichkeit, an Parkinson zu erkranken, erwarten.

Nachdem die Gleichung einmal aufgestellt ist, muss sie nur noch für jede Variante in Ihren Daten berechnet werden. Je nachdem, wie Ihre Daten verarbeitet wurden, also etwa 25.375.550 Mal! Zum Glück haben wir eine nette Software, die alle diese Gleichungen für uns durchrechnet.

Typischerweise wird jede GWAS in einem separaten Zentrum mit dessen eigenen Daten durchgeführt, pro Abstammungslinie und pro individueller Kohorte. Je mehr Personen wir jedoch einbeziehen, desto höher ist die Chance, seltene Effektvarianten zu entdecken. Um diese Zahlen zu erhöhen, wird jede GWAS in einer Meta-Analyse kombiniert. Die kooperierenden Standorte einigen sich im Voraus darauf, wie die Krankheit oder ein anderes Ergebnis definiert wird, welcher Code und welche Berechnungsinfrastruktur verwendet wird – und in manchen Fällen sogar auf die Reihenfolge der Autorenschaft der resultierenden Arbeiten. Jedes Studienzentrum stimmt in der Regel grundlegenden Qualitätskontrollparametern für die Genotypisierungs-Array-Daten auf Studienebene sowie einer einheitlichen Imputationsmethode (Verwendung desselben Referenzpanels zur Ableitung nicht getesteter genetischer Varianten) zu. Die gewählten Qualitätskontrollparameter müssen vor der Durchführung Ihrer GWAS durchgeführt werden.

Nach der Qualitätskontrolle und der Durchführung jeder einzelnen GWAS werden meta-analytische Techniken aus der Grundlagenstatistik verwendet, um die zusammenfassenden Statistiken der GWAS zu einem einzigen aggregierten Ergebnissatz pro Variante zu kombinieren. Ausgehend davon kann man, nach einigen zusätzlichen QK, nach Varianten mit p-Werten < 5e-08 suchen (dieser Cut-off wird typischerweise bei GWAS für die Korrektur bei Mehrfachtests in Millionenhöhe gewählt, aber es kann besser sein, sogar noch stringenter heranzugehen). Varianten, die diese Signifikanzschwelle überschreiten, gelten als signifikant mit dem getesteten Ergebnis assoziiert, aber man muss dann unbedingt versuchen, diese Ergebnisse in zusätzlichen Datensätzen zu replizieren.

Durch GWAS entdeckte Varianten liefern uns Ziele (Targets), die wir untersuchen können, und tragen zur Erweiterung unseres Wissens über eine Krankheit bei. Mit jedem neuen Target sind wir besser in der Lage, das Risiko einer Person für die Entwicklung eines bestimmten Ergebnisses besser vorherzusagen. Diese Erkenntnisse werden im Hinblick auf das Ziel präzisionsmedizinischer Behandlungen erforderlich sein. Mit GP2 streben wir danach, dieses Wissen über die Parkinson-Krankheit zu erweitern. Viele unserer GWAS-Prozesse sind automatisiert; der von uns verwendete Code ist öffentlich und transparent und wird ständig erweitert. Wir sind auf Vielfalt bedacht. Daher befassen wir uns mit ganzheitlichen Analysen über globale Datensilos hinweg und analysieren sie, wenn möglich, als harmonisierte einheitliche Kohorten bzw. wenden Meta-Analysen an, wenn dies angebracht ist.

Es wurde großer Aufwand betrieben, um einheitliche und klare Arbeitsabläufe und Code zu erstellen, die hoffentlich künftig von vielen Forscher*innen und Institutionen auf der ganzen Welt genutzt werden. Unser Ziel ist es, GP2 zum transparentesten Open-Science-Analytics-Projekt weltweit zu machen.

Hier ist zu sehen, wie der aktuelle „Manhattan Plot“ (benannt nach den Türmen in Manhattan) für die Parkinson-GWAS aussieht (Nalls et al., 2019). Der Code hierfür findet sich hier

Unseren Code und unsere Pipelines finden Sie auf dem GP2 GitHub. Halten Sie auch Ausschau nach einem nachfolgenden Blog-Beitrag, der Einblicke und Tipps für Ihre eigenen GWAS gibt.