GWAS verstehen

Januar 14, 2021

Von GP2-Arbeitsgruppe Complex Disease - Data Analysis (Komplexe Krankheit - Datenanalyse)

GWAS verstehen … bzw. was hat es mit all diesen kleinen Odds Ratios oder Chancenverhältnissen auf sich? Die folgenden Ausführungen stellen eine grobe Vereinfachung von GWAS-Studien dar und können wohlmeinenden Sarkasmus enthalten.

Was können uns genomweite Assoziationsstudien (GWAS) über eine Krankheit sagen? Warum testet man über eine Million unabhängiger Merkmale des Genoms und nimmt schwerwiegenden Mehrfachtest-Missbrauch in Kauf? Die Antwort ist ziemlich einfach, und zwar aus zwei ganz einfachen Gründen. Erstens erweitert jede kandidatenassoziierte Genregion (auch bekannt als Locus) unser Wissen über eine Krankheit. Zweitens helfen uns all diese kumulativ kleinen Effekte, die Sie beobachten und von denen jeder eine marginale Erhöhung des genetischen Risikos bewirkt, das Risiko besser vorherzusagen und die Diagnosekriterien zu verfeinern. Es heißt, dass GWAS hypothesenfrei sei, aber in Wirklichkeit lautet die Hypothese: „Eine Variante oder ein Satz von Varianten im Genom könnte Schlimmes anrichten, wir müssen mehr herausfinden.“

Im Grunde ist eine GWAS nur eine Reihe von Gleichungen, von denen jede eine genomische Variante auf einmal betrachtet. Lassen Sie uns dies am Beispiel der Parkinson-Krankheit aufschlüsseln.

Parkinson-Krankheit (1 wenn ja, 0 wenn nein) ~ β 0 + β 1 Variante + β 2 Geschlecht + β 3 Alter + β 4 PC1 + β 5 PC2

Wenn Sie mit Statistik vertraut sind, ist Ihre Standard-GWAS-Formel lediglich eine einfache Formel zur multiplen Regression. Diese spezielle Gleichung testet, ob wir vorhersagen können, ob eine Person Parkinson hat oder nicht, indem wir das Vorhandensein einer bestimmten Variante im Genom dieser Person heranziehen. Zusätzlich zu der getesteten Variante beziehen wir andere Faktoren wie Geschlecht, Alter und Hauptkomponenten ein, welche die genetische Abstammung auf individueller Ebene erklären. 

Lassen Sie uns jetzt über Quotenverhältnisse und Betas sprechen. Die ‚βn‚-Terme vor den Variablen in der obigen Gleichung sind Koeffizienten. Diese sagen aus, um wie viel die geschätzte Wahrscheinlichkeit oder das „Risiko“ der Parkinson-Krankheit in Abhängigkeit vom Vorhandensein dieser Variable steigt oder sinkt. In GWAS-Manuskripten werden diese Effektgrößen der Varianten entweder als Beta-Werte oder Odds Ratios angegeben. Schauen wir uns nun ein Beispiel für die Interpretation der beiden Werte an. In der jüngsten und bisher größten GWAS zu Parkinson (Nalls 2019) ist eine der neuen Varianten, welche gemäß aktuellen Erkenntnissen signifikant mit der Parkinson-Krankheit assoziiert sind, die Variante rs76116224 auf Chromosom 2. Der mit dieser Variante assoziierte Beta-Wert beträgt 0,110. Das Odds Ratio beträgt 1,12 (Konfidenzintervall: 1,08–1,16). Der Betawert ist die Zunahme oder Abnahme des Ergebnisses pro Einheit. Für diese Studie bedeutet dies:

  • Eine Kopie der Variante rs76116224 hat ein geschätztes erhöhtes Parkinson-Risiko von 0,110 * 1 = 0,110. 
  • Zwei Kopien der Variante rs76116224 haben ein geschätztes erhöhtes Parkinson-Risiko von 0,110 * 2 = 0,220. 

Odds Ratios (OR) sind der Exponent der Beta-Koeffizienten, werden aber geringfügig anders interpretiert. Ein OR von größer als 1 ist mit einer höheren Wahrscheinlichkeit des Ergebnisses assoziiert, ein OR von 1 bedeutet keine Assoziation und ein OR von weniger als 1 ist mit einer geringeren Wahrscheinlichkeit des Ergebnisses assoziiert. Ein OR von 1,12 bedeutet also, dass wir für eine Erhöhung der Variantenkopie um eine Einheit eine 12%ige Erhöhung der Wahrscheinlichkeit, an Parkinson zu erkranken, erwarten.   

Nachdem Sie die Gleichung nun kennen, müssen Sie sie nur noch für jede Variante in Ihren Daten berechnen. Je nachdem, wie Ihre Daten verarbeitet wurden, also etwa 25.375.550 Mal! Zum Glück haben wir eine nette Software, die alle diese Gleichungen für uns durchrechnet.

Typischerweise wird jede GWAS in einem separaten Zentrum mit dessen eigenen Daten durchgeführt, pro Abstammungslinie und pro individueller Kohorte. Je mehr Personen wir jedoch einbeziehen, desto höher ist die Chance, seltene Effektvarianten zu entdecken. Um diese Zahlen zu erhöhen, wird jede GWAS in einer Meta-Analyse kombiniert. Die kooperierenden Standorte einigen sich im Voraus darauf, wie die Krankheit oder ein anderes Ergebnis definiert wird, welcher Code und welche Berechnungsinfrastruktur verwendet wird – und in manchen Fällen sogar auf die Reihenfolge der Autorenschaft der resultierenden Arbeiten. Jedes Studienzentrum stimmt in der Regel grundlegenden Qualitätskontrollparametern für die Genotypisierungs-Array-Daten auf Studienebene sowie einer einheitlichen Imputationsmethode (Verwendung desselben Referenzpanels zur Ableitung nicht getesteter genetischer Varianten) zu. Die gewählten Qualitätskontrollparameter müssen vor der Durchführung Ihrer GWAS durchgeführt werden. 

Nachdem die Qualitätskontrolle abgeschlossen und jede einzelne GWAS ausgeführt wurde, werden metaanalytische Techniken aus der Basisstatistik verwendet, um die GWAS-Zusammenfassungsstatistiken in einem einzigen aggregierten Ergebnissatz pro Variante zu kombinieren. Ausgehend davon kann man, nach einigen zusätzlichen QK, nach Varianten mit p-Werten < 5e-08 suchen (dieser Cut-off wird typischerweise bei GWAS für die Korrektur bei Mehrfachtests in Millionenhöhe gewählt, aber es kann besser sein, sogar noch stringenter heranzugehen). Varianten, die diese Signifikanzschwelle überschreiten, gelten als signifikant mit dem getesteten Ergebnis assoziiert, aber man muss dann unbedingt versuchen, diese Ergebnisse in zusätzlichen Datensätzen zu replizieren.

Durch GWAS entdeckte Varianten liefern uns Ziele (Targets), die wir untersuchen können, und tragen zur Erweiterung unseres Wissens über eine Krankheit bei. Mit jedem neuen Target sind wir besser in der Lage, das Risiko einer Person für die Entwicklung eines bestimmten Ergebnisses besser vorherzusagen. Diese Erkenntnisse werden im Hinblick auf das Ziel präzisionsmedizinischer Behandlungen erforderlich sein. Mit GP2 streben wir danach, dieses Wissen über die Parkinson-Krankheit zu erweitern. Viele unserer GWAS-Prozesse sind automatisiert; der von uns verwendete Code ist öffentlich und transparent und wird ständig erweitert. Wir sind auf Vielfalt bedacht. Daher befassen wir uns mit ganzheitlichen Analysen über globale Datensilos hinweg und analysieren sie, wenn möglich, als harmonisierte einheitliche Kohorten bzw. wenden Meta-Analysen an, wenn dies angebracht ist. 

Es wurde viel Aufwand in die Entwicklung einheitlicher und klarer Arbeitsabläufe und Codes gesteckt, von denen wir hoffen, dass sie von vielen Forschern und Institutionen auf der ganzen Welt genutzt werden. Unser Ziel ist es, GP2 zum transparentesten Open-Science-Analytics-Projekt weltweit zu machen.

Ein „Manhattan-Diagramm“ für Daten aus genomweiten Assoziationsstudien zur Parkinson-Krankheit.

So sieht der aktuelle „Manhattan Plot“ (benannt nach den Türmen in Manhattan) für GWAS zur Parkinson-Krankheit aus (Nalls et al., 2019). Der Code hierfür findet sich hier

Sie finden unseren Code und unsere Pipelines auf dem GP2-GitHub . Halten Sie Ausschau nach einem nachfolgenden Blogbeitrag mit Einblicken und Tipps zum Ausführen Ihres eigenen GWAS.

Treffen Sie die Autoren

GP2-Arbeitsgruppe Complex Disease - Data Analysis (Komplexe Krankheit - Datenanalyse)