Die Komponenten der zweiten Datenfreigabe von GP2
Zurück zu Blogs

Die Komponenten der zweiten Datenfreigabe von GP2

Um GP2-Arbeitsgruppe Complex Disease – Data Analysis (Komplexe Krankheit – Datenanalyse) und Monogenic Data Analysis Working Group | , , |
Author(s)
  • GP2-Arbeitsgruppe Complex Disease – Data Analysis (Komplexe Krankheit – Datenanalyse)

    |

    Dieser Blog-Beitrag stammt von Mitgliedern der GP2-Arbeitsgruppe Complex Disease - Data Analysis (Komplexe Krankheit - Datenanalyse): Hampton Leonard, Mike Nalls, Yeajin Song und Dan Vitale.

  • Monogenic Data Analysis Working Group

    |

    This blog post was written by members of the GP2 Monogenic Data Analysis working group: Zih-Hua Fang and Peter Heutink. 

Im April 2022 kündigte GP2 die zweite Datenfreigabe auf der Terra-Plattform in Zusammenarbeit mit AMP® PD an. Dieser Release enthält Daten aus den beiden GP2-Netzwerken Komplexe Krankheit und Monogene Krankheit. Die Daten zur komplexen Krankheit umfassen nun insgesamt 8644 genotypisierte Teilnehmer*innen (5249 mit Parkinson-Erkrankung, 3395 ohne). Neu hinzugekommen bei dieser Freigabe sind die Movement Disorders Genotypes and Phenotypes – Queen Square Brain Bank (MDGAP-QSBB), eine Hirnbank aus dem Vereinigten Königreich, und SYNAPS Study – Kazakhstan (SYNAPS-KZ), eine Parkinson-Kohorte aus Kazakhstan. Auch weitere CORIELL-Proben sind mit dieser Freigabe hinzugekommen. Die Daten zur monogenen Krankheit umfassen 235 gesamtgenom-sequenzierte (WGS) Teilnehmer*innen mit Parkinson-Krankheit aus der PDGENEration-Kohorte (https://www.parkinson.org/PDGENEration), die aufgrund festgelegter Kriterien aus dem Monogenetic Disease Network ausgewählt wurden, weil der Verdacht auf eine monogenetische Ursache der Parkinson-Erkrankung bestand.

Der Hauptunterschied zwischen der Genotypisierung von Microarray- und WGS-Daten liegt in der Anzahl der genetischen Marker, die während des Genotypisierungsprozesses entdeckt werden. WGS (Whole Genome Sequencing oder Gesamtgenomsequenzierung) liefert einen umfassenden Überblick über das Genom, indem potenziell alle 3,2 Milliarden Basenpaare im Humangenom abgefragt werden, während bei der Genotypisierung mit einem gezielten Microarray (wie dem speziellen NeuroBooster-Array von GP2) eine gezieltere Anzahl von bis zu 1,9 Millionen Region-Tagging-Markern pro Probe abgefragt wird. WGS eignet sich besser für die Analyse seltener genetischer Variationen, während die Imputation von Genotypen in einem gut abgestimmten Referenzpanel eine skalierbare und effiziente Lösung für die Untersuchung häufigerer genetischer Variationen darstellt.

Die genetisch determinierte Abstammung von GP2-Teilnehmer*innen mit komplexer Krankheit wird in neun Abstammungsgruppen gegliedert; die Tabelle unten gibt Aufschluss über die genetisch determinierte Abstammung der Teilnehmer*innen mit komplexer Krankheit in der Freigabe „GP2 Release 2“, die die Qualitätskontrolle durchlaufen haben und imputiert wurden.

Die genetisch determinierte Abstammung der GP2-Teilnehmer*innen mit monogener Erkrankung wird derzeit in vier Hauptabstammungsgruppen unterteilt, da es sich um die ersten verfügbaren Daten aus dem Monogetic Network handelt. Im Zuge der Verarbeitung weiterer Daten werden vielfältigere Proben zur Verfügung stehen. In der nachstehenden Tabelle ist die genetisch determinierte Abstammung der Teilnehmer*innen aus GP2 Release 2 mit monogener Erkrankung nach Alter bei Krankheitsbeginn und familiärer Vorgeschichte dargestellt.

In Zukunft wird sich die Vielfalt der verfügbaren Teilnehmer*innen durch weitere Datenfreigaben erhöhen. Auf unserem Dashboard können Sie sich über den Stand unserer Fortschritte informieren.

Zusätzlich zu den ersten WGS-Daten haben wir noch einen weiteren neuen Datentyp aufgenommen: probabilistische CNV-Aufrufe (copy number variants oder Kopienzahlvariationen) für alle genotypisierten Proben, die die Qualitätskontrolle durchlaufen haben (Gen-Ebene plus 250 kb flankierende Abschnitte). Die CNV beschreibt die Variation in der Anzahl der Wiederholungen eines bestimmten DNA-Abschnitts. Diese Variation kann durch Deletion, Insertion oder andere Ereignisse entstanden sein und liefert möglicherweise mehr Informationen darüber, wie strukturelle Variationen das Krankheitsrisiko beeinflussen. Die Pipeline für die probabilistischen CNV-Aufrufe findet sich auf dem GP2-Github. Das Ganze ist derzeit noch in Arbeit und wird durch die Ergänzung um zusätzliche Daten und entsprechende Anpassungen an der Pipeline weiter verbessert. Diese CNV-Daten sind also als „Hypothesengenerierung“ zu betrachten. Nutzungshinweise wird es dann im Blogbeitrag über den ersten stabilen Release geben, der für das nächste Quartal geplant ist.

Dieser Release enthält WGS-Daten aus dem Monogenic Disease Network zusätzlich zu den mit dem NeuroBooster-Array genotypisierten Daten zu komplexer Krankheit. Nähere Informationen zur Struktur der Genotyp- und klinischen Daten zur komplexen Krankheit finden sich im Blogbeitrag „Die Komponenten der ersten Datenfreigabe von GP2“ sowie in der README-Datei, die mit jeder Freigabe aktualisiert wird und in den offiziellen GP2-Terra-Workspaces verfügbar ist. Die WGS-Daten zur monogenen Parkinson-Erkrankung sind ebenfalls in dieser README-Datei enthalten.

Wir freuen uns sehr, der Parkinson-Forschungsgemeinde diesen Beta-Release zur Verfügung stellen zu können – und es kommt noch viel mehr!