Die Komponenten der vierten Datenfreigabe von GP2
Zurück zu Blogs

Die Komponenten der vierten Datenfreigabe von GP2

Um Peter Heutink, Mike A. Nalls, Hampton Leonard, Mary B. Makarious, Dan Vitale, Zih-Hua Fang, Mathew Koretsky, und Kristin Levine | , , |
Author(s)
  • Foto Heutink

    Peter Heutink, PhD

    Deutsches Zentrum für Neurodegenerative Erkrankungen (DZNE) | Deutschland

    Peter erhielt seine Ausbildung zum Molekularbiologen an der Universität Amsterdam und erwarb seinen PhD-Grad in der Abteilung für Klinische Genetik des Erasmus Medical Center Rotterdam. 1994 gründete Peter seine eigene Forschungsgruppe, um sich auf neurodegenerative Erkrankungen wie die frontotemporale Demenz und die Parkinson-Krankheit zu konzentrieren. Im Jahr 2003 wechsel... Read More

  • Mike A. Nalls, PhD

    Data Tecnica International | USA

    Mike gründete Data Tecnica Anfang 2017, nachdem er mehr als zehn Jahre Erfahrung in der Analyse großer Datensätze und Methodenforschung im Gesundheitswesen und anderen wissenschaftlichen Bereichen gesammelt hatte. Über 350 von Experten begutachtete Publikationen (vor dem 40. Lebensjahr) auf dem Gebiet der angewandten Statistik bei großen Datensätzen, Gehirnkrankheiten u... Read More

  • Hampton Leonard, MS

    Data Tecnica International/National Institutes of Health | USA

    Hampton verfügt über einen Hintergrund in Datenwissenschaft und maschinellem Lernen, den sie auf große Multi-Omik-Datensätze im Bereich neurodegenerativer Erkrankungen anwendet. Ihre Leidenschaft gilt der Erforschung von Unterschieden im klinischen Bereich und im Bereich der -Omics sowie der Frage, wie sich diese Unterschiede auf die Ergebnisse klinischer Studien auswirken ... Read More

  • Mary B. Makarious, BSc

    National Institutes of Health | USA

    Mary befindet sich im Aufbaustudium im Laboratory of Neurogenetics (LNG) am National Institutes of Health, National Institute on Aging bei Dr. Andrew Singleton und Mike Nalls. Sie studierte Bioinformatik und Neurowissenschaften an der Loyola University in Chicago, IL, USA, und ist nun seit zwei Jahren beim LNG. Bei ihrer Arbeit wendet sie Techniken des maschinellen Lernens und ... Read More

  • Dan Vitale, MS

    Data Tecnica International | USA

    Dan ist datenwissenschaftlicher Berater für Data Tecnica International. Er berät hauptsächlich das Laboratory of Neurogenetics am National Institute on Aging der National Institutes of Health. Sein Arbeitsschwerpunkt liegt auf Open Science, Automatisierung und Entwicklung von Genanalyse-Pipelines und -Software sowie maschinellem Lernen. E-Mail: [email protected]

  • Zih-Hua Fang, PhD

    Deutsches Zentrum für Neurodegenerative Erkrankungen (DZNE) | Deutschland

    Zih-Hua schloss ihr Bachelorstudium in Taiwan ab, promovierte an der Universität Wageningen in den Niederlanden und der AgroParisTech in Frankreich und absolvierte ihre Postdoktorandenausbildung an der ETH Zürich. Ihre Forschungsinteressen und -erfahrungen konzentrieren sich auf Züchtungsgenetik und -genomik im Bereich Tierzucht. Zia-Hua hat sechs Jahre Erfahrung in Bioinfor... Read More

  • Mathew Koretsky, BSc

    National Institutes of Health | USA

    Mathew ist Postgraduierten-Stipendiat am Center for Alzheimer’s Disease and Related Dementias an den National Institutes of Health. In seiner Arbeit konzentriert er sich auf die Entwicklung genetischer Datenverarbeitungspipelines sowie die Anwendung maschineller Lern- und Datenwissenschaftstechniken auf genomische Datensätze im Bereich neurodegenerativer Erkrankungen.

  • Kristin Levine, MS

    Data Tecnica International | USA

    Kristin ist Datenwissenschaftlerin bei Data Tecnica International und ist als Consultant primär für das Center for Alzheimer's and Related Dementias (CARD) an den National Institutes of Health tätig. Ursprünglich ist sie Schriftstellerin, wurde dann zur Datenwissenschaftlerin und setzt sich leidenschaftlich für offene Wissenschaft, die Demokratisierung von Forschungstools ... Read More

Im Februar 2023 kündigte GP2 die vierte Datenfreigabe auf der Terra-Plattform in Zusammenarbeit mit AMP® PD an. Diese Version enthält eine Fülle von neuen Daten und Ressourcen.

Zusätzlich zu den Beständen der früheren Freigaben des Netzwerks Komplexe Krankheit und des Monogenic-Netzwerks umfasst diese Version 2583 zusätzliche neue Teilnehmer*innen mit komplexen Erkrankungen. Die Daten zur komplexen Krankheit umfassen nun insgesamt 17.485 genotypisierte Teilnehmer*innen (9429 mit Parkinson-Erkrankung, 6648 Kontrollpersonen und 1408 „Sonstige“). Folgende Kohorten sind mit dieser Freigabe zu GP2 hinzugekommen:

Die genetisch determinierte Abstammung von GP2-Teilnehmer*innen mit komplexer Krankheit wird in zehn Abstammungsgruppen gegliedert (die neun Gruppen unten plus eine kleine Anzahl finnischer Europäer*innen); die Tabelle unten gibt Aufschluss über die genetisch determinierte Abstammung der Teilnehmer*innen mit komplexer Krankheit in dieser Freigabe, welche die Qualitätskontrolle durchlaufen haben und imputiert wurden. Diese Zahlen beinhalten Proben aus früheren Freigaben, die unter Verwendung der neuen Clusterdatei neu geclustert wurden und die Qualitätskontrolle durchlaufen haben, sowie die neu genotypisierten und gemeinsam genutzten Proben, die nur in dieser aktuellen Freigabe enthalten sind. Durch zukünftige Datenfreigaben wird sich die Vielfalt der verfügbaren Teilnehmer*innen weiter erhöhen. Auf unserem Dashboard können Sie sich über den Fortschritt unserer Arbeiten informieren.

Eine wichtige Änderung bei dieser Freigabe betrifft einen der Schwellenwerte, die in unserer QC-Pipeline verwendet werden. Um mehr Proben teilen zu können, haben wir genotypisierte Varianten mit einem durchgängig niedrigen Qualitätsniveau vor Durchlaufen des QC-Prozesses entfernt. Eine Liste der weniger guten Varianten finden Sie im Metadatenverzeichnis der Tier-2-Buckets und auf Github. Wir haben auch eine weniger strenge Call Rate für die Proben verwendet und diese von 0,98 auf 0,95 gesenkt. So konnten mehr Proben für unsere Analysen verwendet, ohne Abstriche bei der Qualität machen zu müssen.

Eine weitere Änderung bei dieser Freigabe betrifft eine Aktualisierung bei den klinischen Daten. Die Phänotyp-Spalte wurde aktualisiert und enthält jetzt nur noch die Kennungen „Parkinson-Erkrankung“, „Kontrolle“ und „Sonstige“. Eine zusätzliche Spalte mit der Bezeichnung „other_pheno“ wurde hinzugefügt; diese enthält eine detailliertere Diagnosekennzeichnung für Teilnehmende mit der Bezeichnung „Sonstige“ (Other). Einige dieser detaillierteren Diagnosekennzeichnungen umfassen nicht betroffene und betroffene Personen über gezielte genetische Parkinson-Rekrutierung, SWEDDs und prodromales Parkinson sowie andere Störungen wie essentiellen Tremor (ET), progressive supranukleäre Lähmung (PSP), Lewy-Körper-Demenz (DLB) und Multisystematrophie (MSA).

Die Aufrufe der Kopienzahlvarianten (CNV) für alle genotypisierten Proben, welche die Qualitätskontrolle durchlaufen haben (Gen-Ebene plus 250kb flankierende Abschnitte), wurden aktualisiert und alle Proben in der 4. Freigabe einbezogen. Diese Daten wurden mit Hilfe einer benutzerdefinierten GP2-Genotyp-Clustering-Datei geclustert (verfügbar in den utils-Verzeichnissen beim Tier-1- wie auch beim Tier-2-Datenzugang). Die Cluster-Datei und die Pipeline für die Vorhersage der probabilistischen CNV-Aufrufe finden sich auf dem GP2 Github zur Nutzung mit Daten außerhalb von GP2. Weitere Informationen zum Clustering mit Hilfe der speziellen GP2-Genotypisierungs-Cluster-Datei und den probabilistischen CNV-Aufrufen finden sich in dem Beitrag „Die Komponenten der dritten Datenfreigabe von GP2“ auf dem GP2 Blog.

Nähere Informationen zur Struktur der Genotyp- und klinischen Daten zur komplexen Krankheit finden sich im Blogbeitrag „Die Komponenten der ersten Datenfreigabe von GP2“sowie in der README-Datei, die für diese Freigabe aktualisiert wurde und in den offiziellen GP2-Terra-Workspaces verfügbar ist. Die WGS-Daten zur monogenen Parkinson-Erkrankung sind ebenfalls in dieser README-Datei enthalten.