Die Komponenten der ersten Datenfreigabe von GP2
Zurück zu Blogs

Die Komponenten der ersten Datenfreigabe von GP2

Um GP2-Arbeitsgruppe Complex Disease – Data Analysis (Komplexe Krankheit – Datenanalyse) | , , |
Author(s)
  • GP2-Arbeitsgruppe Complex Disease – Data Analysis (Komplexe Krankheit – Datenanalyse)

    |

    Dieser Blog-Beitrag stammt von Mitgliedern der GP2-Arbeitsgruppe Complex Disease - Data Analysis (Komplexe Krankheit - Datenanalyse): Hampton Leonard, Mike Nalls, Yeajin Song und Dan Vitale.

Im Dezember 2021 kündigte GP2 die erste Freigabe von GP2-Daten auf der AMP®-PD-Plattform an. Die verfügbaren Daten stammen von 4.908 Teilnehmer*innen (3.434 Parkinson, 1.474 kein Parkinson) aus den Kohorten CORIELL, Baylor College of Medicine (BCM) und BCM-University of Maryland (UMD). Die genetisch determinierte Abstammung von GP2-Teilnehmer*innen wird in acht Abstammungsgruppen gegliedert; die Tabelle unten gibt Aufschluss über die genetisch determinierte Abstammung der Teilnehmer*innen in der Freigabe „GP2 Release 1“. Durch zünftige Datenfreigaben wird sich die Vielfalt der verfügbaren Teilnehmer*innen weiter erhöhen. Auf unserem Dashboard können Sie sich über den Stand unserer Fortschritte informieren. 

Genotypdaten

Alle Daten wurden mit dem Illumina NeuroBooster Array genotypisiert – einem Array, das speziell für Varianten neurodegenerativer Erkrankungen in verschiedenen Bevölkerungsgruppen entwickelt wurde. Die Daten werden gemäß den Standardprotokollen von Illumina verarbeitet, und die Qualitätskontrolle für die Daten wird von GP2 mithilfe unserer Open-Source-QC-Pipeline durchgeführt. Die Daten werden dann unter Verwendung von TOPMed innerhalb jeder einzelnen Abstammungsgruppe separat imputiert. Alle bekannten Duplikate werden entfernt; verwandte Proben bleiben jedoch erhalten, um die Flexibilität bei Gemeinschaftsanalysen zu erhöhen. Für weitere Informationen darüber, was in der QC-Pipeline enthalten ist, folgen Sie bitte dem Workflow, der auf der zugehörigen GitHub-Seite zu finden ist.

Klinische Daten

Klinische Daten wurden zu einem einheitlichen klinischen GP2-Datensatz harmonisiert. Zu den Mindestanforderungen an die klinischen Daten gehören demografische Angaben, die Rekrutierungskategorie und die Familienanamnese. Weitere Informationen zu den Anforderungsebenen betreffend GP2-Kerndaten finden Sie im Dokument Clinical Data Core Data Set“ (Klinischer Kerndatensatz) in der Rubrik Ressourcen auf unserer Website. Der Zugriff auf die Daten erfolgt über die Terra-Plattform Wenn Sie erfahren möchten, wie Sie auf GP2-Daten zugreifen können, lesen Sie bitte unseren Blog-Beitrag „Beantragung des Zugangs zu GP2-Daten auf der AMP®-PD-Plattform“. Die folgenden Datenprodukte sind auf Terra für unsere Freigabe „GP2 Release 1“ verfügbar:

  • Tier-1-Datenzugang
    • Zusammenfassende Statistiken der jüngsten GWAS zur Parkinson-Krankheit (ohne 23andMe-Proben von Nalls et al. 2019).
  • Tier-2-Datenzugang
    • Genotyp-Rohdaten: samples passing quality control prior to imputationPLINK2 .pgen-Dateien für jede Abstammungsgruppe für alle Proben, die die Qualitätskontrolle vor der Imputation bestanden haben
    • Imputierte Genotyp-Daten: PLINK2 .pgen-Dateien, die mit dem TOPMed-Referenzpanel imputiert wurden (und die Mindest-QC-Filterung gemäß Readme-Datei zur Datenfreigabe erfüllen)
    • Metadaten: enthält Informationen über QC-Ausgaben und Vorhersage der Abstammung
    • Klinische Daten: klinische Datenfelder und relevantes klinisches Datenwörterbuch

Wir hoffen, dass dieser Datenbestand für die Parkinson-Forschungsgemeinschaft zu einer wertvollen Ressource wird. Wir arbeiten kontinuierlich an der Verbesserung unserer Prozesse und haben noch viele weitere spannende Dinge in Petto. Dieser Blogbeitrag wurde gemeinschaftlich von Hampton Leonard, Mike Nalls, Yeajin Song und Dan Vitale verfasst. Wenn Sie mehr über die Autoren erfahren möchten, besuchen Sie gerne die Webseite der GP2 Complex Disease – Data Analysis Working Group.