Die Komponenten der 10. Datenfreigabe von GP2

Juni 30, 2025

Von Hampton Leonard, Mike A. Nalls, Dan Vitale, Mathew Koretsky, Kristin Levine, Mary B. Makarious, Lietsel Jones, Zih-Hua Fang und J C. Solle

Übersicht

Im Juli 2025 kündigte GP2 die 10. Datenfreigabe in Kooperation mit AMP® PD auf der Terra-Plattform und der Verily®-Workbench an. Diese Freigabe umfasst 11.109 zusätzliche genotypisierte Teilnehmende und 13.339 zusätzliche WGS-Teilnehmende.

  • Die Genotyp-Array-Daten (NBA), einschließlich Proben mit lokalen Einschränkungen, umfassen nun insgesamt 82.944 genotypisierte Teilnehmende (36.939 mit Parkinson-Erkrankung, 19.821 Kontrollpersonen und 26.184 „sonstige“ Phänotypen).
    • Abzüglich der Proben mit lokalen Einschränkungen beträgt die Zahl nun 65.303 (28.586 mit Parkinson-Erkrankung, 15.258 Kontrollpersonen und 21.459 „sonstige“ Phänotypen).
  • Die WGS-Daten umfassen nun insgesamt 21.073 sequenzierte Teilnehmende (8.134 mit Parkinson-Erkrankung, 3.531 Kontrollpersonen und 9.408 „sonstige“ Phänotypen).
    • Abzüglich der Proben mit lokalen Einschränkungen beträgt die Zahl nun 16.608 (6.801 mit Parkinson-Erkrankung, 3.244 Kontrollpersonen und 6.563 „sonstige“ Phänotypen).
    • Anmerkung: Über das Monogenic Network rekrutierte Fälle werden als „sonstige“ kodiert.
  • Die klinischen Exom-Daten bestehen nun aus 10.454 Proben mit Parkinson-Erkrankung (8. Freigabe).
  • Von den 92.021 einzigartigen Proben mit genetischen Daten (NBA, WGS oder klinische Exom-Daten) haben 26.982 Personen auch zusätzliche erweiterte klinische Informationen.

Was ist in dieser Freigabe neu?

Erweiterung der genomischen Daten Mit dieser Freigabe wird die Zahl der Teilnehmenden mit verfügbaren genetischen Daten erheblich erweitert. Folgendes wurde hinzugefügt:

  • 11.109 neue Teilnehmende mit Genotyp-Array-Daten (NBA)
  • 13.339 neue Teilnehmende mit WGS-Daten (Gesamtgenom-Sequenzierung)
  • 12.311 neue Teilnehmende mit erweiterten klinischen Daten
  • Eine Familiendatei (und ein entsprechendes Datenverzeichnis) mit Schätzwerten betreffend die paarweisen Verwandtschaftsbeziehungen zwischen Einzelpersonen innerhalb von Familien. Dies beinhaltet sowohl abgeleitete Beziehungen (mit Verwandtschaftskoeffizienten) als auch berichtete Beziehungen.

Einbeziehung der PAR-Region in die Imputation Wir haben die pseudoautosomale (PAR) Region in die Imputation der Genotyp-Array-Daten wieder aufgenommen, um die Abdeckung und Interpretation der Geschlechtschromosom-Variation zu verbessern. Durch diese Verbesserung wollen wir die genomische Abdeckung und Analysegenauigkeit verbessern. Joint-Calling beinhaltet nun auch AMP® PD-Kohorten

  • Die per Joint-Calling umgesetzten WGS-Variantensätze beinhalten nun auch Proben aus den folgenden fünf AMP® Parkinson-Kohorten: BioFind, PPMI, LCC, STEADY-PD3 und SURE-PD3. 
    • Eine Verarbeitung dieser Proben gemeinsam mit GP2 statt einer unabhängigen Verarbeitung minimiert Fehlstellen und Artefakte und verbessert die Genauigkeit des Genotyps. 
  • Wir haben dem Master-Key eine Spalte hinzugefügt, die anzeigt, welche GP2-Proben auch im AMP-PD-Datensatz enthalten sind.

Gezielte Imputation von rs3115534 in verschiedenen Abstammungsgruppen Es besteht ein großes gemeinschaftliches Interesse an der intronischen Variante rs3115534, die mit einem erhöhten Risiko einhergeht, an Parkinson und an REM-Schlaf-Verhaltensstörungen zu erkranken, und die auch funktionell validiert ist. Aus diesem Grund haben wir nun eine gezielte Imputationsstrategie implementiert, um sicherzustellen, dass diese Variante in den freigegebenen Datensätzen enthalten ist.

  • Insbesondere wurde Chromosom 1 für fünf Abstammungsgruppen (AFR, AAC, AMR, MDE und CAH) unter Verwendung des Referenzpanels des 1000-Genome-Projekts Phase 3 insgesamt 30x mit hoher Abdeckung imputiert.
  • Im Anschluss an die Imputation wurden die Daten für rs3115534 wieder in die TOPMed-basierten imputierten Dateien, die mit GP2-Freigaben zur Verfügung gestellt werden, zurückgeführt. Bitte beachten Sie, dass die Imputationsmetriken für diese Variante die Qualitätsschwellen (R² < 0,3) in anderen Abstammungsgruppen nicht erreicht haben. 
rs3115534 — 10. Freigabe Imputationsmetriken unter Verwendung des Panels des 1000-Genome-Projekts Phase 3 30x
Population Status AF MAF AVG_CS R2
AFR IMPUTIERT 0,761049 0,238951 0,992879 0,968831
AAC IMPUTIERT 0,855586 0,144414 0,993458 0,959606
AMR IMPUTIERT 0,983414 0,0165855 0,991453 0,507857
MDE IMPUTIERT 0,980407 0,0195926 0,990912 0,584081
CAH IMPUTIERT 0,93793 0,0620703 0,993982 0,909959

Neue zusammenfassende Statistiken jetzt verfügbar Wir haben verschiedene neue Datensätze zu den zusammenfassenden Statistiken der GWAS zur Verfügung gestellt und somit die globale Repräsentation erweitert:

  • Europäische (EUR) Meta-GWAS von GP2 (Preprint; GitHub)
  • Südafrikanische GWAS (Preprint ausstehend; GitHub)
  • Indische GWAS (Preprint; GitHub)
  • RBD (REM-Schlafverhaltensstörung) GWAS (Preprint ausstehend; GitHub ausstehend)
  • LARGE-PD GWAS, einschließlich lateinamerikanische Teilnehmende (Preprint ausstehend; GitHub ausstehend)

Klinische Daten Diese Freigabe enthält klinische Daten von insgesamt92.021 Personen, für die genetische und klinische Kerndaten verfügbar sind. Für 26.982 von diesen Personen stehen tiefe klinische Phänotypisierungsdaten zur Verfügung. Diese Informationen umfassen: 

  • Alter bei Diagnose und Ausbruch
  • Primäre, aktuelle und letzte Diagnose
  • Kognitive Tests wie der Mini-Mental Status-Test (MMST) und der Montreal-Cognitive-Assessment-Test (MoCa)
  • Von der Movement Disorder Society gesponserte Überarbeitung der Unified Parkinson’s Disease Rating Scale (MDS-UPDRS)
  • Detaillierte „sonstige“ Phänotypen wie etwa Lewy-Körper-Demenz (LBD)

Individuen-spezifische Daten Wir erfassen nun die Daten von insgesamt 124 Kohorten. Weitere Informationen zu den bereitgestellten Kohorten finden Sie im GP2 Cohort Dashboard Die genetisch determinierte Abstammung von Array-genotypisierten GP2-Teilnehmenden wird in 11 Abstammungsgruppen gegliedert; die Tabellen unten geben Aufschluss über die genetisch determinierte Abstammung der Teilnehmenden in dieser Freigabe, die die Qualitätskontrolle für Array-Daten und Gesamtgenom-Sequenzierungsdaten durchlaufen haben. Diese Zahlen spiegeln Proben aus früheren Freigaben wider, die unter Verwendung der aktualisierten Clusterdatei neu geclustert und einer Qualitätskontrolle unterzogen wurden, sowie neu genotypisierte Proben, die ausschließlich in dieser Freigabe enthalten sind. Die letzte Tabelle gibt Aufschluss über die genetisch determinierte Abstammung ausgewählter sonstiger Phänotypen ohne Parkinson.

Array-genotypisierte Daten — 10. Freigabe von GP2
Abstammung Gesamt (+VWB) PD (+VWB) Kontrollpersonen (+VWB) Sonstige (+VWB)
Afrikanisch 3.754 (3.780) 1.181 (1191) 2.305 (2.307) 268 (282)
Afrikanisch mit Beimischung 1.192 (1.215) 361 (370) 760 (763) 71 (82)
Aschkenasisch-jüdisch 3.265 (3.472) 1.482 (1.531) 408 (435) 1.375 (1.506)
Lateinamerikanische und indigene Personen aus Nord- und Südamerika 3.564 (3.608) 1.974 (1.995) 1.433 (1.439) 157 (174)
Ostasiatisch 6.619 (6.662) 2.393 (2.411) 2.697 (2.705) 1.529 (1.546)
Europäisch 41.901 (58.823) 18.703 (26.778) 5.899 (10.372) 17.299 (21.673)
Südasiatisch 801 (945) 270 (317) 260 (269) 271 (359)
Zentralasiatisch 1.670 (1.691) 776 (782) 624 (626) 270 (283)
Naher Osten 1.349 (1.493) 675 (752) 535 (559) 139 (182)
Finnisch 116 (144) 87 (106) 8 (12) 21 (26)
Komplexe Beimischung 1.072 (1.111) 684 (706) 329 (334) 59 (71)
Gesamt 65.303 (82.944) 28.586 (36.939) 15.258 (19.821) 21.459 (26.184)

 

Gesamtgenom-Sequenzierungsdaten — 10. Freigabe von GP2
Abstammung Gesamt (+VWB) PD (+VWB) Kontrollpersonen (+VWB) Sonstige (+VWB)
Afrikanisch 1.671 (1.696) 646 (656) 848 (853) 177 (187)
Afrikanisch mit Beimischung 254 (267) 126 (130) 113 (114) 15 (23)
Aschkenasisch-jüdisch 1.389 (1.485) 337 (355) 100 (106) 952 (1.024)
Lateinamerikanische und indigene Personen aus Nord- und Südamerika 301 (333) 154 (171) 24 (24) 123 (138)
Ostasiatisch 2.525 (2.542) 576 (582) 343 (343) 1.606 (1.617)
Europäisch 8.354 (12.461) 4.155 (5.389) 1.131 (1.397) 3.068 (5.675)
Südasiatisch 309 (417) 47 (73) 10 (16) 252 (328)
Zentralasiatisch 833 (840) 259 (261) 329 (330) 245 (249)
Naher Osten 788 (824) 386 (394) 308 (309) 94 (121)
Finnisch 22 (30) 17 (20) 4 (4) 1(6)
Komplexe Beimischung 162 (178) 98 (103) 34 (35) 30 (40)
Gesamt 16.608 (21.073) 6.801 (8.134) 3.244 (3.531) 6.563 (9.408)

 

„Sonstige“ Phänotypen — 10. Freigabe von GP2 (auf der VWB)
Abstammung Prodromal NBA/WGS PSP NBA/ WGS AD NBA/WGS DLB NBA/ WGS MSA NBA/ WGS CBD/CBS NBA/WGS FTD NBA/WGS
Afrikanisch 16/7 6/4 0/0 2/0 7/4 1/0 0/0
Afrikanisch mit Beimischung 23/7 4/2 1/0 0/0 2/0 1/0 0/0
Aschkenasisch-jüdisch 308/71 23/12 9/0 14/6 8/3 4/3 2/1
Lateinamerikanische und indigene Personen aus Nord- und Südamerika 30/11 5/0 5/0 2/0 2/0 1/0 0/0
Ostasiatisch 27/4 14/63 4/4 18/0 6/178 2/32 0/0
Europäisch 4206/848 1307/ 920 484/136 442/340 421/ 334 166/159 65/63
Südasiatisch 3/2 34/32 1/0 5/1 5/8 9/9 2/2
Zentralasiatisch 4/4 4/1 70/72 4/1 1/0 4/1 0/0
Naher Osten 14/1 9/4 2/2 1/0 0/0 1/1 1/1
Finnisch 9/0 2/1 2/0 0/0 1/1 0/0 1/0
Komplexe Beimischung 9/2 7/5 5/4 3/1 1/0 0/0 1/1
Gesamt 4649/957 1415/ 1044 583/218 491/349 454/ 528 189/205 72/68

 

Überblick über klinische Daten — 10. Freigabe von GP2 (auf der VWB)
Klinische Daten N, Eindeutige IDs N, IDs mit Follow-up
Alter bei Probensammlung 71.747
Alter bei Ausbruch 38.718
Alter bei Diagnose 31.667
Grundlegende Familienanamnese 92.021
Demografische Angaben 26.701
Hoehn & Yahr Stadium 11.486 5.515
UPDRS Teil 1 Score 2.359 1,057
UPDRS Teil 2 Score 2.338 1.049
UPDRS Teil 3 Score 3.606 1.084
UPDRS Teil 4 Score 1.739 1.090
MDS UPDRS Teil 1 Score 5.168 2.802
MDS UPDRS Teil 2 Score 5.242 2.854
MDS UPDRS Teil 3 Score 7.532 2.870
MDS UPDRS Teil 4 Score 2.479 1.016
MOCA 9.500 2.753
MMST 1.954
RBD Score 3.986 3.290
Schädel-Hirn-Trauma 5.495 3.747
Lebenswichtige Organe 5.895 4.035
Geruchssinn 5.200 1.466

Datenzugang

DSGVO-Proben mit lokalen Einschränkungen über die Verily Viewpoint Workbench Wir stellen über unsere Zusammenarbeit mit der Verily Viewpoint Workbench weiterhin einen Pilotzugang zu lokal begrenzten Proben bereit, d. h. Proben, die der Datenschutzgrundverordnung (DSGVO) unterliegen. Während GP2 weiter an Lösungen für den Austausch DSGVO-geschützter Daten arbeitet, sind die Daten mit regionalen Einschränkungen der 10. Freigabe nur für Mitglieder des GP2-Forschungsverbunds sowie Partner verfügbar. Im Zuge der weiteren Test- und Implementierungsphase im Jahr 2025 wird diese Lösung dann der breiteren Forschungsgemeinschaft zur Verfügung gestellt. Sämtliche Proben der 10. Freigabe sind auf der Workbench zu finden, während alle Proben der 10. Freigabe, die nicht den DSGVO-Anforderungen unterliegen, auf der Community Workbench auf Terra zu finden sind (so wie bei allen vorherigen Freigaben). Wenn Sie Zugang zur gesamten Freigabe auf der VWB erhalten möchten, müssen Sie:

  1. über einen bewilligten GP2-Tier-2-Zugang verfügen,
  2. das Antragsformular für DSGVO-Proben ausfüllen,
  3. Mitglied des GP2-Forschungsverbunds sein (beitragende Kohorte, GP2-Partner oder Projektanalyse-Teammitglied)

Durch zukünftige Datenfreigaben wird sich die Vielfalt der verfügbaren Teilnehmenden weiter erhöhen. Auf unserem Dashboard können Sie sich über den Fortschritt unserer Arbeiten informieren. Wenn Sie bereits über einen Tier-2-Zugang verfügen, können Sie die Daten in unserem Cohort Browser ansehen, der bereits in einem früheren Blogbeitrag vorgestellt wurde. Wie immer finden Sie weitere Details zu den Themen Qualitätskontrolle, Pipelines, Daten und Analysen in der README-Datei zur jeweiligen GP2-Freigabe!

Treffen Sie die Autoren

Leiterin Kooperationsforschung

Hampton Leonard

National Institute on Aging/National Institutes of Health | USA

Berater

Mike A. Nalls, PhD

National Institutes of Health | USA

Datenwissenschaftler

Dan Vitale

National Institutes of Health | USA

Daten- und Software-Ingenieur

Mathew Koretsky, BSc

National Institutes of Health | WA

Datenwissenschaftlerin

Kristin Levine, MSc

Data Tecnica International | USA

Biomedizinische Datenwissenschaftlerin, Contractor

Mary B. Makarious, PhD

National Institutes of Health | Washington D.C.

Klinische Datenanalystin

Lietsel Jones, MSc

Data Tecnica International | Bethesda

Wissenschaftlerin

Zih-Hua Fang, PhD

German Center for Neurodegenerative Diseases

Member, Senior Associate Director

J C. Solle

The Michael J. Fox Foundation for Parkinson's Research, The Michael J. Fox Foundation for Parkinson's Research | USA