Los componentes de la décima aportación de datos del GP2

junio 30, 2025

Por Hampton Leonard, Mike A. Nalls, Dan Vitale, Mathew Koretsky, Kristin Levine, Mary B. Makarious, Lietsel Jones, Zih-Hua Fang y J C. Solle

Resumen

En julio de 2025, el GP2 anunció su décima publicación de datos en las plataformas Terra y Verily® Workbench en colaboración con AMP® PD. Esta edición incluye 11,109 participantes genotipados nuevos y 13,339 WGS de participantes nuevos. 

  • Los datos genotipados (NBA), que incluyen muestras localmente restringidas, corresponden ahora a un total de 82,944 participantes genotipados (36,939 con EP; 19,821 de control y 26,184 «otros» fenotipos).
    • Si restamos las muestras localmente restringidas, el total asciende a 65,303 muestras (28,586 con EP; 15,258 de control y 21,459 «otros» fenotipos).
  • Los datos de secuencias de genoma completo (WGS) corresponden ahora a un total de 21,073 participantes secuenciados (8,134 con EP, 3,531 de control y 9,408 «otros» fenotipos).
    • Si restamos las muestras localmente restringidas, el total asciende a 16,608 participantes (6,801 con EP; 3,244 de control y 6,563 «otros» fenotipos).
    • Cabe destacar que los casos reclutados por la Red monogénica están clasificados como «otros».
  • Los datos clínicos del exoma ascienden a 10,454 muestras con EP (octava aportación de datos).
  • De las 92,021 muestras singulares con datos genéticos (NBA, WGS o datos clínicos del exoma), 26,982 participantes también cuentan con información clínica adicional.

¿Qué hay de nuevo en esta aportación de datos?

Ampliación de los datos genómicos Esta edición introduce una ampliación significativa del número de participantes con datos genéticos. Se agregaron:

  • 11,109 participantes nuevos con datos genotipados (NBA)
  • 13,339 participantes nuevos con datos de secuencias de genoma completo (WGS)
  • 12,311 participantes nuevos con datos clínicos adicionales
  • Un archivo hereditario (y el diccionario de datos correspondiente) con estimaciones de parentesco por pares entre familiares. Incluye tanto relaciones inferidas (con coeficientes de parentesco) como relaciones declaradas.

Inclusión de la región PAR en la imputación Hemos reintroducido la región pseudoautosómica (PAR) en la imputación de datos genotipados, lo que nos ha permitido mejorar la cobertura y la interpretación de la variación de los cromosomas sexuales. Esta mejora forma parte de iniciativas en curso para ampliar la cobertura genómica y la precisión analítica. Los conjuntos de llamado de variantes conjuntas ahora incluyen las cohortes de AMP® PD

  • Los conjuntos de llamado de variantes conjuntas WGS ahora incluyen muestras de las siguientes cinco cohortes de AMP® PD: BioFind, PPMI, LCC, STEADY-PD3 y SURE-PD3. 
    • Al procesar estas muestras junto con las del GP2 en lugar de hacerlo de forma independiente, se minimizan las omisiones y los artefactos, y se mejora la precisión del genotipo. 
  • Hemos agregado una columna a la clave maestra que indica qué muestras del GP2 también están presentes en el conjunto de datos AMP-PD.

Imputación dirigida de rs3115534 en ascendencias seleccionadas En respuesta al gran interés de la comunidad por la variante intrónica rs3115534, dado que se ha asociado con un mayor riesgo de padecer la enfermedad de Parkinson y el trastorno del comportamiento del sueño REM, y se ha validado funcionalmente, hemos implementado una estrategia de imputación dirigida para garantizar su inclusión en los conjuntos de datos publicados

  • En concreto, se imputó el cromosoma 1 para cinco ascendencias (AFR, AAC, AMR, MDE y CAH) utilizando el panel de referencia de alta cobertura 30x de la fase 3 de 1000 Genomes.
  • Tras la imputación, los datos de rs3115534 se fusionaron de nuevo en los archivos imputados basados en TOPMed proporcionados con las aportaciones de datos del GP2. Cabe tener en cuenta que las métricas de imputación para esta variante no superaron los umbrales de calidad (R² < 0.3) en otros grupos ancestrales. 
Métricas de imputación de rs3115534 de la décima aportación de datos con el panel 30x de la fase 3 de 1000 Genomes
Población Estatus AF MAF AVG_CS R2
AFR IMPUTADOS 0.761049 0.238951 0.992879 0.968831
AAC IMPUTADOS 0.855586 0.144414 0.993458 0.959606
AMR IMPUTADOS 0.983414 0.0165855 0.991453 0.507857
MDE IMPUTADOS 0.980407 0.0195926 0.990912 0.584081
CAH IMPUTADOS 0.93793 0.0620703 0.993982 0.909959

Nuevos resúmenes estadísticos disponibles Hemos puesto a disposición del público varios resúmenes estadísticos de conjuntos de datos GWAS, con una mayor representación mundial:

  • Meta-GWAS europeos (EUR) del GP2 (prepublicación; GitHub)
  • GWAS de Sudáfrica (pendiente de prepublicación; GitHub)
  • GWAS de India (prepublicación; GitHub)
  • GWAS RBD (trastorno de conducta durante el sueño REM) (pendiente de prepublicación y de GitHub)
  • LARGE-PD GWAS, que incluye participantes de América Latina (pendiente de prepublicación y de GitHub)

Datos clínicos Esta aportación contiene datos clínicos de un total de 92,021 participantes de quienes disponemos de datos genéticos y datos clínicos principales. De estos, disponemos de datos de fenotipado clínico profundo de 26,982 participantes. Esta información contiene los siguientes datos: 

  • Edad en el momento del diagnóstico y de la aparición de síntomas
  • Diagnóstico principal, actual y más reciente
  • Exámenes cognitivos, como el Miniexamen Cognoscitivo (MMSE) y la Evaluación Cognitiva de Montreal (MoCA)
  • Revisión patrocinada por la Movement Disorder Society de la Escala de Valoración Unificada de la Enfermedad de Parkinson (MDS-UPDRS)
  • «Otros» fenotipos detallados, como la demencia de cuerpos de Lewy (LBD)

Datos a nivel individual Ahora recopilamos datos de un total de 124 cohortes. Consulte el Panel de cohortes del GP2 para obtener más información sobre las cohortes compartidas.  La ascendencia determinada genéticamente de los participantes genotipados del GP2 se divide en once grupos de ascendencia. Las siguientes tablas presentan detalles sobre la ascendencia determinada genéticamente de los participantes de esta aportación de datos que pasaron el control de calidad de matrices de datos y de secuenciación del genoma completo. Estos números reflejan muestras de aportaciones anteriores, reagrupadas en el archivo clúster actualizado y sujetas a control de calidad. También incluyen las nuevas muestras genotipadas, que son exclusivas de la presente aportación de datos. La última tabla presenta información sobre la ascendencia genéticamente determinada de ciertos fenotipos sin EP clasificados como «otros».

Matrices de datos genotipados – Décima aportación de datos del GP2
Ascendencia Total (+VWB) EP (+VWB) Control (+VWB) Otros (+VWB)
África 3,754 (3,780) 1,181 (1191) 2,305 (2,307) 268 (282)
Pob. africana mixta 1,192 (1,215) 361 (370) 760 (763) 71 (82)
Judíos asquenazíes 3,265 (3,472) 1,482 (1,531) 408 (435) 1,375 (1,506)
Poblaciones latinas e indígenas de las Américas 3,564 (3,608) 1,974 (1,995) 1,433 (1,439) 157 (174)
Asia Oriental 6,619 (6,662) 2,393 (2,411) 2,697 (2,705) 1,529 (1,546)
Europa 41,901 (58,823) 18,703 (26,778) 5,899 (10,372) 17,299 (21,673)
Asia Meridional 801 (945) 270 (317) 260 (269) 271 (359)
Asia Central 1670 (1691) 776 (782) 624 (626) 270 (283)
Oriente Medio 1349 (1,493) 675 (752) 535 (559) 139 (182)
Finlandia 116 (144) 87 (106) 8 (12) 21 (26)
Pob. mixtas complejas 1,072 (1,111) 684 (706) 329 (334) 59 (71)
Total 65,303 (82,944) 28,586 (36,939) 15,258 (19,821) 21,459 (26,184)

 

Datos de secuenciación del genoma completo – Décima aportación de datos del GP2
Ascendencia Total (+VWB) EP (+VWB) Control (+VWB) Otros (+VWB)
África 1,671 (1,696) 646 (656) 848 (853) 177 (187)
Pob. africana mixta 254 (267) 126 (130) 113 (114) 15 (23)
Judíos asquenazíes 1,389 (1,485) 337 (355) 100 (106) 952 (1,024)
Poblaciones latinas e indígenas de las Américas 301 (333) 154 (171) 24 (24) 123 (138)
Asia Oriental 2,525 (2,542) 576 (582) 343 (343) 1,606 (1,617)
Europa 8,354 (12,461) 4,155 (5,389) 1,131 (1,397) 3,068 (5,675)
Asia Meridional 309 (417) 47 (73) 10 (16) 252 (328)
Asia Central 833 (840) 259 (261) 329 (330) 245 (249)
Oriente Medio 788 (824) 386 (394) 308 (309) 94 (121)
Finlandia 22 (30) 17 (20) 4 (4) 1(6)
Pob. mixtas complejas 162 (178) 98 (103) 34 (35) 30 (40)
Total 16,608 (21,073) 6,801 (8,134) 3,244 (3,531) 6,563 (9,408)

 

«Otros» fenotipos – Décima aportación de datos del GP2 (en VWB)
Ascendencia NBA/WGS prodrómica PSP NBA/ WGS AD NBA/WGS DLB NBA/ WGS MSA NBA/ WGS CBD/CBS NBA/WGS FTD NBA/WGS
África 16/7 6/4 0/0 2/0 7/4 1/0 0/0
Pob. africana mixta 23/7 4/2 1/0 0/0 2/0 1/0 0/0
Judíos asquenazíes 308/71 23/12 9/0 14/6 8/3 4/3 2/1
Poblaciones latinas e indígenas de las Américas 30/11 5/0 5/0 2/0 2/0 1/0 0/0
Asia Oriental 27/4 14/63 4/4 18/0 6/178 2/32 0/0
Europa 4206/848 1307/ 920 484/136 442/340 421/ 334 166/159 65/63
Asia Meridional 3/2 34/32 1/0 5/1 5/8 9/9 2/2
Asia Central 4/4 4/1 70/72 4/1 1/0 4/1 0/0
Oriente Medio 14/1 9/4 2/2 1/0 0/0 1/1 1/1
Finlandia 9/0 2/1 2/0 0/0 1/1 0/0 1/0
Pob. mixtas complejas 9/2 7/5 5/4 3/1 1/0 0/0 1/1
Total 4649/957 1415/ 1044 583/218 491/349 454/ 528 189/205 72/68

 

Resumen de datos clínicos  – Décima aportación de datos del GP2 (en VWB)
Datos clínicos N, ID únicos N, ID con seguimiento
Edad en el momento de la recogida de la muestra 71,747
Edad en el momento de la aparición 38,718
Edad en el momento del diagnóstico 31,667
Historia familiar básica 92,021
Demografía 26,701
Estadio de Hoehn & Yahr 11,486 5,515
Puntaje UPDRS Parte 1 2,359 1,057
Puntaje UPDRS Parte 2 2,338 1,049
Puntaje UPDRS Parte 3 3,606 1,084
Puntaje UPDRS Parte 4 1,739 1,090
Puntaje MDS UPDRS Parte 1 5,168 2,802
Puntaje MDS UPDRS Parte 2 5,242 2,854
Puntaje MDS UPDRS Parte 3 7,532 2,870
Puntaje MDS UPDRS Parte 4 2,479 1,016
MOCA 9,500 2,753
MMSE 1,954
Puntaje RBD 3,986 3,290
Traumatismo craneoencefálico 5,495 3,747
Signos vitales 5,895 4,035
Olfato 5,200 1,466

Acceso a los datos

Muestras localmente restringidas sujetas al RGPD, vía Verily Viewpoint Workbench Seguimos haciendo pruebas para brindar acceso a muestras localmente restringidas; es decir, muestras sujetas al Reglamento General de Protección de Datos (RGPD), gracias a nuestra colaboración con Verily Viewpoint Workbench. Por ahora, y mientras el GP2 sigue desarrollando soluciones para la compartición de datos protegidos por el RGPD, los datos de la décima aportación con restricciones regionales solo están disponibles para miembros y socios del consorcio del GP2. A medida que las pruebas y la implementación sigan avanzando en 2025, esta solución estará también disponible para la comunidad de investigación en general. Todas las muestras de la décima aportación pueden encontrarse en Workbench, mientras que todas las muestras de la décima aportación no sujetas a los requisitos del RGPD pueden encontrarse en el Workbench comunitario de Terra (como en las publicaciones anteriores). Para obtener acceso a la aportación completa en VWB, usted debe:

  1. Contar con acceso de nivel 2 autorizado por el GP2
  2. Llenar el formulario de solicitud para muestras sujetas al RGPD
  3. Ser miembro del consorcio del GP2 (contribuir cohortes, ser socio del GP2 o ser miembro de un equipo de análisis de proyectos)

En futuras aportaciones, seguiremos ampliando la diversidad de los participantes. Los invitamos a visitar este panel para conocer nuestro progreso. Los usuarios que ya tengan acceso de nivel 2 pueden explorar los datos en más profundidad en nuestro navegador de cohortes, que presentamos en un artículo de blog anterior Como siempre, ¡consulte el README que acompaña cada aportación de datos del GP2 para obtener más detalles sobre recomendaciones de control de calidad, pipelines, datos y análisis!

Conozca a los autores

Director de la Red de colaboración en la investigación

Hampton Leonard

National Institute on Aging/National Institutes of Health | USA

Consultor

Mike A. Nalls, PhD

National Institutes of Health | USA

Científico de datos

Dan Vitale

National Institutes of Health | USA

Ingeniero de datos y software

Mathew Koretsky, BSc

National Institutes of Health | WA

Científico de datos

Kristin Levine, MSc

Data Tecnica International | USA

Científica de datos biomédicos, contratista

Mary B. Makarious, PhD

National Institutes of Health | Washington D. C.

Analista de datos clínicos

Lietsel Jones, MSc

Data Tecnica International | Bethesda

Científica

Zih-Hua Fang, PhD

German Center for Neurodegenerative Diseases

Member, Senior Associate Director

J C. Solle

The Michael J. Fox Foundation for Parkinson's Research, The Michael J. Fox Foundation for Parkinson's Research | USA