Les éléments de la cinquième édition des données du GP2
Retour aux blogs

Les éléments de la cinquième édition des données du GP2

Par Mike A. Nalls, Hampton Leonard, Mary B. Makarious, Dan Vitale, Zih-Hua Fang, Mathew Koretsky, et Kristin Levine | , , |
Author(s)
  • Mike A. Nalls, docteur ès sciences

    Data Tecnica International | Etats-Unis

    Mike a fondé Data Tecnica au début de l’année 2017 après avoir passé plus de dix années à étudier méthodes et analyses de données dans le domaine des soins de santé et autres domaines scientifiques. Il compte à son actif plus de 350 publications scientifiques (avant l’âge de 40 ans) dans le domaine des statistiques appliquées aux grands jeux de données, malad... Read More

  • Hampton Leonard, diplômée en sciences

    Data Technica International / National Institutes of Health | Etats-Unis

    Hampton a un parcours dans le domaine des données scientifiques et de l’apprentissage machine qu’elle applique à de grands jeux de données multi-omiques dans le champ des maladies neurodégénératives. Elle se passionne pour la recherche sur ce qui distingue les niveaux cliniques et omiques et sur la façon dont ces différences influencent le résultat des essais clini... Read More

  • Mary B. Makarious, diplôme de sciences

    National Institutes of Health | EUA

    Mary est étudiante universitaire au Laboratoire de neurogénétique (LNG) des Instituts nationaux de la Santé, Institut national du vieillissement sous l’orientation Elle a étudié la bioinformatique et les neurosciences à l’Université Loyola, Chicago, EUA, avant de rejoindre le LNG, il y a deux ans. Son travaille consiste à appliquer l’apprentissage machine et les... Read More

  • Dan Vitale, diplômé en sciences

    Data Tecnica International | EUA

    Dan est consultant en données scientifiques chez Data Tecnica International, et collabore surtout avec le Laboratoire de neurogénétique à l’Institut national du vieillissement des Institut nationaux de la santé. Son travail porte sur la science ouverte, l’automatisation et le développement de flux et de logiciels d’analyses génétiques ainsi que l’apprentissage m... Read More

  • Zih-Hua Fang, docteur ès sciences

    German Center for Neurodegenerative Diseases | Allemagne

    Zih-Hua a fait sa licence à Taïwan, son doctorat à l'Université de Wageningen et à AgroParisTech en France, et son post-doctorat à l'ETH de Zurich. Ses domaines de recherche et son expérience sont centrés sur la génétique et la génomique de la reproduction animale. Zia-Hua dispose de six ans d'expérience en bioinformatique et en modélisation statistique, et est sp�... Read More

  • Mathew Koretsky, diplômé en sciences

    National Institutes of Health | Etats-Unis

    Mathew est chercheur au Centre Alzheimer et maladies apparentées des National Institutes of Health. Ses travaux portent sur le développement de modes de traitement des données génétiques, sur l’application de l’apprentissage machine et des techniques de la science des données aux ensembles de données génomiques dans le cadre des maladies neurodégénératives.

  • Kristin Levine, master en sciences

    Data Tecnica International | Etats-Unis

    Kristin est scientifique des données auprès de Data Tecnica International et prête surtout un service de conseil au Centre Alzheimer et maladies apparentées (CARD) des National Institutes of Health. Écrivaine devenue scientifique de données, elle se passionne pour la science ouverte, la démocratisation des outils de recherche et pour rendre les données aussi claires et ... Read More

En mai 2023, le GP2 a annoncé la diffusion de la cinquième édition de données sur la plateforme Terra en collaboration avec AMP® PD.

Cette édition recense 7 462 nouveaux participants dans la catégorie des maladies complexes et 487 dans celle des maladies monogéniques qui viennent s’ajouter au données des éditions précédentes issues du réseau des maladies complexes.

  • Les données sur les maladies complexes comptent désormais un total de 24,935 participants génotypés (12 728 atteints de MP, 10 533 cas témoins et 1 674 « autres » phénotypes).
  • Les données sur les maladies monogéniques portent maintenant sur un total de 722 participants dont le séquençage de génome complet a été effectué.

Données individuelles:

Les nouvelles cohortes ajoutées au GP2 dans cette diffusion sont:

  • La « Arizona Brain Bank » et le programme « Brain and body donation program » (BBDP) sont des banques de cerveaux basées aux États-Unis
  • L’étude IMMUNEPD (Immunité innée et adaptative dans la maladie de Parkinson) est menée aux États-Unis par l’Université d’Alabama à Birmingham
  • {IPDGC Afrique (IPDGCAF-NG), une cohorte du Nigéria
  • PDGENEration (PDGNRTN), une cohorte de la La Parkinson’s Foundation
  • Étude génétique de la maladie de Parkinson et des troubles connexes du mouvement (STELLENBOS), une cohorte sud-africaine de l’Université de Stellenbosch
  • La cohorte malaisienne de la maladie génétique de Parkinson (UMKLM), une cohorte malaisienne de l’Université de Malaya.
  • Corrélations génotype-phénotype dans la maladie de Parkinson et les troubles connexes du mouvement (KUL), une cohorte monogénique de l’Université de Malaisie
  • « Parkinson Disease and Movement Disorders Center Biorepository » (PDMDC), une cohorte monogénique de l’Université Northwestern

Les participants au GP2 atteints de maladies complexes ont leur ascendance génétiquement déterminée et répartie en dix groupes ; le tableau ci-dessous détaille l’ascendance des participants à cette édition qui ont passé le contrôle qualité et ont été comptabilisés. Ces chiffres prennent en compte les données des éditions précédentes réorganisées selon une nouvelle méthode de cluster et soumises à un contrôle qualité, ainsi que de nouveaux échantillons génotypés et spécifiques à cette édition.

Points important de cette édition : STELLENBOS est une cohorte sud-africaine qui présente des brassages d’ascendance génétique reflétant cette région et son histoire. Certaines prédictions d’ascendance concernant les membres de cette étude pourront évoluer lorsque cette nouvelle population sera prise en compte dans les futures éditions. Dans cette édition nous fournissons des estimations de brassage pour tous les participants afin que les chercheurs puissent choisir si et comment ils doivent inclure un taux de brassage élevé dans leur analyse des données du niveau 2. Nous publions également la liste des échantillons que nous recommandons d’éliminer à ce stade de l’analyse car leurs niveaux de brassage élevés conduisent à un indice de confiance plus faible dans les prédictions d’ascendance de notre modèle actuel.

L’ascendance génétiquement déterminée des participants au GP2 sur les maladies monogéniques est estimée à partir des mêmes données que l’ascendance des participants sur les maladies complexes. Le tableau ci-dessous détaille l’ascendance génétiquement déterminée des participants aux maladies monogéniques dans la cinquième édition du GP2.

Les futures diffusions de données contribueront à renforcer la diversité du groupe des participants disponibles. Vous pouvez consulter notre tableau de bord pour suivre nos progrès. Dans cette nouvelle édition, une mise à jour importante concerne une modification à la marge de la méthode utilisée pour déterminer les liens de parenté des participants. Nous utilisons maintenant le logiciel KING. Ce changement peut avoir affecté des estimations de la parenté précédemment diffusées pour certains de nos participants. À la suite de cette modification un fichier détaillant les degrés de parenté estimés sera désormais mis à la disposition des chercheurs lors de la diffusion afin qu’ils puissent l’utiliser pour leur propre filtrage. En plus des composantes principales estimées, nous calculons maintenant les composantes principales par ascendance et les mettons à disposition pour des analyses en aval. 

Synthèse statistique :

Nous sommes fiers d’annoncer que de nouvelles synthèses statistiques sont également disponibles en accédant au premier tiers de données de cette édition. Kim « et coll. » 2023 est également disponible grâce à notre partenariat en cours, en accédant le portailNeurodegenerative Disease Knowledge Portal.

  • Nalls « et coll. » 2019 without 23andme in hg38 (la plus grande étude d’association pangénomique européenne sur la maladie de Parkinson) (PD GWAS).
  • Loesch « et coll. » 2021 (la plus grande étude d’association pangénomique latino-américaine/amérindienne sur la maladie de Parkinson)
  • Kim « et coll. » 2023 without 23andme (méta-analyse de multi-ascendance sur les risques de la maladie de Parkinson incluant les Européens, les Asiatiques de l’Est, les Latino-Américains/Amérindiens et les Afro-Américains)
  • Rizig « et coll. » 2023 sans 23andme dans hg38 (la plus grande étude d’association pangénomique africaine et africaine mixte ; utilise les données de la cinquième édition du GP2)

Variation du nombre de copies :

La variation du nombre de copies (CNV) pour tous les échantillons génotypés ayant passé le contrôle de qualité (au niveau du gène plus 250kb de séquençage des régions flanquantes) a été mise à jour pour inclure tous les échantillons dans la cinquième édition du GP2. Ces données ont été regroupées par génotype dans un fichier de classement propre au GP2 (disponible dans les paramètres des répertoires sous accès aux données de niveau 1 et 2). Le fichier de classement et la procédure utilisée pour les appels probabilistes de la variation du nombre de copies sont disponibles sur le Github du GP2 pour l’utilisation des données hors du GP2. Pour plus d’informations concernant le regroupement par génotype dans le fichier de classement propre au GP2 et les appels probabilistes de la variation du nombre de copies, veuillez consulter « Les éléments de la troisième publication de données du GP2 » sur le blog de GP2. Des informations complémentaires sur la structure du génotype des maladies complexes et sur les données cliniques sont détaillées sur le blog « Les éléments de la première publication des données de GP2 » ainsi que dans le README qui a été mis à jour pour cette nouvelle édition et qui est disponible sur les espaces de travail officiels de GP2 Terra. Les données monogéniques sur la maladie de Parkinson-séquençage de génome complet (PD WGS) sont également disponibles dans ce même document README. 

{Comme toujours, veuillez-vous référer au README qui accompagne chaque nouvelle édition du GP2 pour plus de détails concernant les procédures, les données et les analyses!


Au nom des groupes de travail du GP2 sur l’analyse des données relatives aux maladies complexes, sur l’analyse des données relatives aux maladies monogéniques et sur la diffusion des données et des codes.