Les éléments de la quatrième édition des données du GP2
Retour aux blogs

Les éléments de la quatrième édition des données du GP2

Par Peter Heutink, Mike A. Nalls, Hampton Leonard, Mary B. Makarious, Dan Vitale, Zih-Hua Fang, Mathew Koretsky, et Kristin Levine | , , |
Author(s)
  • Foto Heutink

    Peter Heutink, docteur ès sciences

    German Center for Neurodegenerative Diseases | Allemagne

    Peter a fait des études de biologie moléculaire à l’Université d’Amsterdam et son doctorat au département de génétique clinique du Centre médical Erasmus de Rotterdam. En 1994, Peter constitue sa propre équipe de chercheurs pour se concentrer sur les maladies neurodégénératives telles que la démence fronto-temporale et la maladie de Parkinson. En 2003, il rejoi... Read More

  • Mike A. Nalls, docteur ès sciences

    Data Tecnica International | Etats-Unis

    Mike a fondé Data Tecnica au début de l’année 2017 après avoir passé plus de dix années à étudier méthodes et analyses de données dans le domaine des soins de santé et autres domaines scientifiques. Il compte à son actif plus de 350 publications scientifiques (avant l’âge de 40 ans) dans le domaine des statistiques appliquées aux grands jeux de données, malad... Read More

  • Hampton Leonard, diplômée en sciences

    Data Technica International / National Institutes of Health | Etats-Unis

    Hampton a un parcours dans le domaine des données scientifiques et de l’apprentissage machine qu’elle applique à de grands jeux de données multi-omiques dans le champ des maladies neurodégénératives. Elle se passionne pour la recherche sur ce qui distingue les niveaux cliniques et omiques et sur la façon dont ces différences influencent le résultat des essais clini... Read More

  • Mary B. Makarious, diplôme de sciences

    National Institutes of Health | EUA

    Mary est étudiante universitaire au Laboratoire de neurogénétique (LNG) des Instituts nationaux de la Santé, Institut national du vieillissement sous l’orientation Elle a étudié la bioinformatique et les neurosciences à l’Université Loyola, Chicago, EUA, avant de rejoindre le LNG, il y a deux ans. Son travaille consiste à appliquer l’apprentissage machine et les... Read More

  • Dan Vitale, diplômé en sciences

    Data Tecnica International | EUA

    Dan est consultant en données scientifiques chez Data Tecnica International, et collabore surtout avec le Laboratoire de neurogénétique à l’Institut national du vieillissement des Institut nationaux de la santé. Son travail porte sur la science ouverte, l’automatisation et le développement de flux et de logiciels d’analyses génétiques ainsi que l’apprentissage m... Read More

  • Zih-Hua Fang, docteur ès sciences

    German Center for Neurodegenerative Diseases | Allemagne

    Zih-Hua a fait sa licence à Taïwan, son doctorat à l'Université de Wageningen et à AgroParisTech en France, et son post-doctorat à l'ETH de Zurich. Ses domaines de recherche et son expérience sont centrés sur la génétique et la génomique de la reproduction animale. Zia-Hua dispose de six ans d'expérience en bioinformatique et en modélisation statistique, et est sp... Read More

  • Mathew Koretsky, diplômé en sciences

    National Institutes of Health | Etats-Unis

    Mathew est chercheur au Centre Alzheimer et maladies apparentées des National Institutes of Health. Ses travaux portent sur le développement de modes de traitement des données génétiques, sur l’application de l’apprentissage machine et des techniques de la science des données aux ensembles de données génomiques dans le cadre des maladies neurodégénératives.

  • Kristin Levine, master en sciences

    Data Tecnica International | Etats-Unis

    Kristin est scientifique des données auprès de Data Tecnica International et prête surtout un service de conseil au Centre Alzheimer et maladies apparentées (CARD) des National Institutes of Health. Écrivaine devenue scientifique de données, elle se passionne pour la science ouverte, la démocratisation des outils de recherche et pour rendre les données aussi claires et ... Read More

En février 2023, le GP2 a annoncé le publication de la quatrième édition de données sur la plateforme Terra, en collaboration avec AMP® PD. Cette dernière édition regorge de nouvelles données et ressources.

Cette édition comprend 2 583 participants supplémentaires dans la catégorie des maladies complexes, qui viennent s’ajouter aux éditions précédentes des réseaux de maladies complexes et monogéniques. Les données sur les maladies complexes totalisent désormais 17 485 participants au génotype référencé (9 429 MP ; 6 648 sujets de contrôle et 1 408 «autres»). Les nouvelles cohortes qui viennent s’ajouter au GP2 dans cette édition sont :

Le lignage génétiquement déterminé de la maladie complexe chez les participants du GP2 se divise en dix lignées (les neuf lignées ci-dessous et un petit nombre de Finlandais d’Europe). Le tableau ci-après présente la lignée génétiquement déterminée des participants à cette édition, atteints de maladies complexes, qui ont passé le contrôle de qualité et ont été pris en compte. Ces chiffres comprennent les échantillons des éditions précédentes, reclassés selon une nouvelle nomenclature et soumis à un contrôle de qualité, ainsi que de nouveaux échantillons génotypés et exclusifs à cette édition. Les futures publications de données contribueront à renforcer la diversité des participants disponibles. Vous pouvez consulter notre tableau de bord pour suivre nos progrès.

Une des mises à jour importante de cette édition est le petit changement introduit dans les seuils qui s’appliquent à notre chaîne de contrôle de qualité. Afin de partager un plus grand nombre d’échantillons, nous avons retiré les variants génotypés qui affichent systématiquement un niveau de qualité insuffisant avant de subir le contrôle de qualité. Une liste des variants peu performants est disponible sur le répertoire de métadonnées de la liste de niveau 2 sur Github. Nous avons également utilisé une simulation des taux d’échantillonnage moins exigeante, passant de 0,98 à 0.95. Ainsi, vous pourrez utiliser un plus grand nombre d’échantillons dans vos analyses, sans porter atteinte à la qualité.

Autre mise à jour de cette édition : la mise à jour des données cliniques. La colonne de phénotype («Phénotype») a été mise à jour pour n’inclure que les étiquette «MP», «contrôle» ou «Autres». Une colonne supplémentaire a été ajoutée, «autre_phéno», qui fournit une vignette de diagnostique plus détaillée sur les participants de la catégorie «Autres». Certaines de ces labels de diagnostiques plus détaillés incluent des sujets atteints et non atteints, passés au crible du recrutement génétique de la MP, SWEDD, MP prodormale ainsi que d’autres troubles tels que les tremblements essentiels (TE), la paralysie supranucléaire progressive (PSP), la démence à corps de Lewy (DCL) et l’atrophie multisystématisée (AMS).

Dans cette quatrième édition, nous avons également mis à jour la variabilité du nombre de copies d’un gène (NCV) pour tous les échantillons génotypés soumis au contrôle de qualité (niveau de gène plus 250kb de séquençage des régions flanquantes). Ces données ont été regroupées par génotype dans un fichier de classement propre au GP2 (disponible dans les paramètres des répertoires sous accès aux données de niveau 1 et 2). Le dossier de clusters et la procédure utilisée pour les probabilités des appels NCV sont disponibles sur le Githubdu du GP2  pour l’utilisation des données hors du GP2. Pour de plus amples informations sur les regroupements utilisant le fichier de génotypage spécifique au GP2 et les appels de variabilité du nombre de copies d’un gène, veuillez consulter «Les éléments de la troisième édition des données du GP2» sur le blog du GP2.

Des informations complémentaires sur la structure du génotype des maladies complexes et sur les données cliniques sont disponibles dans l’article «Les éléments de la première édition des données du GP2» ainsi que dans le document README, mis à jour pour cette édition et disponible dans les espaces de travail officiels du GP2 sur Terra. Les données monogéniques sur la maladie de Parkinson-séquençage de génome complet (PD WGS) sont également disponibles dans ce même document README.