Utilisation de Terra pour accéder aux données et effectuer des analyses

Les participants apprendront les tenants et aboutissants de Terra au cours de ce cours. Cela inclut l’apprentissage de l’utilisation de Terra (et de ce à quoi elle ne sert pas). Les participants découvriront également d’autres ressources disponibles et bénéficieront d’une introduction aux notebooks et à Google Cloud Platform tout en apprenant à interroger les données et à accéder aux fichiers VCF et associés.

Modules

Terra est une plateforme basée sur le cloud qui permet aux chercheurs d’accéder aux données, d’effectuer des analyses et de collaborer et de partager facilement des flux de travail avec d’autres chercheurs.

Dans la première leçon, vous :

  • Découvrez ce qui vous attend dans ce cours
  • Comprendre ce qu’est Terra et à quoi il sert

L’Accelerating Medicines Partnership for Parkinson’s (AMP-PD) fournit un portail avec des données anonymisées de patients atteints de la maladie de Parkinson et de sujets témoins sains à l’usage des chercheurs. L’objectif d’AMP-PD est d’accélérer les essais grâce à des biomarqueurs diagnostiques, pronostiques et de progression.

Dans cette leçon, vous allez :

  • Découvrez comment accéder aux ensembles de données AMP-PD
  • Découvrez quelles ressources sont disponibles auprès d’AMP-PD et de Terra pour vous aider dans votre apprentissage

Les notebooks sont des fichiers contenant du code, des commentaires et de la documentation intégrés. Terra a intégré Jupyter Notebooks, pour fournir à l’infrastructure des analyses interactives

Dans cette leçon, vous allez :

  • Comprendre la structure d’un cahier
  • Découvrez ce que vous pouvez faire avec un carnet de notes
  • Voir des exemples de carnets Terra

Google Cloud Platform est une suite de services de cloud computing offrant le stockage de données, l’analyse de données et l’apprentissage automatique. Les fichiers de données brutes et les fichiers de données cliniques pour AMP-PD sont stockés sur la plateforme.

Google BigQuery est un entrepôt de données qui vous permet d’interroger les données que vous souhaitez à partir des principales bases de données. Un certain nombre de bases de données AMP-PD disponibles sont stockées dans un format interrogeable dans Google BigQuery.

Dans cette leçon, vous allez :

  • En savoir plus sur Google Cloud Platform et Google BigQuery
  • Découvrez comment les données AMP-PD sont stockées dans le cloud et comment y accéder
  • Voir les démos de la plateforme en cours d’utilisation

Maintenant que vous vous êtes familiarisé avec Google Cloud Platform et BigQuery, vous pouvez récupérer les données des tables Big Query dans votre bloc-notes à l’aide de SQL, un langage utilisé pour la gestion et la récupération des données.

Dans cette leçon, vous allez :

  • Découvrez comment utiliser les requêtes SQL pour interroger les données cliniques AMP-PD
  • Découvrez comment utiliser les requêtes SQL pour interroger les données des variantes AMP-PD
  • Entraînez-vous à manipuler des données dans un bloc-notes et à écrire les résultats dans le compartiment

Certains fichiers disponibles sur le cloud ne peuvent pas être interrogés via BigQuery à l’aide de SQL. Ce sont les fichiers de données brutes et ils sont stockés dans Google Buckets et sont accessibles depuis votre ligne de commande à l’aide de l’application Python, gsutil.

Dans cette leçon, vous allez :

  • Apprenez à trouver les fichiers génétiques disponibles
  • Découvrez comment afficher les emplacements des fichiers dans un bloc-notes
  • Comprendre comment utiliser gsutil pour accéder aux données

Le stockage et l’accès aux données sur le cloud coûtent de l’argent. Mais une fois que vous comprenez la structure des prix et que vous suivez certains principes de base, il est possible de réduire vos coûts.

Dans cette leçon, vous allez :

  • Comprendre la structure tarifaire pour l’exécution de blocs-notes et de requêtes
  • Obtenez des conseils pour maintenir vos prix bas

Dans cette leçon, vous utiliserez toutes les informations apprises pour exécuter une analyse sur Terra.

Vous utiliserez les données AMP-PD et Plink, un outil d’analyse d’association du génome entier open source, pour effectuer une analyse cas/témoins à l’aide du test exact de Fisher, qui est utilisé pour déterminer s’il existe des associations non aléatoires entre deux variables. Cela permettra de tester si la distribution des allèles majeurs et mineurs de cette variante est significativement différente entre les participants ayant reçu un diagnostic de maladie de Parkinson et les participants sans diagnostic.

Dans cette leçon, vous allez :

  • Découvrez les logiciels dont vous aurez besoin et comment les télécharger
  • Exécutez une analyse du début à la fin dans un bloc-notes Terra