Uso de Terra para acceder a los datos y realizar análisis

Los participantes aprenderán los entresijos de Terra durante este curso. Esto incluye aprender para qué se utiliza Terra (y para qué no). Los participantes también aprenderán sobre otros recursos disponibles y obtendrán una introducción a los cuadernos y a Google Cloud Platform, al mismo tiempo que aprenden a consultar datos y acceder a VCF y archivos relacionados.

Módulos

Terra es una plataforma basada en la nube que permite a los investigadores acceder a datos, realizar análisis y colaborar y compartir flujos de trabajo fácilmente con otros investigadores.

En la primera lección aprenderás:

  • Descubre lo que viene en este curso
  • Comprenda qué es Terra y para qué se utiliza

La Asociación para Acelerar el Uso de Medicamentos para el Parkinson (AMP-PD) ofrece un portal con datos anónimos de pacientes con Parkinson y sujetos de control sanos para uso de los investigadores. El objetivo de AMP-PD es acelerar los ensayos a través de biomarcadores de diagnóstico, pronóstico y progresión.

En esta lección aprenderás:

  • Descubra cómo acceder a los conjuntos de datos AMP-PD
  • Conozca qué recursos están disponibles en AMP-PD y Terra para ayudarlo en su aprendizaje

Los cuadernos son archivos que contienen código, comentarios y documentación integrados. Terra ha integrado Jupyter Notebooks para proporcionar a la infraestructura análisis interactivos.

En esta lección aprenderás:

  • Comprender la estructura de un cuaderno
  • Descubre lo que puedes hacer con un cuaderno
  • Ver ejemplos de Cuadernos Terra

Google Cloud Platform es un conjunto de servicios de computación en la nube que ofrece almacenamiento de datos, análisis de datos y aprendizaje automático. Los archivos de datos sin procesar y los archivos de datos clínicos de AMP-PD se almacenan en la plataforma.

Google BigQuery es un almacén de datos que te permite consultar los datos que quieras de las bases de datos principales. Varias de las bases de datos AMP-PD disponibles se almacenan en formato de consulta en Google BigQuery.

En esta lección aprenderás:

  • Obtenga más información sobre Google Cloud Platform y Google BigQuery
  • Descubra cómo se almacenan los datos de AMP-PD en la nube y cómo acceder a ellos
  • Vea demostraciones de la plataforma en uso

Ahora que se ha familiarizado con Google Cloud Platform y BigQuery, puede continuar obteniendo los datos de las tablas de Big Query en su cuaderno mediante SQL, un lenguaje utilizado para la gestión y recuperación de datos.

En esta lección aprenderás:

  • Aprenda a utilizar consultas SQL para consultar datos clínicos de AMP-PD
  • Aprenda a utilizar consultas SQL para consultar datos de variantes de AMP-PD
  • Practique la manipulación de datos en un cuaderno y la escritura de los resultados en el cubo.

Algunos archivos disponibles en la nube no se pueden consultar a través de BigQuery usando SQL. Estos son los archivos de datos sin procesar y se almacenan en Google Buckets, y se accede a ellos desde la línea de comandos mediante la aplicación de Python, gsutil.

En esta lección aprenderás:

  • Aprenda a encontrar los archivos genéticos disponibles
  • Aprenda a ver las ubicaciones de los archivos en un cuaderno
  • Comprenda cómo utilizar gsutil para acceder a los datos

Almacenar y acceder a los datos en la nube cuesta dinero. Pero una vez que comprende la estructura de precios y sigue algunos principios básicos, es posible mantener bajos sus costos.

En esta lección aprenderás:

  • Comprenda la estructura de precios para ejecutar cuadernos y consultas
  • Obtenga consejos para mantener sus precios bajos

En esta lección, utilizará toda la información aprendida para ejecutar un análisis en Terra.

Utilizará datos de AMP-PD y Plink, una herramienta de análisis de asociación de genoma completo de código abierto, para realizar un análisis de casos y controles utilizando la prueba exacta de Fisher, que se utiliza para determinar si existen asociaciones no aleatorias entre dos variables. Esto probará si la distribución de los alelos mayores y menores para esa variante es significativamente diferente entre los participantes con un diagnóstico de enfermedad de Parkinson y los participantes sin diagnóstico.

En esta lección aprenderás:

  • Descubra qué software necesitará y cómo descargarlo
  • Ejecutar un análisis de principio a fin en un cuaderno Terra