Introducción sobre los espacios de trabajo y sobre cómo usar los datos del GP2

septiembre 2, 2022

Por Grupo de Trabajo de Análisis de Datos sobre Enfermedad de Parkinson de Etiología Compleja del GP2

Graphic with a blue-to-green gradient background featuring the text: "How to Analyze GP2 Data on Terra" in bold white letters. Below the text, part of a computer screen is visible, displaying the "Welcome to Terra Community Workbench."

Los datos generados tanto por el Global Parkinson’s Genetics Program (GP2) como por Accelerating Medicines Partnership in Parkinson’s Disease (AMP® PD) están alojados en Terra, una plataforma de bioinformática en la nube desarrollada por el Broad Institute en colaboración con Microsoft y Verily. Terra permite hacer análisis directamente en la nube, sin necesidad de descargar los datos en la computadora. Gracias a este sistema, podemos acogernos a altos estándares de protección de datos y privacidad, y apostar por la ciencia abierta y la reproducibilidad mediante códigos y resultados estructurados y fáciles de compartir. Terra admite dos tipos de análisis: Jupyter Notebooks y flujos de trabajo WDL. Los Jupyter Notebooks son documentos divididos en celdas que contienen fragmentos de código y que permiten ejecutar análisis secuenciales. Estos Notebooks admiten varios lenguajes, como Python, que sirven para hacer una gran variedad de análisis y son muy útiles para la interpretación visual de datos y la preparación de documentación. Puede que, con el tiempo, sus análisis requieran una potencia de computación o un tiempo de ejecución que superan los límites de lo que puede hacer una laptop. Para estos casos, puede recurrir a los flujos de trabajo de Terra. Dichos flujos de trabajo usan el lenguaje WDL (pronunciado «widel») y se envían igual que los trabajos por lotes en cualquier servidor en la nube. Son ideales para análisis que requieren una alta computación, como los análisis de alineación o GWAS con un gran número de muestras.

Ejemplo de estructura de Jupyter Notebook

Ejemplo de estructura de WDL

Al obtener acceso a los datos del GP2, también se obtiene acceso a los espacios de trabajo oficiales de GP2 Terra. Tanto el espacio de trabajo de nivel 1 como el de nivel 2 incluyen un archivo README correspondiente a la publicación de datos más reciente del GP2. Le recomendamos encarecidamente que lea este documento, que proporciona información sobre todos los archivos que conforman cada publicación de datos. Le invitamos a consultar estos espacios de trabajo con frecuencia, ya que iremos publicando más fragmentos de código, Notebooks y flujos de trabajo relativos a los datos del GP2 a medida que dispongamos de ellos. Para empezar, tendrá que presentar una idea de proyecto al GP2 para su revisión. Una vez aprobado, su institución deberá crear un proyecto de facturación y un espacio de trabajo, o el GP2 lo puede crear en su nombre. Una vez configurado el espacio de trabajo, puede empezar creando un Notebook nuevo para llevar a cabo un análisis. Para ejecutar un Notebook, tendrá que crear un entorno en la nube. Puede personalizar su entorno en la nube para que se adapte a sus necesidades, pero, si tiene previsto usar todos los datos del GP2 sobre enfermedades complejas actualmente disponibles, asegúrese de solicitar al menos 100 GB de memoria de disco persistente para tener espacio suficiente para ejecutar los 82 GB de datos que contiene la versión 2.0. Puede jugar con las distintas opciones para encontrar la configuración perfecta, pero es importante tener en cuenta que a mayor número de recursos, mayor será el costo.

Ejemplo de entorno en la nube

Una vez que tenga su entorno en la nube listo y haya configurado su Notebook, ya podrá proceder a ejecutar el análisis. Para configurar un Notebook, puede aprovechar los paquetes y variables que le proporcionamos a continuación (también los encontrará en los espacios de trabajo oficiales del GP2).

Paquetes útiles

Configuración del entorno

Para ver los datos disponibles y trasladar los datos de la nube a su espacio de trabajo, puede usar el conjunto de herramientas gsutil. Por ejemplo, para enumerar los datos disponibles en el depósito gp2tier2 puede usar un comando como este Este comando enumerará todos los archivos disponibles en la carpeta de la versión 2 Puede cambiar las rutas para buscar en cada directorio. Por ejemplo, si establece la ruta como , se enumerarán las carpetas con los datos de genotipos imputados divididas por ascendencia predicha Una vez que haya decidido qué archivos necesita, puede copiarlos en su espacio de trabajo de la siguiente manera: Primero, cree un directorio donde copiará los archivos. Luego, copie los archivos en su nuevo directorio. En este ejemplo, copiamos el resumen estadístico de la EP de Nalls et al. 2019 sin datos de 23andMe. Compruebe que todos los archivos se hayan copiado correctamente. Para ello, eche un vistazo a los archivos: Ahora, ¡sus datos están listos para empezar el análisis!


En este artículo, repasamos brevemente un ejemplo sobre cómo usar los espacios de trabajo y los Notebooks con los datos del GP2. Si desea consultar un tutorial de Terra más detallado, diríjase al Learning Management System del GP2 y complete el siguiente curso: «Course 1: Using Terra to Access Data and Perform Analyses» (Usar Terra para acceder a datos y realizar análisis).

Conozca a los autores

Grupo de Trabajo de Análisis de Datos sobre Enfermedad de Parkinson de Etiología Compleja del GP2