使用 Terra 访问数据并执行分析

参与者将在本课程中了解 Terra 的来龙去脉。这包括了解 Terra 的用途(以及不用于什么)。参与者还将了解其他可用资源并获得笔记本和 Google Cloud Platform 的介绍,同时学习如何查询数据和访问 VCF 和相关文件。

模块

Terra 是一个基于云的平台,允许研究人员访问数据、执行分析以及轻松地与其他研究人员协作和共享工作流程。

在第一课中你将:

  • 了解本课程的内容
  • 了解 Terra 是什么以及它的用途

加速帕金森病药物伙伴关系 (AMP-PD) 提供了一个门户网站,其中包含帕金森病患者和健康对照受试者的匿名数据,供研究人员使用。AMP-PD 的目的是通过诊断、预后和进展生物标志物来加速试验。

在本课中你将:

  • 了解如何访问 AMP-PD 数据集
  • 了解 AMP-PD 和 Terra 提供哪些资源来协助您的学习

笔记本是包含代码和嵌入注释和文档的文件。Terra 集成了 Jupyter Notebooks,为基础设施提供交互式分析

在本课中你将:

  • 了解笔记本的结构
  • 了解你可以用笔记本做什么
  • 查看 Terra Notebooks 的示例

Google Cloud Platform 是一套云计算服务,提供数据存储、数据分析和机器学习。该平台上存储了AMP-PD的原始数据文件和临床数据文件。

Google BigQuery 是一个数据仓库,可让您从主数据库中查询所需的数据。许多可用的 AMP-PD 数据库以可查询的格式存储在 Google BigQuery 中。

在本课中你将:

  • 了解有关 Google Cloud Platform 和 Google BigQuery 的更多信息
  • 了解 AMP-PD 数据在云中的存储方式及其访问方法
  • 查看平台使用演示

现在您已经熟悉了 Google Cloud Platform 和 BigQuery,您可以继续使用 SQL(一种用于数据管理和检索的语言)将数据从 Big Query 表传输到您的笔记本中。

在本课中你将:

  • 了解如何使用 SQL 查询来查询 AMP-PD 临床数据
  • 了解如何使用 SQL 查询来查询 AMP-PD 变体数据
  • 练习在笔记本中操作数据并将结果写入存储桶

云端上的某些文件无法使用 SQL 通过 BigQuery 进行查询。这些是原始数据文件,存储在 Google Buckets 中,可以使用 python 应用程序 gsutil 从命令行访问。

在本课中你将:

  • 了解如何查找可用的基因文件
  • 了解如何查看笔记本中的文件位置
  • 了解如何使用 gsutil 访问数据

在云端存储和访问数据需要花钱。但一旦您了解了定价结构并遵循一些基本原则,就有可能降低成本。

在本课中你将:

  • 了解运行笔记本和查询的定价结构
  • 获得保持低价的秘诀

在本课中,您将使用所学到的所有信息对 Terra 进行分析。

您将使用 AMP-PD 数据和开源全基因组关联分析工具 Plink,使用 Fisher 精确检验进行病例/对照分析,用于确定两个变量之间是否存在非随机关联。这将测试患有帕金森病的参与者和未患有帕金森病的参与者之间该变异的主要和次要等位基因的分布是否存在显著差异。

在本课中你将:

  • 了解您需要哪些软件以及如何下载
  • 在 Terra 笔记本中从头到尾运行分析