介绍如何使用Workspaces和GP2数据
返回到博客

介绍如何使用Workspaces和GP2数据

由 复杂疾病-数据分析工作组 | , , |
Author(s)
  • 复杂疾病-数据分析工作组

    |

    本篇博文由GP2复杂疾病数据分析工作组成员撰写:Hampton Leonard, Mike Nalls, Yeajin Song, Dan Vitale.

全球帕金森病遗传学项目(GP2)和加速帕金森病药物合作项目(AMP® PD) 产生的数据都托管在 Terra,Terra是一个由博德研究所与微软、Verily合作开发的生物信息学云平台。Terra允许您直接在云端进行分析,无需将数据下载到您的个人电脑。这使我们能够在数据保护和隐私方面坚持标准,并通过结构化的可共享的代码和结果,促进开放科学和可重复性。Terra支持两种类型的分析:Jupyter notebooks和WDL workflows。notebooks将文件分解为包含代码片断的单元格,允许用户按顺序运行分析。notebooks支持包括Python在内的多种语言,适用于很多类型的分析,在可视化和文件编制方面也很好用。有一天您可能会发现,您需要更多的算力或更长的分析运行时间,超出了notebook的性能范围。在这种情况下,您不妨选择Terra workflow。这些都是使用WDL(读作 “widdle”)语言建立的,和所有云服务器上一样支持批量提交。Workflows很适合高功率分析,比如大样本量的对齐或GWAS。

Notebook结构实例

WDL结构实例

当您获得GP2数据的访问权,也同时获得GP2 Terra官方workspaces的访问权。第一层和第二层的workspaces都会有README文件,可以从中查看最新发布的GP2数据。我们强烈建议您阅读README文件,因为它提供了每次发布的所有文件的解释。请经常查看这些workspaces,因为更多与GP2数据相关的代码资源、notebooks和workflows将随着开发进程而被托管在这里。首先,您需要向GP2提交一个项目提案供审查。一旦获得批准,您的机构将创建一个计费项目和workspace,或者GP2将以您的机构的名义帮您创建一个。workspace创建好后,您可以开始了,首先建立一个用于分析的notebook。为了运行notebook,您将需要创建一个云环境。您可以按照您的需求定制云环境,但如果您打算使用目前的所有归纳复杂疾病GP2数据,请确保申请至少100GB的持久性磁盘空间,以便你有足够的空间来处理截至2.0版的82GB的数据。您可以随时尝试不同的选项,找到最合适您的选项,但请注意,更多的资源意味着更高的成本。

云环境实例

一旦您的云环境运行起来,并创建了新的notebook,您就可以开始分析了。为了更好地创建您的notebook,您可以参考下方的以及GP2官方workspace提供的一些有用的功能包和变量。

实用功能包

环境设置

您可使用gsutil工具集,来查看可用的数据并将数据从云端转移到您的workspace。例如,要列出gp2tier2 bucket 中的可用数据,您可以使用这样 的命令,它将列出第2版发布文件夹中的所有可用文件。您可以改变路径来查找每个目录,例如,如果将路径改为这样,它会列出了按预测祖先分类的归因基因型数据的文件夹。 一旦您找到了您所需要的文件,您可以像这样将它们复制到您的workspace:首先,建立一个目录来复制文件。然后把它们复制到你的新目录。在这个例子中,我们从Nalls et al.2019复制了PD汇总统计数据,其中不含23andMe数据。 检查一下文件,以确保所有东西都被正确地复制过来。现在,您的数据已经就位,可以开始分析了!


这个简单的小例子为您介绍了如何使用GP2数据的workspace和notebook,如果您想看更深入的Terra教程,请查看GP2学习管理系统并完成 “课程一”。使用Terra访问数据并进行分析