GP2第四次数据发布内容
返回到博客

GP2第四次数据发布内容

由 Zih-Hua Fang, Mike A. Nalls, Hampton Leonard, Mary B. Makarious, Dan Vitale, Peter Heutink, Mathew Koretsky,理学学士, 和 <b>Kristin Levine | , , |
Author(s)
  • Zih-Hua Fang, PhD

    德国神经退行性疾病研究中心 | 德国

    Zih-Hua在台湾完成了学士学位,在瓦赫宁根大学和法国的巴黎高科农业学院获得了博士学位,在苏黎世联邦理工学院获得了博士后学位。她的研究兴趣和经验集中于动物育种的遗传学和基因组学。Zia-Hua在生物信息学和统计建模方面拥有6年的经验,并在短期和长期阅读的全基因组测序方面�... Read More

  • Mike A. Nalls, PhD

    Data Tecnica International公司 | 美国

    在医疗和其他科学领域的大数据集分析和方法研究方面工作十多年后,Mike于2017年初创立了Data Tecnica公司。他在大数据集、脑部疾病和基因组学的应用统计学领域发表了350多篇经过同行审议的文章(40岁之前)。他是开放科学、合作和科学透明的坚定倡导者。您可通过推特、谷歌学术或领�... Read More

  • Hampton Leonard, MS

    Data Tecnica International公司/国立卫生研究院 | 美国

    Hampton拥有数据科学和机器学习的背景,并将其应用于神经退行性疾病领域的大型多组学数据集。她热爱研究临床和组学水平的差异,以及这些差异如何影响临床试验结果。她还积极为科学社区提供培训和资源,包括创建代码笔记本、工作流程,以及设计和牵头举办编程马拉松。电子邮箱�... Read More

  • Mary B. Makarious, BSc

    国立卫生研究院 | 美国

    Mary是美国国立卫生研究院国家衰老研究所神经遗传学实验室(LNG)的研究生,师从Andrew Singleton博士和Mike Nalls博士。她在美国伊利诺伊州芝加哥的洛约拉大学学习生物信息学和神经科学,之后入职LNG,在LNG工作已有两年。她的工作包括应用机器学习和数据科学技术研究帕金森病和其它神�... Read More

  • Dan Vitale, MS

    Data Tecnica International公司 | 美国

    Dan是Data Tecnica公司的数据科学顾问,主要为国立卫生研究院国家衰老研究所的神经遗传学实验室提供咨询。他的研究重点为开放科学、遗传分析管道和软件的自动化和开发,以及机器学习。电子邮箱:[email protected]

  • Foto Heutink

    Peter Heutink, PhD

    德国神经退行性疾病研究中心 | 德国

    Peter曾在阿姆斯特丹大学学习分子生物学,并在鹿特丹伊拉斯姆斯医学中心的临床遗传学系完成了博士学位。1994年,Peter建立了自己的研究小组,重点研究神经退行性疾病,如额颞痴呆和帕金森病。2003年,他移居阿姆斯特丹的VU大学医学中心,在那里他跟合作伙伴共同创立了神经基因组学... Read More

  • Mathew Koretsky,理学学士

    国立卫生研究院 | 美国

    本科毕业后,Mathew在美国国立卫生研究院的阿兹海默症及相关痴呆症中心担任研究员。他的工作重点是开发遗传数据处理管道,并将机器学习和数据科学技术应用于神经退行性疾病领域的基因组数据集。

  • <b>Kristin Levine, </b>美国理学硕士(MS)

    Data Tecnica International公司 | 美国

    Kristin是Data Tecnica International的数据科学家,主要为美国国立卫生研究院阿尔茨海默症及相关痴呆症中心(CARD)提供咨询服务。作为一名作家出身的数据科学家,Kristin对开放科学、普及研究工具以及尽可能改善数据的清晰度和可访问性抱有极大的热情。

2023年2月,GP2与AMP® PD一起在Terra平台进行了第四次数据发布。此次发布包含了海量的新数据和新资源。

本次发布包括2583个新增的复杂疾病参与者,对之前发布的复杂基因和单基因网络进行了补充。复杂疾病数据现在包括总共 17,485 名基因型参与者(PD组9429 人;控制组6648人,“其他组”1408 人)。此次发布的GP2的新增队列有:

GP2复杂疾病参与者根据他们基因决定的血统分为十个血统组(以下九个组增加了少量的芬兰欧洲人);下表详细介绍本次数据发布中复杂疾病参与者的基因决定的血统,这些参与者已通过了质量控制并被推算。这些数字包括以前版本的样本,这些样本已经使用新的集群文件重新聚集,并通过了质量控制,同时还包括本次发布的新基因型和共享样本。 未来的数据发布还将继续提高参与者的多元性。您可以在操作面板上查看我们的进展

此版本的一个重要更新是对我们的QC渠道中使用的一个阈值进行了微调。为分享更多样本,我们已在开展QC流程之前移除了质量持续不佳的基因变异体。在Tier 2存储桶的元数据目录和Github上可找到表现较差的变异体列表。我们还采用了不太严格的样本检出率,从0.98降为0.95。如此一来,便能在不牺牲质量的情况下使用更多的样品进行分析

此版本的另一大更新是对临床数据的更新。表型列(“表型”)已更新为标签“PD组”、“控制组”或“其他组”。新增的‘其他表型’一栏,为参与者提供了更详细的“其他”诊断标签。其中一些更详细的诊断标签包括通过靶向PD基因招募到的未受影响和受影响的个人、SWEDDS和前驱PD,以及其他疾病,如特发性震颤(ET)、进行性核上性麻痹(PSP)、路易体痴呆(DLB)和多系统萎缩(MSA)。

我们更新了所有通过质量控制(基因水平加上250kb侧翼区域)的基因型样本的拷贝数变异(CNV)检出,以囊括版本4中的所有样本。该数据已使用定制的GP2基因型聚类文件进行了聚类(可在1级和2级数据访问下的utils目录中查看)。用于预测概率CNV检出的聚类文件和管道均可在GP2 Github上找到,可与GP2以外的数据一起使用。有关使用定制的GP2基因分型集群文件和拷贝数变量概率检测进行聚类的更多信息,请参阅GP2博客中 “GP2第三次数据发布内容”

更多关于复杂疾病基因型和临床数据详见题为“GP2第一次数据发布内容”的博客文章,README格式已根据本次发布更新,可在GP2官方Terra工作空间中获取。同一个README文件中也包含单基因PD WGS数据的详细信息。