GP2第4回データリリースの内容
ブログフィードに戻る

GP2第4回データリリースの内容

By Peter Heutink, Mike A. Nalls, Hampton Leonard, Mary B. Makarious, Dan Vitale, Zih-Hua Fang, Mathew Koretsky, and Kristin Levine | , , |
Author(s)
  • Foto Heutink

    Peter Heutink, PhD

    German Center for Neurodegenerative Diseases | Germany

    博士はアムステルダム大学で分子生物学者として訓練を受け、ロッテルダムのエラスムス医療センターの臨床遺伝学部で博士号を取得しました。1994年に、ピーターは前頭側頭型認知症やパーキンソン病などの神経変性疾患に焦点を当てるために彼自身の研究グループを始めました。2... Read More

  • Mike A. Nalls, PhD

    Data Tecnica International | 米国

    同博士は、ヘルスケアの科学分野でデータセット分析と方法研究を行った後、10年2017年にData Technicaを立ち上げました。大規模データセットとゲノミクスの応用統計学分野で査読出版を(40歳前に)350本書いています。科学におけるオープンサイエンス、コラボレーション、透明性の�... Read More

  • Hampton Leonard, MS

    Data Tecnica International / National Institutes of Health | USA

    データサイエンスと機械学習の経験を活かし、神経変性疾患の複数分野のデータセットに応用しています。臨床そしてオミックレベルの差異を調査し、これらの差がどのように治験の結果に影響するかを調べ、また、コードノート、ワークフローの作成や、ハッカソンのデザインや�... Read More

  • Mary B. Makarious, BSc

    National Institutes of Health | USA

    Makarious氏は国立衛生研究所の神経遺伝学研究所(LNG)National Institute on Agingの大学院生です。 アンドリュー・シングルトン博士とマイク・ナルス博士に師事しています。米国イリノイ州シカゴのロヨラ大学でバイオインフォマティクスと神経科学を学んだ後、LNGに過去2年間在席しました�... Read More

  • Dan Vitale, MS

    Data Tecnica International | USA

    Vitale氏はデータサイエンティストコンサルタントとして、主に米国衛生研究所のNational Institute on Aging神経遺伝学のコンサルティングをしています。遺伝学分析パイプラインとソフトウェア、機械学習のオープンサイエンス、自動化、そして開発に携わっています。Email: [email protected]

  • Zih-Hua Fang, PhD

    German Center for Neurodegenerative Diseases | ドイツ

    Zih-Huaは台湾で学位取得後、フランスのUniversity of Wageningen and AgroParisTechで博士号、ETH Zurichでポスドクに就きました。研究の焦点は動物の繁殖遺伝学ゲノミクスです。バイオインフォマティクスと統計モデルの経験が6年、ショート・ロングリード全ゲノム配列の経験があります。Email:Zi... Read More

  • Mathew Koretsky, BSc

    National Institutes of Health | 米国

    Koretsky氏は米国立衛生研究所のCenter for Alzheimer’s Disease and Related Dementias のポストバカロレアフェローです。研究は、神経変性疾患分野において遺伝子データ処理パイプラインの開発と機械学習とデータサイエンス技術をゲノムデータセットに応用することに焦点を当てています。

  • Kristin Levine, MS

    Data Tecnica International | 米国

    Levine氏はデータテクニカ・インターナショナルのデータサイエンティストで、主に米国立衛生研究所のCenter for Alzheimer's and Related Dementias (CARD) のコンサルタントです。ライターからデータサイエンティストに転身し、オープンサイエンス、リサーチツールの民主化、そしてデータを明�... Read More

2023年2月にGP2はAMP® PDと共同で、Terraプラットフォームで4回目のデータリリースを発表しました。本リリースには新しいデータとリソースが詰まっています。

このリリースには、2583人の新たな複合疾患の参加者が追加され、複合・モノジェニックネットワークからのこれまでリリースに追加されました。複合疾患データは現在、合計17485名の遺伝子型同定参加者(PD9429人、対照群6648人、その他1408人)で構成されています。本リリースで追加されたコホート:

複合疾患GP2参加者の遺伝的祖先は、10の祖先グループ(以下の9つのグループと少数のフィンランドヨーロッパ人)に分けられています。以下の表は、このリリースにおける複合疾患参加者の遺伝的祖先を詳細に示し、品質管理に合格し、帰属されたものです。これらの番号には、新しいクラスターファイルを使用して再クラスター化され、現在のリリースに固有の新しくジェノタイピングおよび共有されたサンプルとともに品質管理を行った、以前のリリースサンプルが含まれています。今後のデータリリースで、利用可能な参加者の多様性をさらに拡大します。ダッシュボードで進捗状況を確認していただけます

本リリースの重要な更新はQCパイプラインで使用されている閾値の1つに対するマイナー変更です。より多くのサンプルを共有するため、QCプロセスを実行する前に一貫してパフォーマンスが低い遺伝子型変異種を削除しました。パフォーマンスが低い変異種リストは、Tier 2バケットのメタデータディレクトリとGithubにあります。それほど厳格でないサンプルコールレートを使い、0.98から0.95に変更しました。これにより質を犠牲にすることなく、より多くのサンプルを分析に使用できます。

本リリースのもう一点の更新は臨床データの更新です。表現型列(「表現型」)が更新され、「PD」、「コントロール」、「その他」というラベルのみが含まれるようになりました。「other_pheno」という列が追加され、「その他」のラベルが付いた参加者により詳細な診断ラベルが提供されます。これらのより詳細な診断ラベルには、標的PD遺伝子リクルートメント、SWEDD、前駆PDを介した非罹患・罹患した個人、本態性振戦(ET)、進行性核上性麻痺(PSP)、レビー小体型認知症(DLB)、多系統萎縮症(MSA)など他の障害が含まれます。

品質管理に合格したすべての遺伝子型サンプル(遺伝子レベルと250kbの隣接領域)のコピー番号バリアント(CNV)コールは、リリース4の全サンプルを含むように更新されました。このデータは、カスタムGP2遺伝子型クラスタリングファイル(Tier 1 と Tier 2 の両方のデータ アクセスの下にある utils ディレクトリで利用可能)を使用してクラスター化されています。確率的CNVコールを予測するために使用されるクラスターファイルとパイプラインは、どちらもGP2外のデータで使用するためGP2 Githubにあります。カスタムGP2ジェノタイピングクラスタリングファイルを使ったクラスタリングとコピー番号バリアント確率コールの詳細については、GP2ブログの「GP2の第3次データリリースのコンポーネント」を参照してください。

複合疾患の遺伝子型と臨床データの構造に関するより詳細な情報は、このリリースで更新され、公式GP2テラワークスペースで入手可能なREADMEと同様、「GP2の最初のデータリリースの構成要素ブログ記事で詳述されています。モノジェニックPD WGSデータも同じREADMEに詳述されています。