GP2第6回データリリースの内容
ブログフィードに戻る

GP2第6回データリリースの内容

By Mike A. Nalls, Hampton Leonard, Mary B. Makarious, Dan Vitale, Zih-Hua Fang, Justin C. Solle, Mathew Koretsky, Kristin Levine, and Lietsel Jones | , , |
Author(s)
  • Mike A. Nalls, PhD

    Data Tecnica International | 米国

    同博士は、ヘルスケアの科学分野でデータセット分析と方法研究を行った後、10年2017年にData Technicaを立ち上げました。大規模データセットとゲノミクスの応用統計学分野で査読出版を(40歳前に)350本書いています。科学におけるオープンサイエンス、コラボレーション、透明性の�... Read More

  • Hampton Leonard, MS

    Data Tecnica International / National Institutes of Health | USA

    データサイエンスと機械学習の経験を活かし、神経変性疾患の複数分野のデータセットに応用しています。臨床そしてオミックレベルの差異を調査し、これらの差がどのように治験の結果に影響するかを調べ、また、コードノート、ワークフローの作成や、ハッカソンのデザインや�... Read More

  • Mary B. Makarious, BSc

    National Institutes of Health | USA

    Makarious氏は国立衛生研究所の神経遺伝学研究所(LNG)National Institute on Agingの大学院生です。 アンドリュー・シングルトン博士とマイク・ナルス博士に師事しています。米国イリノイ州シカゴのロヨラ大学でバイオインフォマティクスと神経科学を学んだ後、LNGに過去2年間在席しました�... Read More

  • Dan Vitale, MS

    Data Tecnica International | USA

    Vitale氏はデータサイエンティストコンサルタントとして、主に米国衛生研究所のNational Institute on Aging神経遺伝学のコンサルティングをしています。遺伝学分析パイプラインとソフトウェア、機械学習のオープンサイエンス、自動化、そして開発に携わっています。Email: [email protected]

  • Zih-Hua Fang, PhD

    German Center for Neurodegenerative Diseases | ドイツ

    Zih-Huaは台湾で学位取得後、フランスのUniversity of Wageningen and AgroParisTechで博士号、ETH Zurichでポスドクに就きました。研究の焦点は動物の繁殖遺伝学ゲノミクスです。バイオインフォマティクスと統計モデルの経験が6年、ショート・ロングリード全ゲノム配列の経験があります。Email:Zi... Read More

  • Justin Solle

    Justin C. Solle, MBA

    Michael J. Fox Foundation | USA

    同氏は2021年にパーキンソン病研究のためのMichael J. Fox 財団に、シニアアソシエートディレクターとして加わりました。グローバルパーキンソン遺伝学プログラムを主導し、パーキンソン進行マーカーイニシアチブの運営と採用をサポートしています。 Email: [email protected]

  • Mathew Koretsky, BSc

    National Institutes of Health | 米国

    Koretsky氏は米国立衛生研究所のCenter for Alzheimer’s Disease and Related Dementias のポストバカロレアフェローです。研究は、神経変性疾患分野において遺伝子データ処理パイプラインの開発と機械学習とデータサイエンス技術をゲノムデータセットに応用することに焦点を当てています。

  • Kristin Levine, MS

    Data Tecnica International | 米国

    Levine氏はデータテクニカ・インターナショナルのデータサイエンティストで、主に米国立衛生研究所のCenter for Alzheimer's and Related Dementias (CARD) のコンサルタントです。ライターからデータサイエンティストに転身し、オープンサイエンス、リサーチツールの民主化、そしてデータを明�... Read More

  • Lietsel Jones

    DataTecnica/National Institutes of Health | 米国

    ジョーンズ氏はデータテクニカのアナリストで、疫学と遺伝学の共通点について焦点を当てています。同氏はまたGP2の臨床データマネージャーで、世界中の参加者から集まる大量の臨床データの収集と調整を担当しています。

概要

2023年12月、GP2はAMP®PDと共同でTerraとVerily®Workbenchプラットフォームに関する6回目のデータリリースを発表しました。このリリースには、2万人以上の新たな複合疾患の参加者が追加され、複合・モノジェニックネットワークからのこれまでリリースに追加されました。

  • 複合疾患データ(遺伝子型)は現在、計44831人の遺伝子型同定参加者(PD24709人、対照群17246人、その他2876人)で構成されています。
    • 局所的に制限されたサンプルを削除すると、33,436(17,129のPD事例、13,872の対照群、2,435の「その他」表現型)で構成されます。
  • モノジェニック疾患データ(全ゲノム配列)は現在、計2,324人のシーケンス参加者(PD症例1,854人、対照群314人 、 「 その他」の表現型156人)で構成されています。
    • 局所的に制限されたサンプルを削除すると、2,083(PD事例1,650、コントロール309 、 「 その他」表現型124)で構成されます
  • 詳しい臨床表現型情報を持つ12,585人は、遺伝情報が一致します

このリリースの新内容

  • 追加の複合疾患(遺伝子型)およびモノジェニック疾患(全ゲノム)サンプル
  • Verily Viewpoint Workbenchによる局所的に制限されたGDPRサンプルの紹介
  • 約12,000人の臨床データを紹介
  • 新しい祖先グループの導入→複合混合履歴(CAH)
  • 公開されたジェノタイピングデータの品質管理措置の更新
  • 公開されたジェノタイピングデータの品質管理措置の更新

品質管理におけるアップデート
まとめると、GenoTools(v1.0.0)では、性別不一致、コールレートプルーニング、重複チェック、関連個体のチェックと報告、ヘテロ接合率チェックといった品質管理手順が実行されます。

 以前のリリースとは対照的に、マイナー対立遺伝子頻度(MAF) 、 Hardy-Weinberg(HWE) 、 マイナー対立遺伝子数(MAC)によるバリアントレベルのフィルタリングは行われなくなりました。以前のリリースでの方法をフィルタリングしたい場合は、対応するREADMEで詳細な情報と推奨されるしきい値を調べることをお勧めします。 

Complex Admixture History (CAH)
CAH または複合混合履歴は、リリース6でGP2に導入された新しい祖先グループです。リリース5で南アフリカなど高度に混血した個人が誤ってCAS(中央アジア)の祖先として予測されたことを受けて作成されました。リリース6では、CAH祖先グループは主にステレンボッシュ大学(南アフリカ・ケープタウン ) 、 コリエル研究所(アメリカ・ニュージャージー州カムデン ) 、 パーキンソン財団(アメリカ・フロリダ州マイアミ)からのサンプルを含んでいます。CAHとラベル付けされたサンプルは、他のGP2祖先グループとの分析に含めるには混合度が高すぎると考えています。Verily Viewpoint Workbenchを介した局所的制限のあるGDPRサンプル。

Verily Viewpoint Workbenchとの連携により、一部のユーザーが局所的に制限されたサンプル(GDPR(一般データ保護規則)ポリシーが適用されるサンプルとも呼ばれる)にアクセスできるようになることを発表しました。Workbenchは、生物医学データを管理および分析するための安全な環境であり、クラウド統合による研究コラボレーションとデータ再現性の強化を目的としています。PythonやRコードを含むワークスペースの共有をサポートし、データ管理と分析のためのクラウドネイティブサービス一式を提供します。Workbenchは安全なデータ利用の統合とカスタム認証をサポートしており、GP2がローカルで制限されたサンプルをホストするのに理想的で安全でスケーラブルな研究環境となっています。

 現時点では、GP2がGDPRで保護されたデータのデータ共有ソリューションの展開を継続しているため、リリース6はGP2コンソーシアムのメンバーとパートナーのみが利用できます。2024年初頭も試用と実装が継続され、これらのソリューションはより広い研究コミュニティで利用できるようになります。リリース6のサンプルはすべてWorkbenchで、GDPRの要件に準拠していないリリース6のサンプルはすべてTerraのコミュニティワークベンチにあります(以前のすべてのリリースと同様 ) 。Verily Viewpoint Workbenchのフルリリースにアクセスするには、次の操作を行ってください:

  1. GP2 Tier2アクセス承認を取得
  2. GP2コンソーシアムメンバーになる(コホート、GP2パートナー、プロジェクト分析チームメンバーに貢献していること)
  3. GDPR準拠のサンプルリクエストフォームに記入してください。フォームに入力すると、ワークベンチにアクセスするためのフォローアップ手順が表示されます。

臨床データ
このリリースで12,585人の包括的な詳しい臨床表現型データを発表できることを大変嬉しく思います。この情報は、次の内容で構成されています:

  • 診断時および発症時の年齢
  • 最初、現在、および最新の診断
  • Mini-Mental State Examination(MMSE)やMontreal Cognitive Assessment(MoCA)などの認知試験
  • 運動障害社会協賛による統一パーキンソン病評価尺度(MDS-UPDRS)の改訂について
  • レビー小体型認知症(LBD)などの詳細な「その他」表現型

今回のリリースでは、臨床情報を有する12,585人について、一致する遺伝情報も取得しています。 

個人レベルのデータ
計74のコホートからデータをキャプチャするようになり、46は今回のリリースで新しくなりました。共有されたコホートの詳細については、GP2コホートダッシュボードを参照してください。 

複雑疾患GP2参加者の遺伝的に決定された祖先は、11の祖先グループに分割されます。以下の表は、本リリースにおける複雑疾患の参加者のうち、品質管理を通過し、帰責された遺伝的に決定された祖先の詳細を示しています。これらのデータには、新しいクラスターファイルを使用して再クラスター化され、現在のリリースに固有の新しくジェノタイピングおよび共有されたサンプルとともに品質管理を行った、以前のリリースサンプルが含まれています。

DeepVariant-GLnexusを使用した全ゲノム配列のバリアント呼び出し
 今回のリリースでは、これまでのリリースとは異なり、コホートレベルのバリアント呼び出しにGoogleのDeepVariantパイプラインとGLnexusを併用するようになりました。DeepVariantは、ディープラーニングベースのバリアント・コーラーで、個人レベルの遺伝子バリアントを正確にコールすることで、既存の最先端のツールを上回る性能を発揮します。また、プロセスが簡素化され、精度と信頼性が向上します。 

今後のデータリリースにより、参加者の多様性が増します。ダッシュボードで進捗状況を確認していただけます。すでにTier 2にアクセスしているユーザーの場合は、コホートブラウザでさらにデータを確認できます。詳細については、以前のブログ記事を参照してください。

 これまで通りパイプライン、データ、および分析の詳細については、各GP2リリースに付属のREADMEを参照してください。