2023年2月にGP2はAMP® PDと共同で、Terraプラットフォームで4回目のデータリリースを発表しました。本リリースには新しいデータとリソースが詰まっています。
このリリースには、2583人の新たな複合疾患の参加者が追加され、複合・モノジェニックネットワークからのこれまでリリースに追加されました。複合疾患データは現在、合計17485名の遺伝子型同定参加者(PD9429人、対照群6648人、その他1408人)で構成されています。本リリースで追加されたコホート:
- カナダオープンパーキンソンネットワーク(C-OPN)、カナダの9つの大学と研究センターの共同ネットワーク
- 運動障害遺伝子型と表現型 – エジンバラブレインバンク(MDGAP-EBB)、英国を拠点とするブレインバンク
- シドニーブレインバンク(SBB)、オーストラリアを拠点とするブレインバンク
複合疾患GP2参加者の遺伝的祖先は、10の祖先グループ(以下の9つのグループと少数のフィンランドヨーロッパ人)に分けられています。以下の表は、このリリースにおける複合疾患参加者の遺伝的祖先を詳細に示し、品質管理に合格し、帰属されたものです。これらの番号には、新しいクラスターファイルを使用して再クラスター化され、現在のリリースに固有の新しくジェノタイピングおよび共有されたサンプルとともに品質管理を行った、以前のリリースサンプルが含まれています。今後のデータリリースで、利用可能な参加者の多様性をさらに拡大します。ダッシュボードで進捗状況を確認していただけます。
本リリースの重要な更新はQCパイプラインで使用されている閾値の1つに対するマイナー変更です。より多くのサンプルを共有するため、QCプロセスを実行する前に一貫してパフォーマンスが低い遺伝子型変異種を削除しました。パフォーマンスが低い変異種リストは、Tier 2バケットのメタデータディレクトリとGithubにあります。それほど厳格でないサンプルコールレートを使い、0.98から0.95に変更しました。これにより質を犠牲にすることなく、より多くのサンプルを分析に使用できます。
本リリースのもう一点の更新は臨床データの更新です。表現型列(「表現型」)が更新され、「PD」、「コントロール」、「その他」というラベルのみが含まれるようになりました。「other_pheno」という列が追加され、「その他」のラベルが付いた参加者により詳細な診断ラベルが提供されます。これらのより詳細な診断ラベルには、標的PD遺伝子リクルートメント、SWEDD、前駆PDを介した非罹患・罹患した個人、本態性振戦(ET)、進行性核上性麻痺(PSP)、レビー小体型認知症(DLB)、多系統萎縮症(MSA)など他の障害が含まれます。
品質管理に合格したすべての遺伝子型サンプル(遺伝子レベルと250kbの隣接領域)のコピー番号バリアント(CNV)コールは、リリース4の全サンプルを含むように更新されました。このデータは、カスタムGP2遺伝子型クラスタリングファイル(Tier 1 と Tier 2 の両方のデータ アクセスの下にある utils ディレクトリで利用可能)を使用してクラスター化されています。確率的CNVコールを予測するために使用されるクラスターファイルとパイプラインは、どちらもGP2外のデータで使用するためGP2 Githubにあります。カスタムGP2ジェノタイピングクラスタリングファイルを使ったクラスタリングとコピー番号バリアント確率コールの詳細については、GP2ブログの「GP2の第3次データリリースのコンポーネント」を参照してください。
複合疾患の遺伝子型と臨床データの構造に関するより詳細な情報は、このリリースで更新され、公式GP2テラワークスペースで入手可能なREADMEと同様、「GP2の最初のデータリリースの構成要素」ブログ記事で詳述されています。モノジェニックPD WGSデータも同じREADMEに詳述されています。