Terra を使用してデータにアクセスし、分析を実行する

参加者はこのコースで Terra の詳細を学びます。これには、Terra が何のために使用されるか (および何の目的で使用されないか) を学ぶことが含まれます。参加者は、利用可能な他のリソースについても学習し、ノートブックと Google Cloud Platform の概要を学習するとともに、データのクエリ方法や VCF および関連ファイルへのアクセス方法も学習します。

モジュール

Terra はクラウド ベースのプラットフォームであり、研究者がデータにアクセスし、分析を実行し、他の研究者と簡単に共同作業してワークフローを共有することができます。

最初のレッスンでは次のことを学びます。

  • このコースで何が学べるかを知る
  • Terraとは何か、何に使われるのかを理解する

パーキンソン病のための医薬品開発促進パートナーシップ (AMP-PD) は、研究者が使用できるように、パーキンソン病患者と健康な対照被験者からの匿名化されたデータを提供するポータルを提供しています。AMP-PD の目的は、診断、予後、進行のバイオマーカーを通じて試験を加速することです。

このレッスンでは以下のことを学びます。

  • AMP-PDデータセットにアクセスする方法を確認する
  • AMP-PDとTerraから学習に役立つリソースを学びましょう

ノートブックは、コードと埋め込まれたコメントおよびドキュメントを含むファイルです。TerraはJupyter Notebookを統合し、インタラクティブな分析インフラストラクチャを提供しています。

このレッスンでは以下のことを学びます。

  • ノートブックの構造を理解する
  • ノートブックで何ができるかを学ぶ
  • Terra Notebookの例を見る

Google Cloud Platform は、データ ストレージ、データ分析、機械学習を提供するクラウド コンピューティング サービスのスイートです。AMP-PD の生データ ファイルと臨床データ ファイルはプラットフォームに保存されます。

Google BigQuery は、メイン データベースから必要なデータをクエリできるデータ ウェアハウスです。利用可能な AMP-PD データベースの多くは、Google BigQuery にクエリ可能な形式で保存されています。

このレッスンでは以下のことを学びます。

  • Google Cloud Platform と Google BigQuery の詳細
  • AMP-PDデータがクラウドにどのように保存され、どのようにアクセスするかを確認します
  • 使用中のプラットフォームのデモを見る

Google Cloud Platform と BigQuery について理解できたので、次は、データの管理と取得に使用される言語である SQL を使用して、Big Query テーブルからノートブックにデータを取得する手順に進みます。

このレッスンでは以下のことを学びます。

  • SQLクエリを使用してAMP-PD臨床データを照会する方法を学びます
  • SQLクエリを使用してAMP-PDバリアントデータを照会する方法を学びます
  • ノートブックでデータを操作し、結果をバケットに書き込む練習をします。

クラウド上で利用可能な一部のファイルは、SQL を使用して BigQuery 経由でクエリできません。これらは生のデータ ファイルであり、Google バケットに保存され、Python アプリケーション gsutil を使用してコマンド ラインからアクセスされます。

このレッスンでは以下のことを学びます。

  • 利用可能な遺伝子ファイルを見つける方法を学ぶ
  • ノートブック内のファイルの場所を表示する方法を学ぶ
  • gsutil を使用してデータにアクセスする方法を理解する

クラウド上にデータを保存したりアクセスしたりするには費用がかかります。しかし、価格体系を理解し、いくつかの基本原則に従えば、コストを抑えることは可能です。

このレッスンでは以下のことを学びます。

  • ノートブックとクエリを実行するための料金体系を理解する
  • 価格を低く抑えるためのヒントを得る

このレッスンでは、学習したすべての情報を活用して、Terra で分析を実行します。

AMP-PD データとオープンソースの全ゲノム関連解析ツールである Plink を使用して、2 つの変数間に非ランダムな関連があるかどうかを判断するために使用されるフィッシャーの正確検定によるケース/コントロール解析を実行します。これにより、その変異の主要な対立遺伝子とマイナー対立遺伝子の分布が、パーキンソン病と診断された参加者と診断されていない参加者の間で有意に異なるかどうかをテストします。

このレッスンでは以下のことを学びます。

  • 必要なソフトウェアとそのダウンロード方法を学びます
  • Terraノートブックで最初から最後まで分析を実行する