Verwenden von Terra zum Zugreifen auf Daten und Durchführen von Analysen

In diesem Kurs lernen die Teilnehmer die Besonderheiten von Terra kennen. Dazu gehört auch, zu erfahren, wofür Terra verwendet wird (und wofür nicht). Die Teilnehmer erfahren außerdem mehr über andere verfügbare Ressourcen und erhalten eine Einführung in Notebooks und die Google Cloud Platform. Gleichzeitig lernen sie, wie sie Daten abfragen und auf VCF und zugehörige Dateien zugreifen.

Module

Terra ist eine Cloud-basierte Plattform, die es Forschern ermöglicht, auf Daten zuzugreifen, Analysen durchzuführen und problemlos mit anderen Forschern zusammenzuarbeiten und Arbeitsabläufe zu teilen.

In der ersten Lektion werden Sie:

  • Erfahren Sie, was Sie in diesem Kurs erwartet
  • Verstehen Sie, was Terra ist und wofür es verwendet wird

Accelerating Medicines Partnership for Parkinson’s (AMP-PD) bietet Forschern ein Portal mit anonymisierten Daten von Parkinson-Patienten und gesunden Kontrollpersonen. Das Ziel von AMP-PD besteht darin, Studien durch diagnostische, prognostische und Progressions-Biomarker zu beschleunigen.

In dieser Lektion werden Sie:

  • Erfahren Sie, wie Sie auf AMP-PD-Datensätze zugreifen können
  • Erfahren Sie, welche Ressourcen von AMP-PD und Terra zur Verfügung stehen, um Ihr Lernen zu unterstützen

Notebooks sind Dateien, die Code sowie eingebettete Kommentare und Dokumentation enthalten. Terra hat Jupyter Notebooks integriert, um die Infrastruktur interaktive Analysen bereitzustellen

In dieser Lektion werden Sie:

  • Verstehen Sie die Struktur eines Notebooks
  • Erfahren Sie, was Sie mit einem Notebook machen können
  • Beispiele für Terra-Notebooks ansehen

Die Google Cloud Platform ist eine Suite aus Cloud-Computing-Diensten, die Datenspeicherung, Datenanalyse und maschinelles Lernen bieten. Die Rohdatendateien und klinischen Datendateien für AMP-PD werden auf der Plattform gespeichert.

Google BigQuery ist ein Data Warehouse, mit dem Sie die gewünschten Daten aus den wichtigsten Datenbanken abfragen können. Einige der verfügbaren AMP-PD-Datenbanken sind in abfragbarem Format in Google BigQuery gespeichert.

In dieser Lektion werden Sie:

  • Erfahren Sie mehr über Google Cloud Platform und Google BigQuery
  • Erfahren Sie, wie AMP-PD-Daten in der Cloud gespeichert werden und wie Sie darauf zugreifen können.
  • Sehen Sie sich Demos der Plattform im Einsatz an

Nachdem Sie sich nun mit der Google Cloud Platform und BigQuery vertraut gemacht haben, können Sie damit fortfahren, die Daten aus den Big Query-Tabellen mithilfe von SQL, einer Sprache zum Verwalten und Abrufen von Daten, in Ihr Notebook zu übertragen.

In dieser Lektion werden Sie:

  • Erfahren Sie, wie Sie SQL-Abfragen zum Abfragen klinischer AMP-PD-Daten verwenden
  • Erfahren Sie, wie Sie SQL-Abfragen zum Abfragen von AMP-PD-Variantendaten verwenden
  • Üben Sie die Datenbearbeitung in einem Notebook und das Schreiben der Ergebnisse in den Bucket.

Einige in der Cloud verfügbare Dateien können nicht mit SQL über BigQuery abgefragt werden. Dabei handelt es sich um die Rohdatendateien. Sie werden in Google Buckets gespeichert und sind über die Befehlszeile mithilfe der Python-Anwendung gsutil zugänglich.

In dieser Lektion werden Sie:

  • Erfahren Sie, wie Sie die verfügbaren genetischen Dateien finden
  • Erfahren Sie, wie Sie die Dateispeicherorte in einem Notizbuch anzeigen
  • Verstehen, wie man mit gsutil auf Daten zugreift

Das Speichern und Zugreifen auf Daten in der Cloud kostet Geld. Wenn Sie sich jedoch erst einmal mit der Preisstruktur auskennen und einige Grundprinzipien befolgen, können Sie Ihre Kosten niedrig halten.

In dieser Lektion werden Sie:

  • Verstehen Sie die Preisstruktur für das Ausführen von Notebooks und Abfragen
  • Erhalten Sie Tipps, wie Sie Ihre Preise niedrig halten können

In dieser Lektion verwenden Sie alle erlernten Informationen, um eine Analyse auf Terra durchzuführen.

Sie verwenden AMP-PD-Daten und Plink, ein Open-Source-Tool zur Assoziationsanalyse des gesamten Genoms, um eine Fall-/Kontrollanalyse mit dem exakten Test von Fisher durchzuführen, mit dem ermittelt wird, ob nicht zufällige Assoziationen zwischen zwei Variablen bestehen. Dadurch wird getestet, ob sich die Verteilung der Haupt- und Nebenallele für diese Variante bei Teilnehmern mit einer Parkinson-Diagnose und Teilnehmern ohne Diagnose signifikant unterscheidet.

In dieser Lektion werden Sie:

  • Erfahren Sie, welche Software Sie benötigen und wie Sie sie herunterladen
  • Führen Sie eine Analyse von Anfang bis Ende in einem Terra-Notebook aus