Einführung in die Nutzung von Workspaces und GP2-Daten
Zurück zu Blogs

Einführung in die Nutzung von Workspaces und GP2-Daten

Um GP2-Arbeitsgruppe Complex Disease – Data Analysis (Komplexe Krankheit – Datenanalyse) | , , |
Author(s)
  • GP2-Arbeitsgruppe Complex Disease – Data Analysis (Komplexe Krankheit – Datenanalyse)

    |

    Dieser Blog-Beitrag stammt von Mitgliedern der GP2-Arbeitsgruppe Complex Disease - Data Analysis (Komplexe Krankheit - Datenanalyse): Hampton Leonard, Mike Nalls, Yeajin Song und Dan Vitale.

Die Daten, die im Rahmen des Global Parkinson’s Genetics Program (GP2) sowie der Accelerating Medicines Partnership in Parkinson’s Disease (AMP® PD) generiert werden, werden auf Terra gehostet, einer Cloud-Plattform für Bioinformatik, die das Broad Institute gemeinsam mit Microsoft und Verily entwickelt hat. Mit Terra lassen sich Analysen direkt in der Cloud durchführen, so dass man keine Daten mehr auf den eigenen Computer herunterladen muss. So können wir die hohen Anforderungen an Datenschutz und Vertraulichkeit erfüllen und mittels strukturiertem, gemeinsam nutzbarem Code und Ergebnisbestand eine offene Wissenschaft und Reproduzierbarkeit ermöglichen. Terra unterstützt zwei Arten von Analysen: Jupyter Notebooks und WDL Workflows. Notebooks sind in Zellen unterteilte Dokumente, die Codeschnipsel enthalten, mit denen man sequenzielle Analysen durchführen kann. Notebooks unterstützen verschiedene Sprachen, darunter Python. Sie eignen sich für eine Reihe von Analysen und bieten hervorragende Möglichkeiten zur Visualisierung und Dokumentation. Eventuell stellen Sie jedoch irgendwann fest, dass Sie mehr Rechenleistung oder eine längere Laufzeit für Ihre Analysen benötigen, als ein Notebook ermöglicht. In diesem Fall können Sie alternativ einen Terra-Workflow nutzen. Diese Workflows werden in der Sprache WDL (ausgesprochen „widdle“) erstellt und genau wie Batch-Aufträge an einen beliebigen Cloud-Server übermittelt. Sie sind nützlich für rechenintensive Analysen wie Alignments oder GWAS mit umfangreichen Stichproben.

Beispiel einer Notebook-Struktur

Beispiel einer WDL-Struktur

Mit Ihrem Zugang zu den GP2-Daten erhalten Sie gleichzeitig auch Zugang zu den offiziellen Terra-Workspaces von GP2. In beiden Workspaces – Tier 1 und Tier 2 – findet sich die README-Datei zur jeweils aktuellsten GP2-Datenversion (Release). Es empfiehlt sich sehr, diese zu lesen, da sie Erläuterungen zu allen Dateien aus der jeweiligen Version enthält. Schauen Sie regelmäßig in diese Workspaces, denn dort werden nach und nach neue entwickelte Code-Ressourcen, Notebooks und Workflows zu GP2-Daten eingestellt. Als Erstes müssen Sie eine Projektidee bei GP2 zur Begutachtung einreichen. Wird diese genehmigt, so erstellt Ihr Institut ein Abrechnungsprojekt und einen Workspace. Alternativ erledigt GP2 das in Ihrem Namen. Wenn der Workspace einmal eingerichtet ist, können Sie beginnen und ein neues Notebook für Ihre Analyse anlegen. Um ein Notebook auszuführen, müssen Sie eine Cloud-Umgebung einrichten. Diese Cloud-Umgebung können Sie nach Ihren Bedürfnissen anpassen. Wenn Sie jedoch planen, alle derzeit verfügbaren imputierten GP2-Daten zu komplexen Krankheiten zu verwenden, sollten Sie mindestens 100 GB persistente Speicherkapazität anfordern, damit Sie über genügend Platz verfügen, um mit den 82 GB Daten (ab Release 2.0) zu arbeiten. Man kann immer ein wenig mit den Optionen spielen, um zu sehen, was am besten funktioniert. Bedenken Sie aber bitte, dass mehr Ressourcen auch mit höheren Kosten verbunden sind.

Beispiel einer Cloud-Umgebung

Wenn die Cloud-Umgebung einmal läuft und das Notebook eingerichtet ist, können Sie mit der Analyse beginnen. Für die Einrichtung Ihres Notebooks finden Sie weiter unten bzw. in den offiziellen GP2-Workspaces einige praktische Pakete und Variablen, die Sie nutzen können.

Nützliche Pakete

Einrichtung der Cloud-Umgebung

Verfügbare Daten anzeigen und Daten aus der Cloud in Ihren Arbeitsbereich übertragen können Sie mit dem Toolset gsutil. Um etwa eine Liste der im gp2tier2-Bucket verfügbaren Daten anzuzeigen, verwendet man einen solchen Befehl: Damit werden alle verfügbaren Dateien im Release-2-Verzeichnis angezeigt. Man kann den Pfad ändern, um in ein anderes Verzeichnis zu schauen. Wenn man den Pfad zum Beispiel so ändert: Dann erhält man eine Liste der Ordner für die imputierten Genotypdaten unterteilt nach vorhergesagter Abstammung. Die Dateien, die man benötigt, kann man dann folgendermaßen in den Workspace kopieren: Erstellen Sie zunächst ein Verzeichnis, in das Sie die Dateien kopieren möchten. Kopieren Sie dann die Dateien in das neue Verzeichnis hinein. In diesem Beispiel etwa kopieren wir zusammenfassende Parkinson-Statistiken von Nalls et al. 2019 ohne 23andMe-Daten. Um sicher zu sein, dass alles richtig kopiert wurde, schauen Sie sich die Datei an: Und nun können Ihre Daten analysiert werden!


Dies war nur ein kurzes Beispiel für das Arbeiten in Workspaces und Notebooks mit GP2-Daten. Ein ausführlicheres Terra-Tutorial finden Sie im GP2 Learning Management System. Dort können Sie Kurs 1 absolvieren: Einsatz von Terra für Datenzugriff und Durchführung von Analysen