Seminar Workflows for Scientific Data Analysis
Prof. Dr. Ulf Leser
Workflowsysteme spielen eine immer größere Rolle bei der Analyse sehr grosser Datenbestände, insb. in den Naturwissenschaften. Populäre Beispiele findet man in der Genomforschung, der Satellitenbildaufklärung, oder in den Materialwissenschaften. Da Workflows zur Analyse grosser Datenbestände in der Regel auf einem verteilten Cluster ausgeführt werden, besteht eine Workflow-Infrastruktur konzeptionell aus vielen Komponenten, angefangen von einer Workflowsprache über Compiler und Optimierer bis zu Schedulern, Resourcen-Managern, und Virtualisierungssoftware. Diese werden eher selten alle neu entwickelt; technisch sind konkrete Systeme meistens aus existierenden Komponenten zusammengesetzt, wobei je nach Zielhardware und Anwendungszweck sehr unterschiedliche Schwerpunkte gesetzt werden. In dem Seminar werden wir verschiedene Open Source Workflowsysteme kennenlernen, ihre Ansätze vergleichen, und in Teams auch praktische, reale Datenanalyseprobleme mithilfe eines zu wählenden Workflowssystems lösen.
Voraussetzungen
Gute Kenntnisse in Programmiersprachen und Algorithmen; Grundkenntnisse in verteilten Systemen
Schein und Anrechenbarkeit
Das Seminar ist anrechenbar für
- Master Informatik
Voraussetzung für den Schein ist:
- die Abgabe einer annotierten Literaturliste inklusive Abstract
- das erfolgreiche Halten von zwei Vorträgen
- das Verfassen einer Seminararbeit
Anmeldung
Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über AGNES.
Termine und Ablauf
Das Seminar wird vollständig online (über ZOOM) stattfinden. Die Themen werden abstrakt vergeben (siehe unten). Es ist die Aufgabe aller Teilnehmer*innen, zu dem ihnen zugewiesenen Themen zu recherchieren, geeignete Forschungsarbeiten zu identifizieren und den Stand-der-Technik in einer Arbeit und zwei Vorträgen zusammenzufassen. zum Teil sind auch praktische Arbeiten zu erledigen. Die Themen werden in der Regel in Gruppen a zwei Studierenden bearbeitet
- Am 15.04.2019, 11-13 Uhr, findet die Einführungsveranstaltungen statt, die für alle Teilnehmenden verpflichtend ist. Dort wird Inhalt und Ablauf des Seminar vorgestellt sowie die Themen erläutert und vergeben.
- Jede Gruppe muss zwei Vorträge halten (Termine werden noch festgelegt):
- Am 10.6.21, ab 11.15: Einen 5-Minuten "Teaser Talk" zur Themenvorstellung (über ZOOM)
- Gegen Semesterende: Einen 30-Minuten Seminarvortrag
- Jede Gruppe muss zwei Abgaben erledigen:
- Bis 1.6.2021: Ein Outline des Themas verfassen (Titel, Abstract, Struktur der Kapitel und Sections, Literaturverzeichnis). Markieren Sie die drei für Sie wichtigsten Arbeiten.
- Bis 30.8.2021: Eine 15-20 seitige Seminararbeit
Materialien
- Folien Einführungsveranstaltung
- Folien zur Recherche nach wissenschaftlichen Arbeiten
- Folien zu wissenschaftlichen Vorträgen
- Folien zum wissenschaftlichen Schreiben
Vorlagen
- Schriftliche Ausarbeitung, Latex
- Vortrag, Powerpoint
- Vortrag, Keynote
- Text für die Selbstständigkeitserklärung
- Checkliste für Vortrag und Seminararbeit
Themen
Provenance Management and Analysis | Wüstner |
Scheduling of Scientific Workflows | |
Declarative Workflow Languages | |
Container Technology (Docker, Singularity, ...) | Lorenz, Bomke |
Distributed File Systems and SWF (CEPH, HDFS, ...) | Knapp |
Cloud File Systems and SWF (S3, Azure, ...) | Maguey |
Resource Managament for SWF (Yarn, Mesos, ...) | |
NextFLow | Haller, Yilmaz |
Apache AirFlow | |
snakemake | Parschew |
CWL | |
Apache TEZ | Spitzner |