Seminar Scheduling of Scientific Workflows
Prof. Dr. Ulf Leser
Large-scale data analysis is commonly programmed in the form of scientific workflows, which are high-level descriptions of chains of individual programs that together solve a given analytical task. They usually run over very large inputs, which calls for their distributed execution on clusters or compute clouds. Determining the precise order in which the individual tasks are executed on which node in the cluster is the task of schedulers. Many algorithms have been proposed for this intrinsically NP-hard problem, based on different assumptions regarding the nature of the workflow, the available knowledge regarding the tasks, the overall optimization goal, the underlying file transport methods, etc. In this seminar, we will explore the space of existing scheduling algorithms for the distributed execution of scientific workflows. We will discuss their theoretical foundations, simulation models, heuristics and optimization algorithms, and real implementations in real workflow systems.
Voraussetzungen
Gute Kenntnisse in Programmiersprachen und Algorithmen; Grundkenntnisse in verteilten Systemen
Schein und Anrechenbarkeit
Das Seminar ist anrechenbar für
- Master Informatik
Voraussetzung für den Schein ist:
- die Abgabe einer annotierten Literaturliste inklusive Abstract
- das erfolgreiche Halten eines kurzen und eines längeren Vortrags
- das Verfassen einer Seminararbeit
Anmeldung
Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über AGNES.
Termine und Ablauf
Das Seminar findet in Präsenz statt. Die Themen werden abstrakt vergeben (siehe unten). Es ist die Aufgabe aller Teilnehmer*innen, zu dem ihnen zugewiesenen Themen zu recherchieren, geeignete Forschungsarbeiten zu identifizieren und den Stand-der-Technik in einer Arbeit und zwei Vorträgen zusammenzufassen. Zum Teil sind auch praktische Arbeiten zu erledigen. Die Themen werden in der Regel in Gruppen a zwei Studierenden bearbeitet. Es gilt:
- Am 21.04.2023, 13-15 Uhr, Raum 1.307, findet die Einführungsveranstaltung statt, die für alle Teilnehmenden verpflichtend ist. Dort wird Inhalt und Ablauf des Seminars vorgestellt sowie die Themen erläutert und vergeben.
- Jede Gruppe muss zwei Vorträge halten:
- Am 2.6.23, 13-15 Uhr: Einen 5-Minuten "Teaser Talk" zur Themenvorstellung
- Am (tba, gegen Semesterende): Einen 30-Minuten Seminarvortrag
- Jede Gruppe muss zwei schriftliche Abgaben erledigen:
- Bis 26.5.23: Ein Outline des Themas verfassen (Titel, Abstract, Struktur der Kapitel und Sections, Literaturverzeichnis). Markieren Sie die drei für ihre Arbeit wichtigsten Publikationen.
- Bis 30.8.2023: Eine 15-20 seitige Seminararbeit.
Materialien
- Folien Einführungsveranstaltung
- Folien zur Recherche nach wissenschaftlichen Arbeiten
- Folien zu wissenschaftlichen Vorträgen
- Folien zum wissenschaftlichen Schreiben
Vorlagen
- Schriftliche Ausarbeitung, Latex
- Vortrag, Powerpoint
- Vortrag, Keynote
- Text für die Selbstständigkeitserklärung
- Checkliste für Vortrag und Seminararbeit
Themen
Topic | Presenter | Slot of talk |
---|---|---|
Basic scheduling problem and its variations | Stankov | Slot 2 |
Task graph scheduling | Busch, Kaufmann | Slot 1 |
Location-aware scheduling | Salek, Trogant | Slot 1 |
Prediction of Task Resource Requirements | Riese, Patzak | Slot 1 |
Prediction of Task Progression | Reinicke, Grund | Slot 1 |
Evaluation and simulation of scheduling algorithms | Cheng, Feng | Slot 2 |
Price-aware scheduling | Cantepe, Gyuler | Slot 2 |
Carbon-aware scheduling | ||
Scheduling in real engines | Haase | Slot 1 |
Resource management with Slurm | Kummer | Slot 2 |