Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Seminar Management und Analyse von Provenancedaten

Prof. Dr. Ulf Leser

Mit Provenance bezeichnet man alle Daten, die zur Erzeugung des Ergebnisses einer Berechnung notwendig waren; prominente Beispiele sind Datenbankanfragen (welche Tupel wurden benötigt?), Workflow-Systeme (welche Tasks wurden mit welchem Zwischenergebnis ausgeführt?), oder Geschäftsprozesse (wer hat wann was getan?). Provenancedaten müssen erstellt, gesammelt (bei verteilter Ausführung) und verwaltet werden (z.B. Indexierung). Ihre Analyse benötigt spezielle Algorithmen, um zum Beispiel den realen Ablauf eines Prozesses mit seiner Spezifikation zu vergleichen oder eine Aggregation einzelner Schritte für einen schnellen Überblick zu erhalten. Sie gelten als entscheidend zur Sicherstellung der Reproduzierbarkeit von Ergebnissen oder dem Konformanz-Checking von Prozessen.

In dem Seminar werden wir verschiedene Aspekte von Provenancedaten kennenlernen, wie zum, Beispiel effiziente Speicherung, Anfragesprachen, Analyseverfahren, Event-Prediction, Standardisierungsbemühungen und konkrete Provenancemanagement-Systeme.

Voraussetzungen

Gute Kenntnisse in Programmiersprachen und Algorithmen; Grundkenntnisse in Datenbanken

Schein und Anrechenbarkeit

Das Seminar ist anrechenbar für

  • Monobachelor Informatik
  • Kombibachelor Informatik
  • Monobachelor IMP

Voraussetzung für den Schein ist:

  • die Abgabe einer annotierten Literaturliste inklusive Abstract
  • das erfolgreiche Halten von zwei Vorträgen
  • das Verfassen einer Seminararbeit

Anmeldung

Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über AGNES.

Termine und Ablauf

Das Seminar wird als Blockseminar mit zwei Terminen im Semester durchgeführt. Die vergebenen Themen sind relativ abstrakt (siehe unten). Es ist die Aufgabe aller Teilnehmer*innen, zu dem ihnen zugewiesenen Themen zu recherchieren, geeignete Forschungsarbeiten zu identifizieren und den Stand-der-Technik in einer Arbeit und zwei Vorträgen zusammenzufassen. Die Themen werden können auch in Gruppen a zwei Studierenden bearbeitet werden.

 

  • Am 25.10.2021, 15-17 Uhr in Raum 4.113, findet die Einführungsveranstaltung statt, die für alle Teilnehmenden verpflichtend ist. Dort wird Inhalt und Ablauf des Seminar vorgestellt sowie die Themen erläutert und vergeben.
  • Jede Teilnehmer*in (oder Gruppe) muss zwei Vorträge halten (Termine werden noch festgelegt):
    • Vor Weihnachten: Einen 5-Minuten "Teaser Talk" zur Themenvorstellung.
    • Semesterende: Einen 30-Minuten Seminarvortrag.
  • Jede Teilnehmer*in (oder Gruppe) muss drei Abgaben erledigen:
    • Bis 3.12.2021: Ein Outline des Themas (Titel, Abstract, Struktur der Kapitel und Sections, Literaturverzeichnis); Details werden bei der Einführung erläutert.
    • Bis 31.1.2022: Einen Termin mit dem Betreuer ausmachen, in dem Ihre Folien für den Seminarvortrag besprochen werden.
    • Bis 30.3.2022: Eine 10-15 seitige Seminararbeit.

Materialien

 

Vorlagen

 

Themen

Provenance Semi-Rings Weiss
Why and Why not provenance Paul
Tools zum Logfile Management Stoll
Anfragesprachen für Provenncedaten Vogel + Apel
Provenance-Modelle und Standards Krause
Effizientes Provenance-Management / Storage Kowalski
Provenance in Scientific Workflow Systems  
Process Mining - conformance checking Schuster + Singh
Process Mining - process recovery Winkel + Huilca
Visualisierung von Provenance-Daten Blaue + Spiegelberg
Provenance für Reproducibility Hennig