Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Bachelor: Algorithmen und Methoden der Zeitreihenanalyse - Detailseite

Dr. Patrick Schäfer

Eine Zeitreihe stellt eine Folge zetlich geordneter Messungen dar, wie z.B. EKG-Verläufe, Aktienkurse oder Sensormessungen. Die Zeitreihenanalyse umfasst Methoden zur Analyse dieser Daten, aufgeteilt in Vorhersage, Klassifikation, Anomalie-Erkennung, Segmentierung, Motif-Erkennung oder Clusterung.

In diesem Seminar werden wir uns mit dem Aspekt der Anomalie-Erkennung auf Zeitreihen beschäftigen. Eine Anomalie ist eine Beobachtung, die so stark von anderen Beobachtungen abweicht, dass der Verdacht besteht, dass sie durch einen anderen Mechanismus entstanden ist. Anomalien treten als ungewöhnliche einzelne Messungen oder ungewöhnliche Teilsequenzen auf.

anomalies3.jpg

Für die Erkennung von Anomalien existieren eine Vielzahl an Python-Bibliotheken. In diesem Seminar werden Gruppen von Studierenden Python-Bibliothek in einem Wettbewerb auf Zeitreihen mit "echten" Anomalien evaluieren. Der Schwerpunkt liegt auf zeitreihenbasierten Verfahren und Maschinellen Lernmethoden. Das Seminar hat das übergeordnete Ziel, die Eigenheiten der verschiedenen Verfahren und Bibliotheken kennenzulernen und vergleichen zu können.

Termine

  • Einführungsveranstaltung: Freitag, 29. April, 13-16 Uhr, ESZ Raum 1'306
  • Zwischenpräsentation: Freitag, 3. Juni, ab 13 Uhr
  • Abschlusspräsentation: Freitag, 8. Juli, ab 13 Uhr

Ablauf

Grundlage des Seminars ist ein Wettbewerb. Ihr werdet einen Datensatz mit "echten" Anomalien erhalten. Gruppen von Studierenden werden jeweils eine Bibliothek in Vortrag und Ausarbeitung darstellen, sowie diesen auf dem Datensatz anwenden.

Der Wettbewerb findet in zwei Phasen statt:

  • Phase 1 bis 31. Mai: Ihr erhaltet 30 Zeitreihen mit Anomalien. Die Zwischenpräsentation eurer Lösung findet am 3. Juni statt.
  • Phase 2 bis 30. Juni: Ihr erhaltet den kompletten Datensatz mit Anomalien. Die finale Präsentation eurer Lösung findet am 8. Juli statt.

In Phase 1 sollt ihr eine vorab gewählt Python-Bibliothek evaluieren und eure Lösungen, sowie deren wissenschaftlichen Ansatz, vorstellen. Diese Lösungen werden allen Teilnehmern zur Verfügung gestellt.

In Phase 2 könnt ihr aus allen vorhandenen Lösungen die vielversprechendste oder eure eigene weiterentwickelt. Eure finale Lösung, und deren wissenschaftlicher Ansatz, wird im Juli vorgestellt.

Es wird die Möglichkeit bestehen, aufbauend auf dem Seminar, eine Abschlussarbeit an unserem Lehrstuhl zu dem Thema zu bearbeiten.

Einführende Literatur

  1. Esling, Philippe, and Carlos Agon. "Time-series data mining." ACM Computing Surveys (CSUR) 45.1 (2012): 1-34. LINK
  2. Renjie Wu and Eamonn J. Keogh: "Current Time Series Anomaly Detection Benchmarks are Flawed and are Creating the Illusion of Progress". LINK
  3. https://scholar.google.de for searching scientific papers

Voraussetzungen

  • Gute Kenntnisse in Algorithmen und Datenstrukturen (z.B. gleichnamige Vorlesung)
  • Lesen englischsprachiger Literatur
  • Vorteilhaft sind Grundkenntnisse in Statistik und/oder Machine Learning (oder die Bereitschaft sich einzuarbeiten)

Anmeldung

Die Teilnehmerzahl ist begrenzt durch die Anzahl an Themen. Die Anmeldung erfolgt über AGNES.

Ablauf

Ende April wird es eine Vorlesung zu einführenden Themen geben.

Das Seminar findet dann in den beiden beschrieben Phasen statt.

  • Jede Gruppe muss am Ende von Phase 1 einen ca. 5-15 minütigen Vortrag über ihre Lösung halten
  • Jede Gruppe muss am Ende von Phase 2 einen ca. 15-30 minütigen Vortrag über ihre Lösung halten.
  • Vorher finden Treffen mit dem/der Betreuer(in) statt, zur Vorbesprechung des Themas und zur Besprechung der Folien.
  • Abschließend muss zu jedem Thema eine ca. 20 seitige Seminararbeit verfasst werden.

Schein und Anrechenbarkeit

Das Seminar ist anrechenbar für: siehe Agnes

Voraussetzungen für den Schein sind:

  • der Besuch der Einführungsveranstaltungen zur Themenvergabe,
  • die regelmäßige Kommunikation mit dem Betreuer,
  • eine Kurzpräsentation des Themas nach Phase 1,
  • das Halten eines wissenschaftlichen Vortrags im Blockseminar am Ende des Semesters nach Phase 2,
  • die Erstellung von Experimenten,
  • das Erstellen einer schriftlichen Ausarbeitung (Seminararbeit).

Vorlagen