Masterseminar: Landnutzungsklassifikation - als Wettbewerb
Dr. Patrick Schäfer
Die Erde wird in periodischen Abständen von Satelliten beobachtet, die hochaufgelöste Bildern in mehreren Spektren (Infra-Rot, Ultra Violett, sichtbares Licht) aufnehmen. Diese Bilder können unter anderem zur Landnutzungsklassifikation eingesetzt werden, bei der einzelnen Pixeln (automatisiert) eine Klasse zugeordnet wird, um Trends wie Urbanisierung, Entwaldung oder Wüstenbildung frühzeitig zu erkennen. Für die Lösung dieses Problems existiert eine Vielzahl verschiedener Ansätze. In diesem Seminar werden Gruppen von Studierenden jeweils einen Ansatz in Vortrag und Ausarbeitung darstellen, sowie ihn auf eine Menge vorgegebener Klassifizierungsprobleme auf echten Satellitenbildern anwenden. Der Schwerpunkt liegt auf zeitreihenbasierten Verfahren und Maschinellen Lernmethoden. Das Seminar hat das übergeordnete Ziel, die Eigenheiten der verschiedenen Verfahren kennenzulernen und vergleichen zu können.
Am Freitag, den 26.10.2018 findet die Einführungsveranstaltung in RUD 25 4.113 statt, die für alle Teilnehmenden verpflichtend ist. Dort wird der Seminarablauf erläutert und die Themen vergeben.
Das Seminar findet im wesentlichen als Blockseminar am Ende des Semesters statt. Vorher sind aber Einführungstermine und individuelle Themenbesprechungen zu besuchen. Für die Themen werden eventuell Teams von zwei Studierenden gebildet.
Einführende Literatur
- Gómez, Cristina, Joanne C. White, and Michael A. Wulder. "Optical remotely sensed time series data for land cover classification: A review." ISPRS Journal of Photogrammetry and Remote Sensing 116 (2016): 55-72. PAPER
- Bagnall, Anthony, et al. "The great time series classification bake off: a review and experimental evaluation of recent algorithmic advances." Data Mining and Knowledge Discovery 31.3 (2017): 606-660. Paper
- Fawaz, Hassan Ismail, et al. "Deep learning for time series classification: a review." arXiv preprint arXiv:1809.04356 (2018). Paper
- TiSeLaC: Time Series Land Cover Classification Challenge
- AALTD'16 Challenge on multivariate time series data
- https://scholar.google.de for searching scientific papers
- http://timeseriesclassification.com a website dedicated to univariate time series classifiers
Voraussetzungen
- Gute Kenntnisse in Algorithmen und Datenstrukturen (z.B. gleichnamige Vorlesung)
- Kenntnisse in Statistik und/oder Machine Learning (oder die Bereitschaft sich einzuarbeiten)
Anmeldung
Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über AGNES.
Alle Termine in der Übersicht:
- 26.10.18, 13-15 Uhr: Einführung und Themenvergabe, Raum: RUD25 4.113
- 02.11.18, 13-15 Uhr: Primer on Time Series Analytics, Raum: RUD25 4.113
- Bis 02.11.18: Wahl eines Themas (siehe unten "Topic")
- Bis 30.11.2018: Treffen mit dem Betreuer zur Themenbesprechung und -eingrenzung
- November 2018: Veröffentlichung der Trainingsdaten
- 07.12.2018, 15-16 Uhr: 5-min Präsentationen pro Gruppe, Raum RUD25 4.410, Folien
- 20.12.2018: Veröffentlichung der Testdaten & Einsendung von Lösungen über Kaggle (der Link wurde per Mail verteilt).
- Bis 31.01.2019: Treffen mit Betreuer zur Besprechung der Folien
- Freitag 01.02.2019 15-18 Uhr: Blockseminar, Raum RUD25 4.410, Folien
- Bis 31.03.2019: Abgabe Seminararbeit (~20 Seiten, Checkliste für Vortrag und Seminararbeit)
Datensatz
Ein Auszug aus dem Trainingsdatensatz (16MB) mit 1.000, 10.000 und 100.000 Pixel-Zeitreihen und der komplette Trainingsdatensatz (>800mb) mit 6.091.037 Pixel-Zeitreihen wurden auf HU-BOX veröffentlicht. Der Testdatensatz mit 20.000 Pixelzeitreihen wurde auf Kaggle veröffentlicht. Die Passwörter und den Link zu Kaggle erhaltet ihr per Mail oder per Nachfrage.Themen
Thema | Vortragende(r) (maximal zwei) | Flash-Slides | Blockseminar-Slides |
(non-time-series-based) Classifiers (SVM, logistic regression, random forests/decision trees, gradient boosting trees, XGBoost, Bayesian methods, ...) |
Alexej | ||
Whole-Series-based Classifiers (Dynamic Time Warping, Euclidean Distance, Proximity Forests, ...) |
Sedir und Darko | ||
Univariate Shapelet-based Classifiers (Fast Shapelets (FS), Learning Shapelets (LS), Shapelet Transform (ST), ...) |
Martin und Tim | ||
Univariate Dictionary-based Classifiers (BoP, SAX VSM, TSBF, BOSS, BOSS VS, WEASEL, ...) |
Erik und David | ||
Multivariate Dictionary-based Classifiers (SMTS, WEASEL+MUSE, LPS, ...) |
Arik und Markus | ||
Deep Learning Classifiers (ResNet, FCN, Encoder, MLP, Time-CNN, TWIESN, MCDCNN, MCNN, t-LeNet, ...) |
Melina und Michael | ||
Multivariate Shapelet-based Classifiers (gRSF, ...) |
- | - | |
Ensembles of Core Classifiers (EE PROP, COTE, ...) |
- | - |
Ablauf
Im Oktober/November wird es 1-2 Vorlesungen zu einführenden Themen geben (Time Series; Deep Learning; Land Cover Classification; Scientific writing/presentations).
Das Seminar wird als Blockseminar am Ende des Semesters abgehalten.
- Jede Gruppe muss dort einen ca. 30-40 minütigen Vortrag über das zugewiesene Thema und den beschrittenen Weg im Wettbewerb (siehe unten) halten.
- Vorher finden mindestens zwei Treffen mit dem/der Betreuer(in) statt, einmal zur Vorbesprechung des Themas und einmal zur Besprechung der Folien.
- Außerdem wird es in der Mitte des Semesters einen Termin geben, in dem alle Gruppen in einer 5-minütigen Flash-Präsentation ihr Thema vorstellen, um Querverbindungen zu erkennen und die rechtzeitige Beschäftigung mit dem Thema sicherzustellen.
- Schließlich muss zu jedem Thema eine ca. 20 seitige Seminararbeit verfasst werden /Darstellung des bearbeiteten Klassifikationsverfahren sowie der implementierten Pipeline).
- Parallel zur konzeptionellen Durchdringung des Themas müssen alle Gruppen ein konkretes Klassifikationsverfahren implementieren und im Rahmen eines Wettbewerbs evaluieren. Hierzu geben wir in der Mitte des Semesters verschiedene Trainingsdatensätze aus (Zeitreihen von Satellitenbildern mit zugewiesenen Labeln).
- Jede Gruppe implementiert und trainiert damit einen Klassifikator (Preprocessing, feature selection, classifier etc.). Die Klassifikatoren werden im Rahmen eines Wettbewerbs am Semesterende bzgl. ihrer Genauigkeit auf geheimen Test-Daten evaluiert. Der implementierte Weg wird in Seminarvortrag und -ausarbeitung beschrieben.
Schein und Anrechenbarkeit
Das Seminar ist anrechenbar für
- Diplom Informatik
- Master Informatik
- Master Wirtschaftsinformatik
Voraussetzungen für den Schein sind:
- der Besuch der Einführungsveranstaltungen zur Themenvergabe,
- die regelmäßige Kommunikation mit dem Betreuer,
- eine Kurzpräsentation des Themas (etwa in der Mitte des Semesters),
- das Halten eines wissenschaftlichen Vortrags im Blockseminar am Ende des Semesters,
- die Teilnahme am Wettbewerb inkl. Präsentation der Ergebnisse, und
- das Erstellen einer schriftlichen Ausarbeitung (Seminararbeit).
Vorlagen
- Schriftliche Ausarbeitung, Latex
- Vortrag, Powerpoint
- Vortrag, Keynote
- Text für die Selbstständigkeitserklärung
- Checkliste für Vortrag und Seminararbeit