Masterseminar: Text Classification - ein Wettbewerb
Prof. Dr. Ulf Leser
Textklassifikation, als Teilgebiet des Maschinellen Lernens, bezeichnet die Aufgabe, Texte automatisch vorgegebenen Klassen zuzuordnen - Beschwerdebriefe zu Sacharbeitern, News zu Themenbereichen, Mails zu spam/ham. Zu diesem Problem gibt es eine Vielzahl verschiedener Ansätze und Verfahren, von Bayes'schen Methoden über Neuronale Netze bis zu Support Vector Machines. In diesem Seminar werden Studierende jeweils einen Ansatz in Vortrag und Ausarbeitung genau darstellen sowie ihn auf eine Menge vorgegebener Klassifikationsprobleme anwenden. Das Seminar hat das übergeordnete Ziel, die Eigenheiten der verschiedenen Verfahren kennenzulernen und vergleichen zu können.
Das Seminar findet im wesentlichen als Blockseminar am Ende des Semesters statt. Vorher sind aber Einführungstermine und individuelle Themenbesprechungen zu besuchen. Für die Themen werden eventuell Teams von zwei Studierenden gebildet.
Voraussetzungen
- Gute Kenntnisse in Algorithmen und Datenstrukturen (z.B. gleichnamige Vorlesung)
- Kenntnisse in Statistik und/oder Machine Learning
Schein und Anrechenbarkeit
Das Seminar ist anrechenbar für
- Diplom Informatik
- Master Informatik
- Master Wirtschaftsinformatik
Voraussetzungen für den Schein sind:
- der Besuch der Einführungsveranstaltungen zur Themenvergabe,
- die regelmäßige Kommunikation mit dem Betreuer,
- eine Kurzpräsentation des Themas (etwa in der Mitte des Semesters),
- das Halten eines wissenschaftlichen Vortrags im Blockseminar am Ende des Semesters,
- die Teilnahme am Wettbewerb inkl. Präsentation der Ergebnisse, und
- das Erstellen einer schriftlichen Ausarbeitung (Seminararbeit).
Anmeldung
Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über AGNES.
Termine und Ablauf
Am Freitag, den 21.4.2017 findet die Einführungsveranstaltung statt, die für alle Teilnehmenden verpflichtend ist. Dort wird der Seminarablauf erläutert und die Themen vergeben.
Im April/Mai wird es 1-2 Vorlesungen zu einführenden Themen geben (Text Processing; Scientific writing/presentations).
Das Seminar wird als Blockseminar am Ende des Semesters abgehalten. Jede Gruppe muss dort einen ca. 30-40 minütigen Vortrag über das zugewiesene Thema und den beschrittenen Weg im Wettbewerb (siehe unten) halten. Vorher finden mindestens zwei Treffen mit dem/der Betreuer(in) statt, einmal zur Vorbesprechung des Themas und einmal zur Besprechung der Folien. Außerdem wird es in der Mitte des Semesters einen Termin geben, in dem alle Gruppen in einer 5-minütigen Flash-Präsentation ihr Thema vorstellen, um Querverbindungen zu erkennen und die rechtzeitige Beschäftigung mit dem Thema sicherzustellen. Schließlich muss zu jedem Thema eine ca. 20 seitige Seminararbeit verfasst werden /Darstellung des bearbeiteten Klassifikationsverfahren sowie der implementierten Pipeline)..
Parallel zur konzeptionellen Durchdringung des Themas müssen alle Gruppen ein konkretes Textklassifikationsverfahren implementieren und im Rahmen eines Wettbewerbs evaluieren. Hierzu geben wir in der Mitte des Semesters verschiedene Trainingsdatensätze aus (Texte mit zugewiesenen Labeln). Jede Gruppe implementiert und trainiert damit einen Klassifikator (Text processing, feature selection, classifier etc.). Die Klassifikatoren müssen eine Standard-API implementieren und werden am Semesterende von den Betreuern bzgl. ihrer Genauigkeit auf Held-Back Daten evaluiert. Der implementierte Weg wird in Seminarvortrag and -ausarbeitung beschrieben.
Alle Termine in der Übersicht:
- 21.4.17, 13-15 Uhr: Einführung und Themenvergabe, Raum: RUD 25, 3.113
- Bis 12.5.2017: Treffen mit dem Betreuer zur Themenbesprechung und -eingrenzung
- 19.5.2017: 5-min Präsentationen pro Gruppe
- Bis 30.6.2017: Treffen mit Betreuer zur Besprechung der Folien
- 3.7.17 - 9.7.17: Einsendung von Lösungen über Kaggle
- 11+12.7.2017: Blockseminar, Raum TBA
- Bis 30.8.2017: Abgabe Seminararbeit
Vorlagen
- Schriftliche Ausarbeitung, Latex
- Vortrag, Powerpoint
- Vortrag, Keynote
- Text für die Selbstständigkeitserklärung
- Checkliste für Vortrag und Seminararbeit
Zeitplan Blockseminar
Zeit: tba; Raum: tba | ||
Uhrzeit | Vortragende | Thema |
Themen
Einführende Literatur für alle Teilnehmer: F Sebastiani: Machine learning in automated text categorization, ACM computing surveys, 2002
Topic | Vortragende(r) | Betreuer | Vortragstermin |
---|---|---|---|
21.4.17: Einführung Seminar | Ulf Leser, Jurica Seva | ||
28.4.17: Text Preprocessing | Ulf Leser | ||
Support Vector Machines | Gudd, Wegge, Nguyen | Jurica Seva | 11.7.2017 |
k-Nearest Neighbors | Tang, Stolte, Abegg | Ulf Leser | 12.7.2017 |
Decision Trees and Random Forests | Heemann, Gastegger, Velinova | Ulf Leser | 11.7.2017 |
Artificial Neural Networks | Zambelli, Köhn, Menzel | Jurica Seva | 11.7.2017 |
(Naive) Bayesian methods | Wagner, Bauer, Löffler | Ulf Leser | 12.7.2017 |
(Logistic) Regression | Meyer-Eschenbach, Herholz | Ulf Leser | 12.7.2017 |
Maximum Entropy Classifier |