Übung zu Maschinelle Sprachverarbeitung
Diese Übung begleitet die Vorlesung Maschinelle Sprachverarbeitung
Erster Übungstermin ist der 19.10.2015. Dieser Termin ist Pflicht für alle Teilnehmer. Es werden Gruppen gebildet und die erste Aufgabe erläutert.
Ablauf
In der Übung werden verschiedene Aufgaben im Bereich der Maschinellen Sprachverarbeitung zu lösen sein. Dazu werden wir teilweise öffentlich verfügbare Tools (OpenNLP, WEKA) benutzten und auf verschiedenen, teilweise recht großen Corpora arbeiten. Die Arbeit erfolgt in Gruppen a zwei Studierenden. Insgesamt wird es fünf Aufgaben geben; jede Gruppe muss alle bis auf eine erfolgreich bearbeitet haben. Die Aufgaben werden an einem Übungstermin ausgegeben, und die Lösungen müssen meist drei Wochen später von einem der Gruppenmitglieder im Rahmen eines kurzen Vortrags dargestellt werden. In dem Vortrag geht es vor allem darum, gesammelte Erfahrungen an zu kommunizieren.
Wettbewerb (freiwillig)
Die Übungsaufgaben sind als Wettbewerb gestaltet. Das heißt, dass die Aufgaben verschieden gut gelöst werden können (schnellere Implementierung, bessere Qualität des Text Mining etc.). Pro Aufgabe erhalten die drei besten Gruppen Punkte, und am Ende wird ein Gesamtsieger gekürt. Die Teilnahme an dem Wettbewerb ist freiwillig.
Die einzelnen Aufgaben und Termine
Diese Liste wird ständig aktualisiert. Folien zu den Aufgaben und notwendige Daten werden hier veröffentlicht.
- 19.10.2015: Einleitung, Ablauf, Übersicht
- 19.10.2015: Aufgabe 1 (neu: 2.11.2015): Parsen eines XML Corpus
- 16.11.2015: Aufgabe 2: Part-of-Speech Tagging mit HMMs
- 7.12.2015: Aufgabe 3: Spam-Filtering als Textklassifikation
- 12.1.2016: Aufgabe 4 (Update: 18.1.2016): Dictionary-based Gene-NER
- Stopwortliste files
- Gene name dictionary files
- Evaluation script files
- Training data (with annotation) files
- Test data (without annotation) files
- 26.1.2016: Aufgabe 5: Gene NER mit linear-chain CRFs
- Stopwortliste files
- Multi-Token gene name dictionary files
- Evaluation script files
- Training data (with annotation) files
- Test data (without annotation) files