Praktikum Text Analytics
Veranstaltung
Das Praktikum begleitet den Halbkurs Text Analytics
Erster Praktikumstermin ist der 19.10.2010. Dieser Termin ist Pflicht für alle Teilnehmer. Unentschuldigtes Nichterscheinen hat den Ausschluss vom Praktikum zur Folge.
Ablauf
In dem Praktikum werden verschiedene Aufgaben im Bereich des Information Retrieval bzw. des Text Minings zu lösen sein. Dazu werden wir oftmals öffentlich verfügbare Tools (UIMA, OpenNLP etc.) benutzten und auf verschiedenen, teilweise recht großen Textsammlungen (Medline, Genia etc.) arbeiten. Die Arbeit erfolgt in Gruppen a ca. 3 Studierenden.
Jede Gruppe muss alle Aufgaben bearbeitet, allerdings werden verschiedene Gruppen oftmals unterschiedliche Wege gehen. Die Aufgaben werden an einem Praktikumstermin ausgegeben, und die Lösungen müssen zwei Wochen später von einem der Gruppenmitglieder im Rahmen eines kurzen Vortrags dargestellt werden. In dem Vortrag geht es vor allem darum, seine Erfahrungen mit den verwendeten Methoden und Werkzeugen an die gesamte Zuhörerschaft zu kommunizieren.
Wettbewerb (freiwillig)
Das Praktikum wird auch als Wettbewerb gestaltet. Das heißt, dass manche der Aufgaben verschieden gut gelöst werden können (schnellere Implementierung, bessere Qualität des Mining etc.). Die drei besten Gruppen erhalten Punkte, und am Ende wird ein Gesamtsieger gekürt. Die Teilnahme an dem Wettbewerb ist freiwillig.
Wissenschaftlicher Vortrag
Daneben müssen alle Teilnehmer einen ca. 30-minütigen Vortrag halten. Die Vorträge werden an verschiedenen über das Semester verteilten Terminen gehalten. Es gibt ca. 15 Themen; ggf. werden sie daher zu zweit bearbeitet. Die Themen sind praktisch orientiert und stellen Tools, Methoden, Ressourcen etc. dar; das Verfassen einer Ausarbeitung ist nicht notwendig.
Die einzelnen Aufgaben und Termine
Diese Liste wird ständig aktualisiert. Folien zu den Aufgaben und notwendige Daten werden hier veröffentlicht.- 19.10.2010: Einführung in das Praktikum.
- 19.10.2010: Erste Aufgabe. Wird noch einzeln absolviert. Stichwort: "Was Google nicht gut kann".
- 26.10.2010: Zweite Aufgabe. Stichwort: Volltext-Retrieval
-
- Link zum Testcorpus
- 16.11.2010: Dritte Aufgabe. Stichwort: Named Entity Recognition mit Wörterbüchern
- Wir verwenden den Medline Korpus aus Assignment 2
- Stop-word-Liste
- Liste der Gennamen
- 2.12.2010: Vierte Aufgabe. Stichwort:
Part-Of-Speech Tagging und Gene-NER
- Neue Liste von Gennamen (mit Multi-Token-Namen)
- Trainingsdaten: annotiert, nicht annotiert
- Testdaten: nicht annotiert
- Übersicht über die Ergebnisse
- 11.1.2011: Fünfte Aufgabe. Stichwort: POS-tagging mit HMM's
- 1.2.2011: Sechste Aufgabe. Stichwort: Spam-Filtering
- 15.2.2010: Lösungen Assignment 6
Vortragsthemen, Vortragende und Termine
Die Vortragsthemen:
- 2.11.: Lucene (Kulagina)
- 2.11.: UIMA (Kipar, Hartkopp)
- 2.11.: GATE (Kaase, Wermke)
- 16.11.: OpenNLP (Fajerski)
- 16.11.: LingPipe (Heideklang, Bethge)
- 16.11.: NLTK (Lelis, Frenzel)
- 2.12.2010: The Deep Web (Lehmann, Arzt)
- 2.12.2010: TREC (Minor)
- 2.12.2010: WordNet (Lilienthal, Severin)
- 11.1.2011: PubMed's "Related Articles" (Kunkel, Isberner)
- 11.1.2011: Geographic Information Retrieval (entfällt)
- 11.1.2011: Recognition of Locations in Text (entfällt)
- 1.2.2011: Declarative Information Extraction (Mosolf)
- 1.2.2011: Web-Scale Information Extraction (Stoltmann, Rocktäschel)
- 1.2.2011: Entity Search (Brettschneider, Sarischeva)