Praktikum Text Analytics

Wissensmanagement in der Bioinformatik | Praktikum Text Analytics

Praktikum Text Analytics

Veranstaltung

Das Praktikum begleitet den Halbkurs Text Analytics

Erster Praktikumstermin ist der 19.10.2010. Dieser Termin ist Pflicht für alle Teilnehmer. Unentschuldigtes Nichterscheinen hat den Ausschluss vom Praktikum zur Folge.

Ablauf

In dem Praktikum werden verschiedene Aufgaben im Bereich des Information Retrieval bzw. des Text Minings zu lösen sein. Dazu werden wir oftmals öffentlich verfügbare Tools (UIMA, OpenNLP etc.) benutzten und auf verschiedenen, teilweise recht großen Textsammlungen (Medline, Genia etc.) arbeiten. Die Arbeit erfolgt in Gruppen a ca. 3 Studierenden.

Jede Gruppe muss alle Aufgaben bearbeitet, allerdings werden verschiedene Gruppen oftmals unterschiedliche Wege gehen. Die Aufgaben werden an einem Praktikumstermin ausgegeben, und die Lösungen müssen zwei Wochen später von einem der Gruppenmitglieder im Rahmen eines kurzen Vortrags dargestellt werden. In dem Vortrag geht es vor allem darum, seine Erfahrungen mit den verwendeten Methoden und Werkzeugen an die gesamte Zuhörerschaft zu kommunizieren.

Wettbewerb (freiwillig)

Das Praktikum wird auch als Wettbewerb gestaltet. Das heißt, dass manche der Aufgaben verschieden gut gelöst werden können (schnellere Implementierung, bessere Qualität des Mining etc.). Die drei besten Gruppen erhalten Punkte, und am Ende wird ein Gesamtsieger gekürt. Die Teilnahme an dem Wettbewerb ist freiwillig.

Wissenschaftlicher Vortrag

Daneben müssen alle Teilnehmer einen ca. 30-minütigen Vortrag halten. Die Vorträge werden an verschiedenen über das Semester verteilten Terminen gehalten. Es gibt ca. 15 Themen; ggf. werden sie daher zu zweit bearbeitet. Die Themen sind praktisch orientiert und stellen Tools, Methoden, Ressourcen etc. dar; das Verfassen einer Ausarbeitung ist nicht notwendig.

Die einzelnen Aufgaben und Termine

Diese Liste wird ständig aktualisiert. Folien zu den Aufgaben und notwendige Daten werden hier veröffentlicht.

19.10.2010: Einführung in das Praktikum.
19.10.2010: Erste Aufgabe. Wird noch einzeln absolviert. Stichwort: "Was Google nicht gut kann".
26.10.2010: Zweite Aufgabe. Stichwort: Volltext-Retrieval
- Link zum Testcorpus
16.11.2010: Dritte Aufgabe. Stichwort: Named Entity Recognition mit Wörterbüchern
- Wir verwenden den Medline Korpus aus Assignment 2
- Stop-word-Liste
- Liste der Gennamen
2.12.2010: Vierte Aufgabe. Stichwort: Part-Of-Speech Tagging und Gene-NER
- Neue Liste von Gennamen (mit Multi-Token-Namen)
- Trainingsdaten: annotiert, nicht annotiert
- Testdaten: nicht annotiert
- Übersicht über die Ergebnisse
11.1.2011: Fünfte Aufgabe. Stichwort: POS-tagging mit HMM's
- Hinweise zum Brown Corpus und Tagset
- Lernkorpus
1.2.2011: Sechste Aufgabe. Stichwort: Spam-Filtering
- Training Spam
- Training Ham
15.2.2010: Lösungen Assignment 6

Vortragsthemen, Vortragende und Termine

Die Vortragsthemen:

2.11.: Lucene

(Kulagina)

2.11.: UIMA

(Kipar, Hartkopp)

2.11.: GATE

(Kaase, Wermke)

16.11.: OpenNLP

(Fajerski)

16.11.: LingPipe

(Heideklang, Bethge)

16.11.: NLTK

(Lelis, Frenzel)

2.12.2010: The Deep Web

(Lehmann, Arzt)

2.12.2010: TREC

(Minor)

2.12.2010: WordNet

(Lilienthal, Severin)

11.1.2011: PubMed's "Related Articles"

(Kunkel, Isberner)

11.1.2011: Geographic Information Retrieval

(entfällt)

11.1.2011: Recognition of Locations in Text

(entfällt)

1.2.2011: Declarative Information Extraction

(Mosolf)

1.2.2011: Web-Scale Information Extraction

(Stoltmann, Rocktäschel)

1.2.2011: Entity Search

(Brettschneider, Sarischeva)

Mo	Di	Mi	Do	Fr	Sa	So
31	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	1	2	3	4

Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik