Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Praktikum Text Analytics

Veranstaltung

Das Praktikum begleitet den Halbkurs Text Analytics

Erster Praktikumstermin ist der 19.10.2010. Dieser Termin ist Pflicht für alle Teilnehmer. Unentschuldigtes Nichterscheinen hat den Ausschluss vom Praktikum zur Folge.

Ablauf

In dem Praktikum werden verschiedene Aufgaben im Bereich des Information Retrieval bzw. des Text Minings zu lösen sein. Dazu werden wir oftmals öffentlich verfügbare Tools (UIMA, OpenNLP etc.) benutzten und auf verschiedenen, teilweise recht großen Textsammlungen (Medline, Genia etc.) arbeiten. Die Arbeit erfolgt in Gruppen a ca. 3 Studierenden.

Jede Gruppe muss alle Aufgaben bearbeitet, allerdings werden verschiedene Gruppen oftmals unterschiedliche Wege gehen. Die Aufgaben werden an einem Praktikumstermin ausgegeben, und die Lösungen müssen zwei Wochen später von einem der Gruppenmitglieder im Rahmen eines kurzen Vortrags dargestellt werden. In dem Vortrag geht es vor allem darum, seine Erfahrungen mit den verwendeten Methoden und Werkzeugen an die gesamte Zuhörerschaft zu kommunizieren.

Wettbewerb (freiwillig)

Das Praktikum wird auch als Wettbewerb gestaltet. Das heißt, dass manche der Aufgaben verschieden gut gelöst werden können (schnellere Implementierung, bessere Qualität des Mining etc.). Die drei besten Gruppen erhalten Punkte, und am Ende wird ein Gesamtsieger gekürt. Die Teilnahme an dem Wettbewerb ist freiwillig.

Wissenschaftlicher Vortrag

Daneben müssen alle Teilnehmer einen ca. 30-minütigen Vortrag halten. Die Vorträge werden an verschiedenen über das Semester verteilten Terminen gehalten. Es gibt ca. 15 Themen; ggf. werden sie daher zu zweit bearbeitet. Die Themen sind praktisch orientiert und stellen Tools, Methoden, Ressourcen etc. dar; das Verfassen einer Ausarbeitung ist nicht notwendig.

Die einzelnen Aufgaben und Termine

Diese Liste wird ständig aktualisiert. Folien zu den Aufgaben und notwendige Daten werden hier veröffentlicht.

Vortragsthemen, Vortragende und Termine

Die Vortragsthemen:

  • 2.11.: Lucene (Kulagina)
  • 2.11.: UIMA (Kipar, Hartkopp)
  • 2.11.: GATE (Kaase, Wermke)
  • 16.11.: OpenNLP (Fajerski)
  • 16.11.: LingPipe (Heideklang, Bethge)
  • 16.11.: NLTK (Lelis, Frenzel)
  • 2.12.2010: The Deep Web (Lehmann, Arzt)
  • 2.12.2010: TREC (Minor)
  • 2.12.2010: WordNet (Lilienthal, Severin)
  • 11.1.2011: PubMed's "Related Articles" (Kunkel, Isberner)
  • 11.1.2011: Geographic Information Retrieval (entfällt)
  • 11.1.2011: Recognition of Locations in Text (entfällt)
  • 1.2.2011: Declarative Information Extraction (Mosolf)
  • 1.2.2011: Web-Scale Information Extraction (Stoltmann, Rocktäschel)
  • 1.2.2011: Entity Search (Brettschneider, Sarischeva)

Wichtige Links