Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Praktikum Informationsintegration

Praktikum zum Halbkurs Informationsintegration im Wintersemester 2008/2009
Prof. Dr. Ulf Leser

Zeitplanung

Das Praktikum beginnt erst in der zweiten Semesterwoche. Erster Praktikumstermin ist daher Dienstag, der 21. Oktober. Dieser Termin ist Pflicht für alle Praktikumsteilnehmer. An diesem Termin wird das Praktikum vorgestellt und die Gruppen werden gebildet. Außerem wird, abhängig von der Zahl der Teilnehmer, eine Aufteilung auf die beiden Praktikumstermine erfolgen.

Danach regelmäßig
  • Dienstag, 13-15.Uhr, RUD 26, 1.303 oder
  • Donnerstag, 13-15 Uhr, RUD 26, 1.303

Inhalt und Ablauf

Im Praktikum wird jede Gruppe ein integriertes Informationssystem bauen, um herauszufinden, ob bestimmte molekulare Funktionen besonders häufig auf bestimmten (humanen) Chromosomen anzufinden sind. Dazu werden Daten aus Dateien geparst, in eine relationale Datenbank geschrieben, mit Daten aus anderen Datenbanken verknüpft und bestimmte Statistiken berechnet. Weitere Quellen werden über eine Remote Java API und über das Parsen von HTML Seiten integriert. Die Arbeit erfolgt in Gruppen a 3 Studierenden.

Das Praktikum in einzelne Teilaufgaben gegliedert, die alle von jeder Gruppe gelöst werden müssen. Sie bauen aufeinander auf; das entstehende System wird also zunehmen komplexer. Die Aufgaben werden an einem Praktikumstermin ausgegeben, und die Lösungen müssen 1-4 Wochen später von einem der Gruppenmitglieder im Rahmen eines kurzen Vortrags dargestellt werden. Der Lösungsweg ist meistens nicht vorgegeben sonderns steht jeder Gruppe frei - natürlich hoffen wir auf Diversität!

Einige der Aufgaben werden als Wettbewerb formuliert. Hier erhalten die Gruppen, die eine der Aufgaben am besten (schnellste Programmausführung) lösen. Punkte. Die Gruppe, die am Ende am meisten Punkte hat, erhält einen kleinen Preis. Die Teilnahme am Wettbewerb ist freiwillig

Die einzelnen Aufgaben und Termine

Diese Liste "lebt" und ist noch nicht vollständig. Folien zu den Aufgaben und notwendige Daten werden hier veröffentlicht.

  • Einleitung, Organisation, biologischer Hintergrund, Gruppenbildung
  • 21.10.2008: Erste Aufgabe (Abgabe: 3/5.11.08): Aufbau der Basisdaten
    • Folien zu Assignment 1
    • FTP-Server des NCBI; wichtige Dateien sind gene2refseq, gene2go, gene_info (Beachten Sie auch die README Datei im Verzeichnis)
  • 4/6.11.2008: Zweite Aufgabe (Abgabe: 16/18.11.08): Arbeiten mit der Gene Ontology
  • 17/19.11.2008: Dritte Aufgabe (Abgabe: 8/10.12.08): Konsistenz der GO Annotation EntrezGene - UniProt
  • 9/11.12.2008: Vierte Aufgabe; (Abgabe: 5/7.1.09): Von Genfunktion zu Erbkrankheiten
  • 18.12.2008 : Fünfte Aufgabe (Abgabe: 20/22.1.09): Query Containment
  • 20/22.1.2009 : Sechste Aufgabe (Abgabe 9/11.2.09): Schema Matching
    • Folien zu Assignment 6
    • Matching Paare sind
      Dienstag: 1 maps to (4,6), 2 maps to (1,5), 3 maps to (4,7), 4 maps to (7,3), 5 maps to (3,1), 6 maps to (2,5), 7 maps to (2,6)
      Donnerstag: 10 maps to (12,16), 11 maps to (10,13), 12 maps to (15,11), 13 maps to (12,10), 15 maps to (11,16), 16 maps to (15,13)
  • 10/12.2.2009: Abschluss und Siegerehrung

Wichtige Links