Praktikum Informationsintegration
Prof. Dr. Ulf Leser
Zeitplanung
Das Praktikum beginnt erst in der zweiten Semesterwoche. Erster Praktikumstermin ist daher Dienstag, der 21. Oktober. Dieser Termin ist Pflicht für alle Praktikumsteilnehmer. An diesem Termin wird das Praktikum vorgestellt und die Gruppen werden gebildet. Außerem wird, abhängig von der Zahl der Teilnehmer, eine Aufteilung auf die beiden Praktikumstermine erfolgen.
Danach regelmäßig- Dienstag, 13-15.Uhr, RUD 26, 1.303 oder
- Donnerstag, 13-15 Uhr, RUD 26, 1.303
Inhalt und Ablauf
Im Praktikum wird jede Gruppe ein integriertes Informationssystem bauen, um herauszufinden, ob bestimmte molekulare Funktionen besonders häufig auf bestimmten (humanen) Chromosomen anzufinden sind. Dazu werden Daten aus Dateien geparst, in eine relationale Datenbank geschrieben, mit Daten aus anderen Datenbanken verknüpft und bestimmte Statistiken berechnet. Weitere Quellen werden über eine Remote Java API und über das Parsen von HTML Seiten integriert. Die Arbeit erfolgt in Gruppen a 3 Studierenden.
Das Praktikum in einzelne Teilaufgaben gegliedert, die alle von jeder Gruppe gelöst werden müssen. Sie bauen aufeinander auf; das entstehende System wird also zunehmen komplexer. Die Aufgaben werden an einem Praktikumstermin ausgegeben, und die Lösungen müssen 1-4 Wochen später von einem der Gruppenmitglieder im Rahmen eines kurzen Vortrags dargestellt werden. Der Lösungsweg ist meistens nicht vorgegeben sonderns steht jeder Gruppe frei - natürlich hoffen wir auf Diversität!
Einige der Aufgaben werden als Wettbewerb formuliert. Hier erhalten die Gruppen, die eine der Aufgaben am besten (schnellste Programmausführung) lösen. Punkte. Die Gruppe, die am Ende am meisten Punkte hat, erhält einen kleinen Preis. Die Teilnahme am Wettbewerb ist freiwillig
Die einzelnen Aufgaben und Termine
Diese Liste "lebt" und ist noch nicht vollständig. Folien zu den Aufgaben und notwendige Daten werden hier veröffentlicht.
- Einleitung, Organisation, biologischer Hintergrund, Gruppenbildung
- 21.10.2008: Erste Aufgabe (Abgabe: 3/5.11.08): Aufbau der Basisdaten
-
- Folien zu Assignment 1
- FTP-Server des
NCBI; wichtige Dateien sind gene2refseq, gene2go, gene_info (Beachten
Sie auch die README Datei im Verzeichnis)
- 4/6.11.2008: Zweite Aufgabe (Abgabe: 16/18.11.08): Arbeiten mit der
Gene Ontology
-
- Folien zu Assignment 2
- GO Ontology im OBO Format
- 17/19.11.2008: Dritte Aufgabe (Abgabe: 8/10.12.08): Konsistenz der
GO Annotation EntrezGene - UniProt
-
- Folien zu Assignment 3
- FTP-Server des NCBI für die Mapping Datei Entrez Gene - UniprotKB
- Zugang zu Uniprot über HTTP und Flatfile
- Zugang zu Uniprot über HTTP und XML
- Zugang zu Uniprot über JAVA API
- Veröffentlichung zur Java API
- 9/11.12.2008: Vierte Aufgabe; (Abgabe: 5/7.1.09): Von Genfunktion
zu Erbkrankheiten
-
- Folien zu Assignment 4
- Morbidmap vom OMIM Server
- mim2genes vom vom NCBI Server
- 18.12.2008 : Fünfte Aufgabe (Abgabe: 20/22.1.09): Query
Containment
-
- Folien zu Assignment 5
- Drei Testdateien
- 20/22.1.2009 : Sechste Aufgabe (Abgabe 9/11.2.09): Schema
Matching
-
- Folien zu Assignment 6
- Matching Paare sind
Dienstag: 1 maps to (4,6), 2 maps to (1,5), 3 maps to (4,7), 4 maps to (7,3), 5 maps to (3,1), 6 maps to (2,5), 7 maps to (2,6)
Donnerstag: 10 maps to (12,16), 11 maps to (10,13), 12 maps to (15,11), 13 maps to (12,10), 15 maps to (11,16), 16 maps to (15,13)
- 10/12.2.2009: Abschluss und Siegerehrung
Wichtige Links
- NCBI Daten und Erklärungen
- OMIM Daten und die OMIM gene Map
- Gene Ontology Daten im OBO Format
- GeneCards
- UniProt und die UniProt Remote Java API