Seminar Data Mining in der Bioinformatik
Wintersemester 2007/2008, Prof. Ulf Leser, Ms.BioInf. Philip Groth
Inhalt des Seminars
Das Seminar behandelt verschiedene Anwendungen des Data Mining in der Bioinformatik. Das prominenteste Beispiel dafür dürfte die Klassifikation von Proben nach Ihrem Status bzgl. einer Erkrankung sein. Beispielsweise versucht man, aus dem Genexpressionsprofil eines Patienten zu errechnen, ob das Gewebe erkrankt ist und sich z.B. ein noch unerkannter Tumor bildet. Weitere Anwendungen von Data Mining auf diesem Gebiet sind die Vorhersage von Genfunktion, Clustering zur Aufklärung von Signalwegen, Text Mining für die Literatursuche, oder graph-basiertes Data Mining in biologischen Netzwerken. Im dem Seminar werden Studenten eine Vielzahl von Data Mining Methoden jeweils mit einer bioinformatischen Anwendung kennenlernen.Die Veranstaltung ist als Seminar in der praktischen Informatik anrechenbar.
Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über Goya.
Termine und Ablauf
Am Dienstag, den 23. Oktober 2007, findet von 15.00 c.t. bis 17.00 Uhr in RUD 26, R1'308 eine Einführungsveranstaltung statt, die für alle Teilnehmer verpflichtend ist. Dort werden die Themen von den Dozenten erläutert und an die interessierten Studenten vergeben.
Das Seminar wird als Blockseminar am Ende des Semesters abgehalten. Außerdem wird es vor Weihnachten einen Termin geben, in dem alle Studenten in einer 5-minütigen Präsentation Ihr Thema vorstellen müssen, um Querverbindungen zu erkennen und die rechtzeitige Beschäftigung mit dem Thema sicherzustellen. Dieser Termin ist am 14.12.2007 von 14.00 - 16.00 Uhr in Raum 3.113.
Termine für die Blockveranstaltungen
(neu)
- Freitag, 8.2.2008, 10-13 Uhr, Humboldt-Kabinett
- Montag, 11.2.2008, 10-12.30, Humboldt-Kabinett
Zusätzlich zu der speziellen Literatur, über die die Vorträge gehalten werden, gibt es für alle Teilnehmer verpflichtende Einführungslektüre. Am Termin vor Weihnachten werden die dort vermittelten Kenntnisse im Rahmen einer kurzen Klausur überprüft. Das Bestehen der Klausur ist Voraussetzung für die weitere Teilnahme.
Voraussetzungen für die Teilnahme
- Abgeschlossenes Grundstudium
- Grundkenntnisse in Statistik
- Teilnahme an allen Terminen, insb. dem Einführungstermin
- Idealerweise Vorkenntnisse in Bioinformatik und Molekularbiologie (werden ansonsten vermittelt)
- Lesen englischer Texte
Voraussetzungen für den Scheinerwerb
- Bestehen der Klausur über die Einführungstexte
- Wahrnehmung mehrerer Termine mit dem Betreuer (wird individuell verabredet).
- ca. 45 min. Vortrag über das abgesprochene Thema
- Selbständiges Erstellung einer Seminararbeit im Umfang von 10-20 Seiten; Fertigstellung bis zum 31.3.2008
Kontakt
Ulf Leser
Gebäude IV, Raum 105
E-Mail: leser (youknowwhat) informatik hu-berlin de
Philip Groth
Gebäude IV, Raum 106
E-Mail: groth (youknowwhat) informatik hu-berlin de
Vorlagen
- schriftliche Ausarbeitung, Latex
- Vortrag, Powerpoint
- Vortrag, Keynote
- Text für die Selbständigkeitserklärung
Themen
Thema
(Betreuer) |
Paper | Vortragende/r |
---|---|---|
Einführungslektüre |
|
Alle |
Einführungsveranstaltung |
UL, PG | |
Microarrays |
|
|
Clustering (PG) |
Schmidt A, Groth P, Haendler B, Hess-Stumpp H, Kratzschmar J, Seidel H, Thaele M, Weiss B. Gene expression during the implantation window: microarray analysis of human endometrial samples. Ernst Schering Res Found Workshop. 2005;(52):139-57. |
Pincus |
Klassifikation (PG) |
|
Dudeck |
Co-Clustering (PG) |
Philip Hanisch D, Zien A, Zimmer R, Lengauer T. (2002) "Co-clustering of biological networks and gene expression data" Bioinformatics. 2002;18 Suppl 1:S145-54 | Starlinger |
Bi-Clustering (PG) |
Philip Qu H, Wang LP, Liang YC, Wu CG. Cheng,Y. and Church,G. M. (2000) "Biclustering of expression data." In Proceedings of the 8th International Conference on Itelligent Systems for Molecular Biology, (ISMB 2000) La Jolla, CA, 20--23 August, 2000, pp. 93--103. | |
Biologische Netzwerke |
Einleitender Text: Jeong, H., Tombor, B., Albert, R., Oltvai, Z. N. and Barabasi, A. L. (2000). "The large-scale organization of metabolic networks." Nature 407(6804): 651-4. | |
Funktionale Einheiten (UL) |
Spirin, V. and Mirny, L. A. (2003). "Protein complexes and functional modules in molecular networks." Proc Natl Acad Sci U S A 100(21): 12123-8. | Herholz |
Frequent Subgraph Mining (UL) |
|
Damyanliev |
Vorhersage von Protein-Protein-Interaktionen |
Chen, X. W., and M. Liu. 2005. Prediction of protein-protein interactions using random decision forest framework. Bioinformatics 21 (24):4394-400. | |
Pathway Alignment |
Kelley, B. P., Sharan, R., Karp, R. M., Sittler, T., Root, D. E., Stockwell, B. R. and Ideker, T. (2003). "Conserved pathways within bacteria and yeast as revealed by global protein network alignment." Proc Natl Acad Sci U S A 100(20): 11394-9. | Kubis |
Sequenzanalyse für Transkriptonsfaktoren |
Elnitski L, Jin VX, Farnham PJ, Jones SJ. Locating mammalian transcription factor binding sites: a survey of computational and experimental techniques. Genome Res. 2006;16:1455–1464. | |
HMM's für Transcription factor binding Sites (PG) |
Philip Ellrott K, Yang C, Sladek FM, Jiang T. "Identifying transcription factor binding sites through Markov chain optimization." Bioinformatics. 2002;18 Suppl 2:S100-9 | Curow, Rudolf |
Phylogenetischer Ansatz für TFBF (PG) |
Newberg, L. A., W. A. Thompson, S. Conlan, T. M. Smith, L. A. McCue, and C. E. Lawrence. 2007. A phylogenetic Gibbs sampler that yields centroid solutions for cis-regulatory site prediction. Bioinformatics 23 (14):1718-27. | |
Texte Mining in der Bioinformatik |
||
Named Entity Recognition mit Maximum Entropy Models |
|
Pix, Stockschlaeder |
Text Similarity |
Lewis, J., S. Ossowski, J. Hicks, M. Errami, and H. R. Garner. 2006. Text similarity: an alternative way to search MEDLINE. Bioinformatics 22 (18):2298-304. | |
Netzwerke und Proteinfunktionen |
||
Multi-Spezies Funktionsvorhersage mit PPI |
|
Filip |
Semantische Analyse von PPI Clustern |
Philip Y. Cho, W. Hwang, M. Ramanathan and A. Zhang "Semantic integration to identify overlapping functional modules in protein interaction networks" BMC Bioinformatics. 2007 Jul 24;8:265 |