Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Seminar Data Mining in der Bioinformatik

Wintersemester 2007/2008, Prof. Ulf Leser, Ms.BioInf. Philip Groth

Inhalt des Seminars

Das Seminar behandelt verschiedene Anwendungen des Data Mining in der Bioinformatik. Das prominenteste Beispiel dafür dürfte die Klassifikation von Proben nach Ihrem Status bzgl. einer Erkrankung sein. Beispielsweise versucht man, aus dem Genexpressionsprofil eines Patienten zu errechnen, ob das Gewebe erkrankt ist und sich z.B. ein noch unerkannter Tumor bildet. Weitere Anwendungen von Data Mining auf diesem Gebiet sind die Vorhersage von Genfunktion, Clustering zur Aufklärung von Signalwegen, Text Mining für die Literatursuche, oder graph-basiertes Data Mining in biologischen Netzwerken. Im dem Seminar werden Studenten eine Vielzahl von Data Mining Methoden jeweils mit einer bioinformatischen Anwendung kennenlernen.
Die Veranstaltung ist als Seminar in der praktischen Informatik anrechenbar.
Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über Goya.

Termine und Ablauf

Am Dienstag, den 23. Oktober 2007, findet von 15.00 c.t. bis 17.00 Uhr in RUD 26, R1'308 eine Einführungsveranstaltung statt, die für alle Teilnehmer verpflichtend ist. Dort werden die Themen von den Dozenten erläutert und an die interessierten Studenten vergeben.

Das Seminar wird als Blockseminar am Ende des Semesters abgehalten. Außerdem wird es vor Weihnachten einen Termin geben, in dem alle Studenten in einer 5-minütigen Präsentation Ihr Thema vorstellen müssen, um Querverbindungen zu erkennen und die rechtzeitige Beschäftigung mit dem Thema sicherzustellen. Dieser Termin ist am 14.12.2007 von 14.00 - 16.00 Uhr in Raum 3.113.

Termine für die Blockveranstaltungen (neu)

  • Freitag, 8.2.2008, 10-13 Uhr, Humboldt-Kabinett
  • Montag, 11.2.2008, 10-12.30, Humboldt-Kabinett

Zusätzlich zu der speziellen Literatur, über die die Vorträge gehalten werden, gibt es für alle Teilnehmer verpflichtende Einführungslektüre. Am Termin vor Weihnachten werden die dort vermittelten Kenntnisse im Rahmen einer kurzen Klausur überprüft. Das Bestehen der Klausur ist Voraussetzung für die weitere Teilnahme.

Voraussetzungen für die Teilnahme

  • Abgeschlossenes Grundstudium
  • Grundkenntnisse in Statistik
  • Teilnahme an allen Terminen, insb. dem Einführungstermin
  • Idealerweise Vorkenntnisse in Bioinformatik und Molekularbiologie (werden ansonsten vermittelt)
  • Lesen englischer Texte

Voraussetzungen für den Scheinerwerb

  • Bestehen der Klausur über die Einführungstexte
  • Wahrnehmung mehrerer Termine mit dem Betreuer (wird individuell verabredet).
  • ca. 45 min. Vortrag über das abgesprochene Thema
  • Selbständiges Erstellung einer Seminararbeit im Umfang von 10-20 Seiten; Fertigstellung bis zum 31.3.2008

Kontakt

Ulf Leser
Gebäude IV, Raum 105
E-Mail: leser (youknowwhat) informatik hu-berlin de

Philip Groth
Gebäude IV, Raum 106
E-Mail: groth (youknowwhat) informatik hu-berlin de

Vorlagen

Themen

Thema (Betreuer)
Paper Vortragende/r
Einführungslektüre
Alle
Einführungsveranstaltung

Folien

UL, PG

Microarrays

  • Einleitender Text Microarray: NCBI Primer on EST's and Microarrays
  • Einleitender Text über Klassifikation & Clustering: Alan H. Fielding: Cluster and Classification Techniques, Chapter 3, p. 46-77
 
Clustering
(PG)

Schmidt A, Groth P, Haendler B, Hess-Stumpp H, Kratzschmar J, Seidel H, Thaele M, Weiss B. Gene expression during the implantation window: microarray analysis of human endometrial samples. Ernst Schering Res Found Workshop. 2005;(52):139-57.

Pincus
Klassifikation
(PG)
  • Hintergrund F. Markowetz, L. Edler and M. Vingron, "Support Vector Machines for Protein Fold Class Prediction" Biometrical Journal 45 (2003) 3, 377–389
  • Anwendung: Chu, F., Wang, L. "Applications of support vector machines to cancer classification with microarray data." Int J Neural Syst. 2005 Dec;15(6):475-84.
Dudeck
Co-Clustering
(PG)
Philip Hanisch D, Zien A, Zimmer R, Lengauer T. (2002) "Co-clustering of biological networks and gene expression data" Bioinformatics. 2002;18 Suppl 1:S145-54 Starlinger
Bi-Clustering
(PG)
Philip Qu H, Wang LP, Liang YC, Wu CG. Cheng,Y. and Church,G. M. (2000) "Biclustering of expression data." In Proceedings of the 8th International Conference on Itelligent Systems for Molecular Biology, (ISMB 2000) La Jolla, CA, 20--23 August, 2000, pp. 93--103.

Biologische Netzwerke

Einleitender Text: Jeong, H., Tombor, B., Albert, R., Oltvai, Z. N. and Barabasi, A. L. (2000). "The large-scale organization of metabolic networks." Nature 407(6804): 651-4.  
Funktionale Einheiten
(UL)
Spirin, V. and Mirny, L. A. (2003). "Protein complexes and functional modules in molecular networks." Proc Natl Acad Sci U S A 100(21): 12123-8. Herholz
Frequent Subgraph Mining
(UL)
  • Algorithmus: 1.    Wernicke S: Efficient detection of network motifs. IEEE/ACM Trans Comput Biol Bioinform 2006, 3(4):347-359.
  • Anwendung: Yeger-Lotem, E., Sattath, S., Kashtan, N., Itzkovitz, S., Milo, R., Pinter, R. Y., Alon, U. and Margalit, H. (2004). "Network motifs in integrated cellular networks of transcription-regulation and protein-protein interaction." Proc Natl Acad Sci U S A 101(16): 5934-9.
Damyanliev

Vorhersage von Protein-Protein-Interaktionen
(UL)

Chen, X. W., and M. Liu. 2005. Prediction of protein-protein interactions using random decision forest framework. Bioinformatics 21 (24):4394-400.

Pathway Alignment
(UL)

Kelley, B. P., Sharan, R., Karp, R. M., Sittler, T., Root, D. E., Stockwell, B. R. and Ideker, T. (2003). "Conserved pathways within bacteria and yeast as revealed by global protein network alignment." Proc Natl Acad Sci U S A 100(20): 11394-9. Kubis

Sequenzanalyse für Transkriptonsfaktoren

Elnitski L, Jin VX, Farnham PJ, Jones SJ. Locating mammalian transcription factor binding sites: a survey of computational and experimental techniques. Genome Res. 2006;16:1455–1464.  
HMM's für Transcription factor binding Sites
(PG)
Philip Ellrott K, Yang C, Sladek FM, Jiang T. "Identifying transcription factor binding sites through Markov chain optimization." Bioinformatics. 2002;18 Suppl 2:S100-9 Curow, Rudolf
Phylogenetischer Ansatz für TFBF
(PG)
Newberg, L. A., W. A. Thompson, S. Conlan, T. M. Smith, L. A. McCue, and C. E. Lawrence. 2007. A phylogenetic Gibbs sampler that yields centroid solutions for cis-regulatory site prediction. Bioinformatics 23 (14):1718-27.

Texte Mining in der Bioinformatik

   

Named Entity Recognition mit Maximum Entropy Models
(UL)

  • Methode: Curran, James R. , and Stephen Clark. 2003. Language Independent NER using a Maximum Entropy Tagger. 7th Conference on Natural Language Learning, at Edmonton, Canada.
  • Anwendung: Chun, H. W., Y. Tsuruoka, J. D. Kim, R. Shiba, N. Nagata, T. Hishiki, and J. Tsujii. 2006. Extraction of gene-disease relations from Medline using domain dictionaries and machine learning. Pac Symp Biocomput:4-15.
Pix, Stockschlaeder

Text Similarity
(UL)

Lewis, J., S. Ossowski, J. Hicks, M. Errami, and H. R. Garner. 2006. Text similarity: an alternative way to search MEDLINE. Bioinformatics 22 (18):2298-304.

Netzwerke und Proteinfunktionen

   

Multi-Spezies Funktionsvorhersage mit PPI
(UL)

  • R Sharan et al. Conserved patterns of protein interaction in multiple species. PNAS, 102(6):1974–1979, February 2005.
  • McDermott, J., R. Bumgarner, and R. Samudrala. 2005. Functional annotation from predicted protein interaction networks. Bioinformatics 21 (15):3217-26.
Filip

Semantische Analyse von PPI Clustern
(PG)

Philip Y. Cho, W. Hwang, M. Ramanathan and A. Zhang "Semantic integration to identify overlapping functional modules in protein interaction networks" BMC Bioinformatics. 2007 Jul 24;8:265