Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Data Warehousing und Data Mining

Professor Ulf Leser

Mit Data Warehouses (DWH) werden sehr große, integrierte und auf die Datenanalyse ausgerichtete Datenbanken bezeichnet. Die Vorlesung behandelt diese Thematik in zwei Blöcken. Im ersten Block werden Methoden zum Aufbau und Management von DWH in relationalen Datenbanken vorgestellt (Architekturen, ETL-Prozess, das multidimensionale Datenmodell, OLAP Operationen, Bitmap-Indexe, materialisierte Sichten etc.). Im zweiten Block besprechen wir Algorithmen, die auf den gesammelten Daten Analysen vornehmen (Data Mining), wie zum Beispiel Klassifikation, Clustering und Recommendation-Algorithmen. Der Schwerpunkt liegt auf der performanten Implementierung solcher Algorithmen in Datenbanken. In der vorlesungsbegleitende Übung werden ausgewählte Verfahren anhand aktueller kommerzieller relationaler Datenbanken (Oracle) erprobt.

Voraussetzungen

Voraussetzung für den Besuch sind gute Kenntnisse in relationalen Datenbanken (z.B. Modul Datenbanken I).

Prüfungen

Prüfungen sind mündlich. Die Vorlesung anrechenbar für

  • Diplomstudiengang Informatik, Halbkurs praktischen Informatik, 8SP
  • Monobachelor Informatik, Wahlpflichtbereich, 8SP
  • Mater Wirtschaftsinformatik, 8SP
Voraussetzung für die Zulassung zur Prüfung ist das Bestehen der Übung.

Themen

Folien sind hier jeweils vor der Vorlesung als PDF verfügbar. Änderungen möglich.

Literatur

  • Lehner: Datenbanktechnologie für Data Warehouse Systeme, dpunkt.verlag, 2003
  • Bauer/Günzel: Data Warehouse Systeme, dpunkt.verlag, 2008
  • Han/Kamber: Data Mining, Morgan Kaufmann, 2006
  • Jensen, Pedersen, Thomsen: Multidimensional Databases and Data Warehousing, Morgan&Claypool, Synthesis Lectures, 2010