Data Warehousing und Data Mining
Mit Data Warehouses (DWH) werden sehr große, integrierte und auf die Datenanalyse ausgerichtete Datenbanken bezeichnet. Die Vorlesung behandelt diese Thematik in zwei Blöcken. Im ersten Block werden Methoden zum Aufbau und Management von DWH in relationalen Datenbanken vorgestellt (Architekturen, ETL-Prozess, das multidimensionale Datenmodell, OLAP Operationen, Bitmap-Indexe, materialisierte Sichten etc.). Im zweiten Block besprechen wir Algorithmen, die auf den gesammelten Daten Analysen vornehmen (Data Mining), insbesondere Klassifikation, Clustering und Association-Rule Mining. Der Schwerpunkt liegt auf der performanten Implementierung solcher Algorithmen in Datenbanken. In der vorlesungsbegleitende Übung werden ausgewählte Verfahren anhand eines aktuellen kommerziellen RDBMS (Oracle) erprobt.
Die erste Vorlesung findet am Donnerstag, den 16.10.2014, statt. Am Montag, den 13.10.2014, fällt die Veranstaltung aus.Voraussetzungen
Voraussetzung für den Besuch sind gute Kenntnisse in relationalen Datenbanken (z.B. Modul Datenbanken I).
Prüfungen
Die Prüfungen finden in Form einer Klausur statt. Diese findet am Montag, den 23.2.2015, in Raum EZ 0'317 zwischen 11.00 und 13.00 Uhr statt.
Die Vorlesung anrechenbar für
- Diplomstudiengang Informatik, Halbkurs praktischen Informatik, 8SP
- Master Informatik, Vertiefung Data Management, 10SP
- Master Wirtschaftsinformatik, 10SP
Themen
Folien sind hier jeweils nach der Vorlesung als PDF verfügbar. Änderungen möglich.
- Einführung
- Architektur und Komponenten
- Das Multidimensionale Datenmodell
- OLAP Operationen, ME/R und Aggregierbarkeit
- ROLAP und MOLAP
- OLAP Anfragesprachen
- ETL:Extraction, Transformation, Load
- Indexierung: B* und Bitmap
- Multidimensionale Indexstrukturen
- Star-Join und Partitionierung
- Implementierung von OLAP Operatoren
- Materialized Views: Anfrageoptimierung
- Materialized Views: Aktualisierung und Auswahl
- Data Mining Einführung
- Clustering
- Klassifikation
- Association Rule Mining
Literatur
- Lehner: Datenbanktechnologie für Data Warehouse Systeme, dpunkt.verlag, 2003
- Bauer/Günzel: Data Warehouse Systeme, dpunkt.verlag, 2008
- Han/Kamber: Data Mining, Morgan Kaufmann, 2006
- Jensen, Pedersen, Thomsen: Multidimensional Databases and Data Warehousing, Morgan&Claypool, Synthesis Lectures, 2010