Data Warehousing and Data Mining
Mit Data Warehouses (DWH) werden sehr große, integrierte und auf die Datenanalyse ausgerichtete Datenbanken bezeichnet. Die Vorlesung behandelt diese Thematik in zwei Blöcken. Im ersten Block werden Methoden zum Aufbau und Management von DWH in relationalen Datenbanken vorgestellt (Architekturen, ETL-Prozess, das multidimensionale Datenmodell, OLAP Operationen, Bitmap-Indexe, materialisierte Sichten etc.). Im zweiten Block besprechen wir Algorithmen, die auf den gesammelten Daten Analysen vornehmen (Data Mining), insbesondere Klassifikation, Clustering und Association-Rule Mining. Der Schwerpunkt liegt auf der performanten Implementierung solcher Algorithmen in Datenbanken. In der vorlesungsbegleitende Übung werden ausgewählte Verfahren anhand eines aktuellen kommerziellen RDBMS (Oracle) erprobt.
Die erste Vorlesung findet am 18.10.2017 statt.Voraussetzungen
Voraussetzung für den Besuch sind gute Kenntnisse in relationalen Datenbanken (z.B. Modul Einführung in Datenbanksysteme).
Prüfungen
Die Vorlesung wird mit einer Klausur abgeschlossen. Die Klausur findet am 23.02.18 statt:Ort: | RUD 25, 3.001 |
Einlass: | 9:00 Uhr |
Beginn: | 9:30 Uhr |
Dauer: | 120 Minuten |
Die Vorlesung ist anrechenbar für
- Diplomstudiengang Informatik, Halbkurs praktischen Informatik, 8SP
- Master Informatik, Vertiefung Daten- und Wissensmanagement, 10SP
- Master Wirtschaftsinformatik, 10SP
Voraussetzung für die Zulassung zur Prüfung ist das Bestehen der Übung.
Die Ergebnisse der Klausur Data Warehousing und Data Mining hängen am schwarzen Brett neben dem Büro 4.404.
Klausureinsicht
Der Termin für die Klausureinsicht ist Mittwoch, der 21.3.2018, von 10.00-11.00 Uhr in Raum 4.410. Denkt bitte daran, zur Einsicht einen Lichtbildausweis mitzubringen.
Themen
Folien sind hier jeweils nach der Vorlesung als PDF verfügbar. Änderungen möglich.
- Einführung
- Architektur und Komponenten
- Das Multidimensionale Datenmodell
- OLAP Operationen, ME/R und Aggregierbarkeit
- ROLAP und MOLAP
- OLAP Anfragesprachen
- ETL:Extraction, Transformation, Load
- Indexstrukturen für Data Warehouses:B* und Bitmap (korrigierte Fassung, 13.2.2018)
- Gastvorlesung Stefan Sprenger: Indexstrukturen auf Modern Hardware
- Multidimensionale Indexstrukturen
- Star-Join und Partitionierung
- Implementierung von OLAP Operatoren
- Big Data: OLAP Operations on MapReduce
- Materialized Views: Anfrageoptimierung
- Materialized Views: Aktualisierung und Auswahl
- Data Mining Einführung
- Klassifikation
- Association Rule Mining
- Time Series Analytics
- Clustering
Literatur
- Kelleher, J., Mac Namee, B. and A'Arcy, A. (2015). "Foundations of Machine Learning for Predictive Analysis", MIT Press.
- Lehner, W. (2003): "Datenbanktechnologie für Data Warehouse Systeme", dpunkt.verlag
- Bauer/Günzel: Data Warehouse Systeme, dpunkt.verlag, 2008
- Han/Kamber: Data Mining, Morgan Kaufmann, 2006
- Jensen, Pedersen, Thomsen: Multidimensional Databases and Data Warehousing, Morgan&Claypool, Synthesis Lectures, 2010