Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Statistik und Data Science

Professor Dr. Ulf Leser

 

Das Teilmodul "Statistik und Data Science" behandelt Grundlagen der Statistik und ihre Anwendungen für Aufgabenstellungen im Umfeld der Data Science. Zentrale Themen sind Zufallsvariablen, diskrete und kontinuierliche Verteilungen, Wahrscheinlichkeitsrechnung, Konfidenzintervalle, Hypothesentests, Datenvorverarbeitung, Grundlagen des Maschinellen Lernens, Klassifikationsverfahren (wie Neuronale Netze, multivariate Regression oder Entscheidungsbäume), und Evaluationsmetriken.

Die dreistündige Vorlesung wird durch eine zweistündige Übung begleitet. Diese vertieft die gelernten Methoden durch mathematisch-orientierte Aufgaben und praktische Umsetzungen mit Python.

Voraussetzungen

Voraussetzung für den Besuch sind gute Kenntnisse in Analysis, Algorithmen und Datenstrukturen und Programmierung. Formale Voraussetzungen zur Teilnahme bestehen nicht.

Ablauf

Die Termine der Vorlesung sind Dienstag und Donnerstag, 11-13 Uhr. Aufgrund der Dreistündigkeit der Vorlesung werden einige Termine ausfallen; dies wird jeweils in der Vorlesung bekannt gegeben.

Prüfungen

Der Kurs ist nach Prüfungsordnung 2022 Teil des Moduls "Mathematik 2", dass ausserdem das Teilmodul "Analysis und ihre Bezüge zur Informatik" umfasst. Beide Teilmodule werden in einer gemeinsamen, 150 minütigen Klausur geprüft. Eine Zulassung zur Klausur erfolgt nur, wenn beide Übungen unabhängig voneinander bestanden wurden.

Aus historischen Gründen sind auch Teilprüfungen für Studierende anderer Prüfungsordnungen vorgesehen. Diese sind:

  • Studierende der PO 2022 (Wechsler*innen), die das (alte) Modul "Analysis 1" bereits bestanden haben, können nur das Teilmodul "Statistik und Data Science" ablegen. Dies erfolgt in einer 75-minütigen Klausur.
  • Studierende der PO 2022 (Wechseler*innen), die das (alte) Modul "Angewandte Mathematik" bereits bestanden haben, können nur das Teilmodul "Analysis und ihre Bezüge zur Informatik" ablegen. Dies erfolgt in einer 75-minütigen Klausur.
  • Studierende älterer Prüfungsordnungen, die das (alte) Modul "Analysis 1" bereits bestanden haben, können nur das Teilmodul "Statistik und Data Science" ablegen (als Ersatz des Moduls "Angewandte Mathematik"). Dies erfolgt in einer 90-minütigen Klausur.

Alle Klausuren finden am gleichen Termin statt, der noch nicht feststeht.

Literatur zur Vorlesung

  • Teschl und Teschl, "Mathematik für Informatiker Band 2: Analysis und Statistik", Springer eXamen.press, 2007
  • Sachs und Hedderich, "Angewamndte Statistik", Springer 2009
  • Kelleher, Mac Nameeund D'Arcy, "Machine Learning for Predictive Data Analytics", MIT Press 2015
  • Bishop, "Pattern Recognition and Machine Learning", Springer 2006

Themen und Termine im Einzelnen

Zur Kommunikation und zur Veröffentlichung der Folien verwenden wir Moodle. Der Kursschlüssel wird in der Vorlesung und Übung bekannt gegeben.