Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Masterseminar: Infrastrukturen für BIG DATA Anwendungen

Prof. Dr. Ulf Leser

Unter dem Modewort "Big Data" versteht man allgemein die komplexe Analyse sehr großer, oftmals un- oder semistrukturierter Datenmengen. Diese Fragestellung fnde man in vielen Bereichen, von der Weblog-Analyse über Sentiment-Analysen in Sozialen Medien oder Genomanalysen in der modernen Molekularmedizin bis zur Kundendatensegmentierung in Onlineshops. Die Art der Analyse muss dazu spezifiziert, die Planung für große Datenmengen optimiert, und die Ausführung auf verteilten Rechnerverbünden koordiniert werden; die Unterstützung dieser (und anderer) Teilschritte ist die Aufgabe einer Big Data Infrastruktur. Im Seminar werden verschiedene solche Infrastrukturen vorgestellt. Wichtige Teilgebiete sind dabei Datenflußsprachen, Scheduling in verteilen Umgebungen, Streaming versus Batch-Processing, Main-Memory Systeme und Optimierungsverfahren für große Datenmengen.

Das Seminar findet im wesentlichen als Blockseminar am Ende des Semesters statt. Vorher sind aber Einführungstermine und individuelle Themenbesprechungen zu besuchen.

Das Seminar in AGNES.

Voraussetzungen

  • Gute Kenntnisse in Algorithmen und Datenstrukturen (z.B. gleichnamige Vorlesung)
  • Kenntnisse in Datenbanken (z.B. Einführung in Datenbanken)

Schein und Anrechenbarkeit

Das Seminar ist anrechenbar für

  • Diplom Informatik
  • Master Informatik
  • Master Wirtschaftsinformatik

Voraussetzungen für den Schein sind:

  • der Besuch der Einführungsveranstaltungen,
  • die regelmäßige Kommunikation mit dem jeweiligen Betreuer,
  • eine Kurzpräsentation des Themas in der Mitte des Semesters,
  • das Halten eines wissenschaftlichen Vortrags im Blockseminar am Ende des Semesters, und
  • das Erstellen einer schriftlichen Ausarbeitung (Seminararbeit).

Anmeldung

Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über Goya.

Termine und Ablauf

Am Freitag, den 17.10.2014 findet die Einführungsveranstaltung statt, die für alle Teilnehmenden verpflichtend ist. Dort werden die Themen erläutert und vergeben.

Das Seminar wird als Blockseminar am Ende des Semesters abgehalten. Jede(r) Studierende muss einen ca. 30-40 minütigen Vortrag über das zugewiesene Thema halten. Vorher finden mindestens zwei Treffen mit dem/der Betreuer(in) statt, einmal zur Vorbesprechung des Themas und einmal zur Besprechung der Folien. Außerdem wird es in der Mitte des Semesters einen Termin geben, in dem alle Studierenden in einer 5-minütigen Flash-Präsentation ihr Thema vorstellen, um Querverbindungen zu erkennen und die rechtzeitige Beschäftigung mit dem Thema sicherzustellen. Schließlich muss zu jedem Thema eine ca. 15 seitige Seminararbeit verfasst werden. Ggf. gehören auch praktische Umsetzungen mit den Systemen zur Aufgabe

Zusätzlich zu der speziellen Literatur, über die die Vorträge gehalten werden, gibt es für alle Teilnehmer verpflichtende Einführungslektüre.

Alle Pflichttermine in der Übersicht:

  • 17.10.14, 11-13 Uhr: Einführung und Themenvergabe, Raum: RUD 26, 1'307
  • Bis 30.11.2014: Treffen mit dem Betreuer zur Themenbesprechung und -eingrenzung
  • Vor Weihnachten: Flash-Präsentationen; Raum TBA
  • Bis 20.1.2015: Treffen mit dem Betreuer zur Besprechung der Folien
  • Semesterende: Blockseminar, Raum TBA
  • Bis 31.3.2015: Abgabe Seminararbeit

Vorlagen


Zeitplan Blockseminar

Donnerstag, 12.2.2015, Raum: Humboldt-Kabinett
09.00Sven SchröderHadoop: From Map-Reduce to Tez
10.00Matthias ItzerottDWHs auf Hadoop: Hive und HadoopDB
10.00Felix StiehlerDie DeWitt/Stonebraker Debatte: Hadoop - Fluch oder Segen?
Freitag, 13.2.2015, Raum: Humboldt-Kabinett
9.00Florian BorchertApache SPARK
10.00Lijuan ShiDistributed machine learning - Mahout & friends
11.00Matthias Höschel Naia@Microsoft
12.00Pause
13.00Johannes BerdingDistributed text processing: METEOR, UIMA & friends
14.00Mario VölkerDistributed graph processing: Pregel & Giraph
15.00Michel MantheyScube@Facebook


Themen

Topic Paper Vortragende(r) Betreuer(in)
Einführende Literatur für alle Teilnehmer
  • Dean, Jeffrey, and Sanjay Ghemawat. "MapReduce: simplified data processing on large clusters." Communications of the ACM 51.1 (2008): 107-113.
  • Russom, P. (2011). Big data analytics. TDWI Best Practices Report, Fourth Quarter.
  • Sakr, Sherif, et al. "A survey of large scale data management approaches in cloud environments." Communications Surveys & Tutorials, IEEE 13.3 (2011): 311-336.
   
  Folien der Einführung Ulf Leser
Hadoop: From Map-Reduce to Tez
  • Dean, J., & Ghemawat, S. (2008). MapReduce: simplified data processing on large clusters. Communications of the ACM, 51(1), 107-113.
  • Hadoop
  • YARN
  • Tez
Sven Schröder Marc Bux
Hive
  • Thusoo, Ashish, et al. "Hive-a petabyte scale data warehouse using hadoop." Data Engineering (ICDE), 2010 IEEE 26th International Conference on. IEEE, 2010.
  • Capriolo, Edward, Dean Wampler, and Jason Rutherglen. Programming hive. " O'Reilly Media, Inc.", 2012.
Matthias Itzerott Ulf Leser
PIG Latin
  • Olston, C., et al. Pig latin: a not-so-foreign language for data processing. in SIGMOD Conference. 2008. Vancouver, CD.
  • Gates, Alan F., et al. "Building a high-level dataflow system on top of Map-Reduce: the Pig experience." Proceedings of the VLDB Endowment 2.2 (2009): 1414-1425.
  • Stewart, Robert J., Phil W. Trinder, and Hans-Wolfgang Loidl. "Comparing high level mapreduce query languages." Advanced Parallel Processing Technologies. Springer Berlin Heidelberg, 2011. 58-72.
Abgebrochen Jörgen Brandt
Asterix
  • Borkar, V., Carey, M., Grover, R., Onose, N., & Vernica, R. (2011, April). Hyracks: A flexible and extensible foundation for data-intensive computing. In Data Engineering (ICDE), 2011 IEEE 27th International Conference on (pp. 1151-1162). IEEE.
  • Borkar, Vinayak, Michael J. Carey, and Chen Li. "Inside Big Data management: ogres, onions, or parfaits?." Proceedings of the 15th International Conference on Extending Database Technology. ACM, 2012.
  • Alsubaiee, S., Altowim, Y., Altwaijry, H., Behm, A., Borkar, V., Bu, Y., ... & Wen, J. (2012). ASTERIX: an open source system for Big Data management and analysis. Proceedings of the VLDB Endowment, 5(12), 1898-1901.
  • Alsubaiee, S., Altowim, Y., Altwaijry, H., Behm, A., Borkar, V., Bu, Y., ... & Westmann, T. (2014). AsterixDB: A Scalable, Open Source BDMS. arXiv preprint arXiv:1407.0454.
Felix Stiehler Ulf Leser
Large-scale text processing: METEOR, UIMA & friends
  • Ferrucci, D., & Lally, A. (2004). UIMA: an architectural approach to unstructured information processing in the corporate research environment. Natural Language Engineering, 10(3-4), 327-348.
  • Shen, W., et al. Declarative Information Extraction Using Datalog with Embedded Extraction Predicates. in Int Conf. on Very Large Databases. 2007. Vienna, Austria.
  • Rheinländer, A., et al., SOFA: An Extensible Logical Optimizer for UDF-heavy Dataflows, in CoRR/abs:1311.6335. 2013.
Johannes Berding Astrid Rheinländer
Pregel and Apache Giraph
  • Malewicz, G., Austern, M. H., Bik, A. J., Dehnert, J. C., Horn, I., Leiser, N., & Czajkowski, G. (2010, June). Pregel: a system for large-scale graph processing. In Proceedings of the 2010 ACM SIGMOD International Conference on Management of data (pp. 135-146). ACM.
  • Quick, Louise, Paul Wilkinson, and David Hardcastle. "Using pregel-like large scale graph processing frameworks for social network analysis." Proceedings of the 2012 International Conference on Advances in Social Networks Analysis and Mining (ASONAM 2012). IEEE Computer Society, 2012.
  • Apache Giraph
Mario Völker Marc Bux
SPARK
  • Zaharia, M., Chowdhury, M., Franklin, M. J., Shenker, S., & Stoica, I. (2010, June). Spark: cluster computing with working sets. 2nd USENIX conference on Hot topics in cloud computing (pp. 10-10).
  • Zaharia, M., Chowdhury, M., Das, T., Dave, A., Ma, J., Mccauley, M., ... & Stoica, I. (2012). Fast and interactive analytics over Hadoop data with Spark. USENIX.
  • Zaharia, M., Chowdhury, M., Das, T., Dave, A., Ma, J., McCauley, M., ... & Stoica, I. (2012, April). Resilient distributed datasets: A fault-tolerant abstraction for in-memory cluster computing. In Proceedings of the 9th USENIX conference on Networked Systems Design and Implementation (pp. 2-2). USENIX Association.
Florian Borchert Jörgen Brandt
Distributed, parallel machine learning - Mahout & friends
  • Ghoting, Amol, et al. "SystemML: Declarative machine learning on MapReduce." Data Engineering (ICDE), 2011 IEEE 27th International Conference on. IEEE, 2011.
  • Kraska, T., Talwalkar, A., Duchi, J. C., Griffith, R., Franklin, M. J., & Jordan, M. I. (2013). MLbase: A Distributed Machine-learning System. In CIDR.
  • Apache Mahout
Lijuan Shi Ulf Leser
Scuba @Facebook
  • Goel, A., Chopra, B., Gerea, C., Mátáni, D., Metzler, J., Ul Haq, F., & Wiener, J. (2014, June). Fast database restarts at facebook. SIGMOD (pp. 541-549). ACM.
  • Abraham et al. "Scuba: Diving into Data at Facebook", PVLDB 2014
Michel Manthey Ulf Leser
Naia@Microsoft
  • Rodeheffer: The Naiad Clock Protocol: Specification, Model Checking, and Correctness Proof, Microsoft Research, 2014
  • Murray et al.: Naiad: a timely dataflow system, SOSP, 2013
Matthias Höschel Jörgen Brandt