Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Seminar Large Scale Data Analysis

Prof. Dr. Ulf Leser, Marc Bux, Astrid Rheinländer, Johannes Starlinger

 

Die Datenmengen, die in vielen modernen Anwendungen verarbeitet und analysiert werden müssen, wachsen seit Jahren kontinuierlich und steil an. Beispiele dafür sind Retrievalprobleme bei Internetsuchmaschinen, Analyse von Graphen in sozialen Onlinenetzwerken, oder Empfehlungsgenerierung im eCommerce. Zur Bewältigung dieser Aufgaben werden zunehmend verteilte Systeme eingesetzt (Stichwort: Cloud-Computing). Im Seminar besprechen wir eine Reihe dieser Systeme und der zugrundeliegenden Verfahren (z.B. Pig/Latin, Dryad/Linq, MapReduce, Mahout, ...).

Voraussetzungen

Gute Kenntnisse in Datenbanken

Schein und Anrechenbarkeit

Das Seminar ist anrechenbar für

  • Diplom Informatik
  • Monobachelor Informatik
  • Master Wirtschaftsinformatik

Voraussetzung für den Schein ist:

  • das Bestehen einer Kurzklausur zu Grundlagenthemen (siehe unten),
  • das Halten eines wissenschaftlichen Vortrags,
  • die einmalige Übernahme der "Opponentenrolle" (siehe unten) sowie
  • das Erstellen einer schriftlichen Ausarbeiten (Seminararbeit)

Anmeldung

Die Teilnehmerzahl ist begrenzt, die Anmeldung erfolgt über Goya.


Termine und Ablauf

Am 11.04.2012 findet von 11-13 Uhr die Einführungsveranstaltung statt, die für alle Teilnehmenden verpflichtend ist. Dort werden die Themen erläutert und vergeben. Die Folien der Einführungsveranstaltung finden Sie hier.

Das Seminar wird als Blockseminar am Ende des Semesters abgehalten. Jede(r) Studierende (oder jede Gruppe von Studierenden) muss einen ca. 30 minütigen Vortrag über das zugewiesene Thema halten. Vorher finden mindestens zwei Treffen mit dem/der  Betreuer(in) statt, einmal zur Vorbesprechung des Themas und einmal zur Besprechung der Folien. Außerdem wird es in der Mitte des Semesters einen Termin geben, in dem alle Studierenden in einer 5-minütigen Flash-Präsentation ihr Thema vorstellen, um Querverbindungen zu erkennen und die rechtzeitige Beschäftigung mit dem Thema sicherzustellen. Schließlich muss zu jedem Thema eine Seminararbeit verfasst werden.

Zu jedem Thema wird ein(e) Studierende(r) vorab als Opponent(in) ausgewählt. Der/Die Opponent(in) liest ebenfalls die zum Thema ausgegebene Literatur und bereitet für den Vortragstermin kritische Fragen zu deren Inhalt vor, die dann im Seminar diskutiert werden. Ziel ist nicht das Aufdecken von Verständnisproblemen beim Vortragenden, sondern die kritische Auseinandersetzung mit dem Thema.

Zusätzlich zu der speziellen Literatur, über die die Vorträge gehalten werden, gibt es für alle Teilnehmer verpflichtende Einführungslektüre. In der Mitte des Semesters werden die dort vermittelten Kenntnisse im Rahmen einer Kurzklausur überprüft. Das Bestehen der Klausur ist Voraussetzung für die weitere Teilnahme.

Alle Pflichttermine in der Übersicht:

  • 11.04.2012, 11-13 Uhr, RUD 26 1'307: Einführung (Folien)
  • Bis 15.5.2012: Individuelle Themenbesprechung mit Betreuer(in)
  • 6.6.2012, 10-12 Uhr, RUD 26, 0'313: Flash-Präsentationen aller Themen
  • TBA: Individuelle Folienbesprechung mit Betreuer(in)
  • 13.7.2012, 9-15 Uhr, RUD 25, IV.112: Blockseminar

    Zeitplan

    Uhrzeit Thema Vortragende(r)
    09:15 - 09:55Pig & PigLatinFreywald
    09:55 - 10:35Jaql & JSONKonrad
    10:35 - 10:45Pause
    10:45 - 11:25StratosphereSchultze
    11:25 - 12:05Text Analytics with MapReduceKunkel
    12:05 - 12:45Pause
    12:45 - 13:25TavernaWeber
    13:25 - 14:05PegasusBrandt
    14:05 - 14:45Workflow Schedule OptimizationWill
  • Bis 31.08.2012: Abgabe der Seminararbeit

Vorlagen


Einführungslektüre

Thema Literatur
Pflicht
  • Markl, V., Ewen, S. and Alexandrov, A. (2012). "Web-Scale Analytics for BIG Data." (wird im Seminar ausgegeben)
  • Varia, J. (2008). "Cloud Architectures". Amazon Technical White Paper.
  • Deelman, E., Gannon, D., Shields, M. and Taylor, I. (2009). "Workflows and e-Science: An overview of workflow system features and capabilities." Future Generation Computer Systems 25(5): 528-540.
Einführungsveranstaltung Folien

Themen (Abstracts per Mouseover verfügbar)

Cloud architectures & Applications Vortragende(r) Opponent(in) Betreuer(in)
Pig & PigLatin

Gates, A. F., Natkovich, O., Chopra, S., Kamath, P., Narayanamurthy, S. M., Olston, C., Reed, B., Srinivasan, S. and Srivastava, U. (2009). "Building a high-level dataflow system on top of Map-Reduce: the Pig experience." Proc. of the VLDB Endowment 2(2): 1414-1425.

Olston, C., Reed, B., Srivastava, U., Kumar, R. and Tomkins, A. (2008). "Pig latin: a not-so-foreign language for data processing". SIGMOD Conference, Vancouver, CD. pp 1099-1110.

Freywald Konrad Ulf Leser
DryadLINQ

Ekanayake, J., Balkir, A. S., Gunarathne, T., Fox, G., Poulain, C., Araujo, N. and Barga, R. (2009). "DryadLINQ for Scientific Analyses". eScience, Oxford, UK.

Yu, Y., Isard, M., Fetterly, D., Budiu, M., Erlingsson, Ú., Gunda, P. K. and Currey, J. (2008). "DryadLINQ: A System for General-Purpose Distributed Data-Parallel Computing Using a High-Level Language".Symposium on Operating Systems Design and Implementation.

    Ulf Leser
Jaql & JSON

Beyer, K., Ercegovac, V., Gemulla, R., Balmin, A., Eltabakh, M., Kanne, C.C., Ozcan, F. and Shekita, E. (2011). "Jaql: A Scripting Language for Large Scale Semistructured Data Analysis." In PVLDB (industrial track), 4(11), pp. 1272-1283, 2011.

Website+Wiki: https://code.google.com/p/jaql/

Konrad Freywald Astrid Rheinländer
Stratosphere

Alexandrov, A., Ewen, S., Heimel, M., Hueske, F., Kao, O., Markl, V., Nijkamp, E. and Warneke D. (2011). "MapReduce and PACT - Comparing Data Parallel Programming Models." In Proceedings of Datenbanksysteme für Business, Technologie und Web (BTW) 2011, pp. 25-44.

Battré, D., Ewen, S., Hueske, F., Kao, O., Markl, V. and Warneke, D. (2010). "Nephele/PACTs: A Programming Model and Execution Framework for Web-Scale Analytical Processing." In Proceedings of the ACM Symposium on Cloud Computing (SoCC) 2010 ACM, pp. 119–130.

Website+Wiki: http://www.stratosphere.eu/

Schultze Brandt Astrid Rheinländer
Text & Data analytics with MapReduce

Lin, J. and Dyer, C. (2010). "Data-Intensive Text Processing with MapReduce, Chapter 4: Inverted indexing for Text Retrieval." Morgan & Claypool, pp. 65-83.

Apache Mahout:
"Introducing Apache Mahout." ibm.com. 2011.
http://mahout.apache.org/

Kunkel Will Astrid Rheinländer
Performance Analysis Cloud vs. Cluster Jackson, K. R., Ramakrishnan, L., Muriki, K., Canon, S., Cholia, S., Shalf, J., Wasserman, H. J. and Wright, N. J. (2010). "Performance Analysis of High Performance Computing Applications on the Amazon Web Services Cloud". Second Int. Conf. on Cloud Computing Technology and Science, Indianapolis, US.     Ulf Leser
Scientific Workflows      
Taverna

Missier, P., Soiland-Reyes, S., Owen, S., Tan, W., Nenadic, A., Dunlop, I., Williams, A., Oinn, T. and Goble, C. (2010). "Taverna, Reloaded". Int. Conf. on Scientific and Statistical Database Management Systems, Heidelberg, Germany.

Weber Schultze Johannes Starlinger
Kepler

S. Bowers and B. Ludäscher. (2005). "Actor-oriented design of scientific workflows". Int. Conf. on Concept. Modeling, pages 369-384, 2005.

    Johannes Starlinger
Scientific Workflow Interoperability

Elmroth E, Hernández F, Tordsson J. (2010). "Three fundamental dimensions of scientific workflow interoperability : Model of computation , language , and execution environment". Future Generation Computer Systems. 26(2):245-256.

    Johannes Starlinger
Pegasus

Deelman, E., Singh, G., Su, M., Blythe, J., Gil, Y., Kesselman, C., Mehta, G., Vahi, K., Berriman, G. B., Good, J., Laity, A., Jacob, J. J. and Katz, D. (2005). "Pegasus: A framework for mapping complex scientific workflows onto distributed systems." Scientific Programming, 13(3):219–237.

On Condor DAGMan:
Couvares, P., Kosar, T., Roy, A., Weber, J. and Wenger, K. (2007). "Workflow Management in Condor". Workflows for e-Science, Part III, 357-375.

Brandt Kunkel Marc Bux
Scientific Workflow Scheduling Mandal, A., Kennedy, K., Koelbel, C., Marin, G., Mellor-Crummey, J., Liu, B. and Johnsson, L. (2005). "Scheduling Strategies for Mapping Application Workflows onto the Grid." In Proceedings on the 14th IEEE International Symposium on High Performance Distributed Computing (HPDC-14), pages 125–134. IEEE.     Marc Bux
Workflow Schedule Optimization Yu, J. and Buyya, R. (2006). "A budget constrained scheduling of workflow applications on utility grids using genetic algorithms." Workshop on Workflows in Support of Large-Scale Science (WORKS’06), pp 1–10, IEEE. Will Weber Marc Bux