Hasso-Plattner-Institut25 Jahre HPI
Hasso-Plattner-Institut25 Jahre HPI
Login
 

Scalable Data Analysis Algorithms (Wintersemester 2011/2012)

Dozent: Prof. Dr. Felix Naumann (Information Systems)

Allgemeine Information

  • Semesterwochenstunden: 3
  • ECTS: 6
  • Benotet: Ja
  • Einschreibefrist: 1.10.2011 - 31.3.2012
  • Lehrform: Seminar
  • Belegungsart: Wahlpflichtmodul

Studiengänge, Modulgruppen & Module

IT-Systems Engineering MA
  • IT-Systems Engineering D
IT-Systems Engineering BA

Beschreibung

Um die immer schneller ansteigende Menge an Daten zuverlässig zu verarbeiten und analysieren, hat Google 2004 das MapReduce Programmiermodell vorgestellt [1]. Probleme werden in kleine leicht parallelisierbare Unterprobleme formuliert  und können dann in einem Cluster oder einer Cloud ausgeführt werden. Somit werden auch große Datenmengen beherrschbar.

In diesem Seminar untersuchen wir die Umsetzung von größeren Datenverarbeitungsproblemen auf zwei skalierbaren Plattformen. Je eine 2er Gruppe wird ein Problem auf dem populären Hadoop Framework [2] und dem neuen Stratosphere Projekt [3] umsetzen. Anschließend wird die Gruppe beide Lösungen vergleichend auf dem Lehrstuhlcluster (10 Maschinen) evaluieren.


Weitere Informationen und die Themen finden sich auf der Lehrstuhlseite.

Voraussetzungen

none

Literatur

[1] Jeffrey Dean and Sanjay Ghemawat. 2008. MapReduce: simplified data processing on large clusters. Communications of the ACM 51

[2] http://hadoop.apache.org/

[3] http://www.stratosphere.eu/

[4] Anand Rajaraman and Jeff Ullman. 2010. Mining of Massive Datasets. http://infolab.stanford.edu/~ullman/mmds.html

Lern- und Lehrformen

Seminar

Leistungserfassung

  • Vorstellungsvortrag des Themas und Lösungsskizze (15+5 min)
  • Implementierung auf Hadoop und Stratosphere
  • Zwischenbericht (15+5 min)
  • Abschlussvortrag (30+10 min)
  • Ausarbeitung (6-8 Seiten)
  • Beteiligung in den Seminaren und bei den optionalen Konsultationen

Termine

  • 18.10.2011: Themenvorstellung
  • 22.10.2011: Abgabe Wunschliste Themen/Teams
  • 24.10.2011: Benachrichtigung der Teilnehmer
  • Weitere Termine sind auf der Lehrstuhlseite zu finden

Zurück