Hasso-Plattner-Institut
  
Hasso-Plattner-Institut
Prof. Dr. Felix Naumann
  
 

Beschreibung

In diesem Seminar werden aktuelle Web Mining Techniken diskutiert, implementiert und evaluiert. Dabei entwickeln die Teilnehmer ihre Lösung mit dem MapReduce-Framework Apache Hadoop, einer Java-basierte Software-Plattform für das verteilte Verarbeiten großer Datenmengen. Die folgenden Themen werden im Rahmen dieses Seminars angeboten:

Lernziele

  • Verständnis aktueller Originalarbeiten aus der Forschung aus dem Bereich parallelisierende Techniken
  • Umsetzung paralleler Algorithmen mittels Map/Reduce auf Hadoop
  • Selbständige Arbeit im Team

Organisation

  • 12 Teilnehmer
  • 2er Teams bearbeiten jeweils ein Thema
  • Teilnehmer schicken Themenwunschliste an die Betreuer (Frist: 23.10.09)
  • Themen und Teams werden gemäß Wunschliste vergeben
  • Betreuer: Alexander Albrecht, Christoph Böhm
  • Datum: Dienstag 15:15 – 16:45, A 1-2

Termine

20.10.2009Einführungsveranstaltung - ThemenvorstellungEinführung
Themen
17.11.2009Präsentation MapReduce Ansatz, 6 Vorträge à 10+5 Minuten

15.12.2009Demo der ersten Ergebnisse, 6 Vorträge à 10+5 Minuten

09.02.2010

(11:00-12:30)

A-2.1

Abschlusspräsentationen
  • Graph Twiddling in a MapReduce World
    Arvid Heise & Michael Leben
  • Detecting Near Duplicates for Web Crawling
    Ziawasch Abedjan & Tobias Flach
  • Brute force and indexed approaches to pairwise document similarity comparisons with MapReduce
    Thomas Berger & Dandy Fenz

09.02.2010

(15:15-16:45)

A-2.1

Abschlusspräsentationen
  • Distributed Algorithm for Computing Formal Concepts Using 
    Map-Reduce Framework
    Johannes Gosda & Stefan Wehrmeyer
  • DisCo: Distributed Co-clustering with Map-Reduce
    Ralf Gehrer & Fabian Lindenberg
  • Efficient search ranking in social networks
    Benjamin Emde & Eyk Kny

10.02.2010

17:00

A-2.1

Gostvortrag Isabel Drost (Apache Software Foundation) -- Mahout (scalable machine learning lib)

Cluster Belegung

WannWer
Dezember 2009alle (Rücksicht bitte!)
Januar 2010
4./5.Arvid Heise & Michael Leben
6./7.Ziawasch Abedjan & Tobias Flach
8./9.Thomas Berger & Dandy Fenz
10./11.Johannes Gosda & Stefan Wehrmeyer
12./13.Ralf Gehrer & Fabian Lindenberg
14./15.Benjamin Emde & Eyk Kny
16./17.Arvid Heise & Michael Leben
18./19.Ziawasch Abedjan & Tobias Flach
20./21. (Cl.off)Thomas Berger & Dandy Fenz
22./23. (Cl.off)Johannes Gosda & Stefan Wehrmeyer
24./25. (Cl.off)Ralf Gehrer & Fabian Lindenberg
26. (Cl.off)Benjamin Emde & Eyk Kny
27./28.Thomas Berger & Dandy Fenz
29./30.Johannes Gosda & Stefan Wehrmeyer
31./1.2.Ralf Gehrer & Fabian Lindenberg
Februar 2010
2.2./3.2.Benjamin Emde & Eyk Kny
4.2.emergency slot: Johannes Gosda & Stefan Wehrmeyer
5.-8. (Cl.off)Arvid Heise & Michael Leben
9.-12.Ziawasch Abedjan & Tobias Flach
13.-16.Thomas Berger & Dandy Fenz
17.-20.Johannes Gosda & Stefan Wehrmeyer
21.-24.Ralf Gehrer & Fabian Lindenberg
25.-28.Benjamin Emde & Eyk Kny
März 2010               
1.-4.Arvid Heise & Michael Leben
5.-8.Ziawasch Abedjan & Tobias Flach
9.-12.Thomas Berger & Dandy Fenz
13.-16.Johannes Gosda & Stefan Wehrmeyer
17.-20.Ralf Gehrer & Fabian Lindenberg
21.-24.Benjamin Emde & Eyk Kny

 

 

Anforderungen

  • Teilnahme an allen Seminarterminen
  • Anwesenheit bei Konsultationen
  • Implementierung einer Map/Reduce Lösung in Java
  • Präsentation der implementierten Lösung, inkl. Demo, als Vortrag am Ende des Semesters. Dauer: 30 Minuten Vortrag + 15 Minuten Diskussion
  • Ausarbeitung (4 - 5 Seiten)
  • Abschlussnote berücksichtigt die folgenden Punkte

    • Implementierte Lösung
    • Präsentation / Vortrag
    • Ausarbeitung

     

    • Mündliche Beteiligung 

Referenzen

http://labs.google.com/papers/mapreduce.html
http://hadoop.apache.org/