Adv. Map/Reduce Algorithms on Hadoop
Beschreibung
In diesem Seminar werden aktuelle Web Mining Techniken diskutiert, implementiert und evaluiert. Dabei entwickeln die Teilnehmer ihre Lösung mit dem MapReduce-Framework Apache Hadoop, einer Java-basierte Software-Plattform für das verteilte Verarbeiten großer Datenmengen. Die folgenden Themen werden im Rahmen dieses Seminars angeboten:
- Detecting Near Duplicates for Web Crawling, Manku et al., WWW 2007
- Brute force and indexed approaches to pairwise document similarity
comparisons with MapReduce, Jimmy Lin, SIGIR 2009 - Efficient search ranking in social networks, Vieira et al., CIKIM 2007
- The PageRank Citation Ranking: Bringing Order to the Web, Page, Lawrence and Brin, Sergey and Motwani, Rajeev and Winograd, Terry, Technical Report, Stanford InfoLab, 1999
- Scalable Distributed Reasoning using Map Reduce, Urbani et al., ISWC 2009
- Distributed Algorithm for Computing Formal Concepts Using Map-Reduce Framework, Petr Krajca and Vilem Vychodil, IDA 2009
- Graph Twiddling in a MapReduce World, Jonathan Cohen, Computing in Science and Engineering, 2009
- DisCo: Distributed Co-clustering with Map-Reduce, Spiros Papadimitriou and Jimeng Sun, ICDM 2008
Lernziele
- Verständnis aktueller Originalarbeiten aus der Forschung aus dem Bereich parallelisierende Techniken
- Umsetzung paralleler Algorithmen mittels Map/Reduce auf Hadoop
- Selbständige Arbeit im Team
Organisation
- 12 Teilnehmer
- 2er Teams bearbeiten jeweils ein Thema
- Teilnehmer schicken Themenwunschliste an die Betreuer (Frist: 23.10.09)
- Themen und Teams werden gemäß Wunschliste vergeben
- Betreuer: Alexander Albrecht, Christoph Böhm
- Datum: Dienstag 15:15 – 16:45, A 1-2
Termine
| 20.10.2009 | Einführungsveranstaltung - Themenvorstellung | Einführung Themen |
| 17.11.2009 | Präsentation MapReduce Ansatz, 6 Vorträge à 10+5 Minuten |
|
| 15.12.2009 | Demo der ersten Ergebnisse, 6 Vorträge à 10+5 Minuten |
|
09.02.2010 (11:00-12:30) A-2.1 | Abschlusspräsentationen |
|
09.02.2010 (15:15-16:45) A-2.1 | Abschlusspräsentationen |
|
10.02.2010 17:00 A-2.1 | Gostvortrag Isabel Drost (Apache Software Foundation) -- Mahout (scalable machine learning lib) |
Cluster Belegung
| Wann | Wer |
|---|---|
| Dezember 2009 | alle (Rücksicht bitte!) |
| Januar 2010 | |
| 4./5. | Arvid Heise & Michael Leben |
| 6./7. | Ziawasch Abedjan & Tobias Flach |
| 8./9. | Thomas Berger & Dandy Fenz |
| 10./11. | Johannes Gosda & Stefan Wehrmeyer |
| 12./13. | Ralf Gehrer & Fabian Lindenberg |
| 14./15. | Benjamin Emde & Eyk Kny |
| 16./17. | Arvid Heise & Michael Leben |
| 18./19. | Ziawasch Abedjan & Tobias Flach |
| 20./21. (Cl.off) | Thomas Berger & Dandy Fenz |
| 22./23. (Cl.off) | Johannes Gosda & Stefan Wehrmeyer |
| 24./25. (Cl.off) | Ralf Gehrer & Fabian Lindenberg |
| 26. (Cl.off) | Benjamin Emde & Eyk Kny |
| 27./28. | Thomas Berger & Dandy Fenz |
| 29./30. | Johannes Gosda & Stefan Wehrmeyer |
| 31./1.2. | Ralf Gehrer & Fabian Lindenberg |
| Februar 2010 | |
| 2.2./3.2. | Benjamin Emde & Eyk Kny |
| 4.2. | emergency slot: Johannes Gosda & Stefan Wehrmeyer |
| 5.-8. (Cl.off) | Arvid Heise & Michael Leben |
| 9.-12. | Ziawasch Abedjan & Tobias Flach |
| 13.-16. | Thomas Berger & Dandy Fenz |
| 17.-20. | Johannes Gosda & Stefan Wehrmeyer |
| 21.-24. | Ralf Gehrer & Fabian Lindenberg |
| 25.-28. | Benjamin Emde & Eyk Kny |
| März 2010 | |
| 1.-4. | Arvid Heise & Michael Leben |
| 5.-8. | Ziawasch Abedjan & Tobias Flach |
| 9.-12. | Thomas Berger & Dandy Fenz |
| 13.-16. | Johannes Gosda & Stefan Wehrmeyer |
| 17.-20. | Ralf Gehrer & Fabian Lindenberg |
| 21.-24. | Benjamin Emde & Eyk Kny |
Anforderungen
- Teilnahme an allen Seminarterminen
- Anwesenheit bei Konsultationen
- Implementierung einer Map/Reduce Lösung in Java
- Präsentation der implementierten Lösung, inkl. Demo, als Vortrag am Ende des Semesters. Dauer: 30 Minuten Vortrag + 15 Minuten Diskussion
- Ausarbeitung (4 - 5 Seiten)
- Abschlussnote berücksichtigt die folgenden Punkte
- Implementierte Lösung
- Präsentation / Vortrag
- Ausarbeitung
- Mündliche Beteiligung