Hasso-Plattner-Institut25 Jahre HPI
Hasso-Plattner-Institut25 Jahre HPI
Login
 

Masterprojekt: Duplikaterkennung auf GPUs (Sommersemester 2011)

Dozent: Prof. Dr. Felix Naumann (Information Systems)

Allgemeine Information

  • Semesterwochenstunden: 0
  • ECTS: 9
  • Benotet: Ja
  • Einschreibefrist: 21.02.2011
  • Lehrform: Projekt
  • Belegungsart: Wahlpflichtmodul
  • Maximale Teilnehmerzahl: 4

Studiengänge

  • IT-Systems Engineering MA

Beschreibung

Duplikaterkennung beschreibt das Auffinden unterschiedlicher Darstellungen gleicher Realwelt-Objekte in einem Datenbestand. Hierzu wird eine Menge von Datensatz-Paaren gebildet und auf diese jeweils eine Ähnlichkeitsfunktion angewendet. Aufgrund der hohen Anzahl von Vergleichen erscheint es sinnvoll, die Ausführung zu parallelisieren.

GPUs erlauben die parallele Ausführung gleicher Operationen auf unterschiedlichen Daten (Datenparallelität). Nachteilig ist jedoch der Aufwand für das Kopieren von Daten zwischen Hauptspeicher und Grafikkartenspeicher. Weiterhin müssen Algorithmen so optimiert werden, dass eine möglichst hohe Anzahl paralleler Prozesse möglich ist.

Aufgrund des enormen Rechenpotentials moderner Grafikkarten ist im Rahmen des Masterprojekts zu untersuchen, inwieweit die Verwendung von GPUs zur Duplikaterkennung geeignet ist und die o.g. Nachteile durch die zusätzliche Rechenleistung im Vergleich zur Ausführung auf der CPU wieder ausgeglichen werden. Es ist eine enorme Leistungssteigerung zu erwarten.

Voraussetzungen

Grundkenntnisse zum Thema Duplikaterkennung (z.B. Vorlesung Informationsintegration, Workshop oder Seminar zum Thema Duplikaterkennung) sowie Programmiererfahrungen in C bzw. mit CUDA/OpenCL sind hilfreich.

Literatur

Leistungserfassung

  • Aktive Mitarbeit
  • Präsentationen der Ergebnisse
  • Ausarbeitung eines Papers zur Einreichung bei der ICDE 2012

Zurück