Hasso-Plattner-Institut25 Jahre HPI
Hasso-Plattner-Institut25 Jahre HPI
 

Duplikaterkennung (Sommersemester 2008)

Dozent: Prof. Dr. Felix Naumann (Information Systems)

Allgemeine Information

  • Semesterwochenstunden: 4
  • ECTS: 6
  • Benotet: Ja
  • Einschreibefrist: 02.05.2008
  • Lehrform:
  • Belegungsart: Wahlpflichtmodul

Studiengänge

  • IT-Systems Engineering MA

Beschreibung

Das Ziel des Seminars ist die ausführliche Beschreibung, Implementierung und Evaluierung bekannter Methoden der Duplikaterkennung für relationale Daten. Die Teilnehmer lernen kennen:

  • Ähnlichkeitsmaße
  • Datenkonflikte
  • Algorithmen zum Umgang mit großen Datenmengen
  • Evaluierungsmaße wie precision und recall

Voraussetzungen

  • Grundkenntnisse im Bereich Datenbanken (z.B. DBS I)
  • Die Teilnahme am Workshop "Datenreinigung" wird empfohlen, ist jedoch keine Voraussetzung.

Literatur

siehe Webseite

Lern- und Lehrformen

  • Projektseminar
  • Die Teilnehmerzahl ist auf 16 begrenzt. Interessierte erscheinen bitte einfach zum ersten Termin.

Leistungserfassung

  • Vortrag über eine ausgewählte Methode der Duplikaterkennung
  • Implementierung und ausführliche Evaluation der Methode
  • Ca. 3 Seiten Beschreibung der Methode in einem Wiki

Termine

Mittwochs 17 Uhr in A-1.2

Zurück