Hasso-Plattner-Institut
  
Hasso-Plattner-Institut
Prof. Dr. Felix Naumann
  
 

Betreuung

Prof. Felix Naumann, Sascha Szott

Beschreibung

Als Duplikate werden verschiedene Datensätze bezeichnet, die dasselbe Realweltobjekt repräsentieren. Typische Beispiele sind mehrfach geführte Kunden in einem Kundenmanagementsystem, verschiedene Repräsentationen eines Produkts oder doppelt gebuchte Bestellungen. Das Ziel der Duplikaterkennung ist es, möglichst effizient und effektiv alle Duplikate eines Datenbestandes zu finden.

Dieses Problem wird seit vielen Jahren in der Forschung (und in der Industrie) untersucht. Das Ziel des Seminars ist die ausführliche Beschreibung, Implementierung, Evaluierung und Verbesserung bekannter Methoden der Duplikaterkennung für relationale Daten.

Termine

Das Seminar findet wöchentlich Mittwochs um 17 Uhr in A-1.2 statt

Literatur

Die folgenden Artikel sind als einführende Lektüre für alle empfohlen. Einige der surveys sind sehr ausführlich und müssen nicht vollständig gelesen werden.

Die weitere Literatur ergibt sich aus den jeweiligen Themenstellungen.

Themen und Termine

TerminThemaVortragenderBetreuerFolien
16.4.

Einführung in die Duplikaterkennung

und Vorstellung der Themen

Felix Naumann

Sascha Szott

-

[pdf_intro]

[pdf_prof_naumann]

[pdf_sascha]

18.6

Vortrag 1: Eliminating Fuzzy Duplicates in Data Warehouses

Vortrag 2: Source-aware Entity Matching: A Compositional Approach

Vortrag 1: Christian Schwarz

Vortrag 2: Christian Dittmar

Naumann
25.6.Vortrag 3:

Collective Entity Resolution in Relational Data

Vortrag 4: Domain-Independent Data Cleaning via Analysis of Entity-Relationship Graph

Vortrag 3: Ole Eckermann

Vortrag 4: Janek Schumann

Naumann
2.7.

Vortrag 5: Adaptive Sorted Neighborhood Methods for Efficient Record Linkage

Vortrag 6: Adaptive Duplicate Detection Using Learnable String Similarity Mea

Vortrag 5: Oliver Wonneberg

Vortrag 6: Andriy Vedrych

Szott
9.7.Vortrag 7: Robust Identification of Fuzzy Duplicates
Vortrag 8:
Interactive Deduplication using Active Learning
Vortrag 7: David Sonnabend
Vortrag 8: Arvid Heise
Szott
16.7.Benchmarking und EvaluierungalleNaumann, Szott