Duplikaterkennung

Betreuung

Prof. Felix Naumann, Sascha Szott

Beschreibung

Als Duplikate werden verschiedene Datensätze bezeichnet, die dasselbe Realweltobjekt repräsentieren. Typische Beispiele sind mehrfach geführte Kunden in einem Kundenmanagementsystem, verschiedene Repräsentationen eines Produkts oder doppelt gebuchte Bestellungen. Das Ziel der Duplikaterkennung ist es, möglichst effizient und effektiv alle Duplikate eines Datenbestandes zu finden.

Dieses Problem wird seit vielen Jahren in der Forschung (und in der Industrie) untersucht. Das Ziel des Seminars ist die ausführliche Beschreibung, Implementierung, Evaluierung und Verbesserung bekannter Methoden der Duplikaterkennung für relationale Daten.

Termine

Das Seminar findet wöchentlich Mittwochs um 17 Uhr in A-1.2 statt

Literatur

Die folgenden Artikel sind als einführende Lektüre für alle empfohlen. Einige der surveys sind sehr ausführlich und müssen nicht vollständig gelesen werden.

Ein fast schon populärwissenschaftlicher Artikel als allererste Einführung: Methoden der Dublettenerkennung. Felix Naumann, is report 05/2007
Ahmed K. Elmagarmid and Panagiotis G. Ipeirotis and Vassilios S. Verykios. Duplicate Record Detection: A Survey. IEEE Transanctions on Knowledge and Data Engineering, Vol. 19, number 1, 2007.
Overview of Record Linkage and Current Reserach Directions. William Winkler, Research Report of the Statistical Research Division, U.S. Census Bureau
A Duplicate Detection Benchmark for XML (and Relational) Data. Melanie Weis and Felix Naumann and Franziska Brosy, SIGMOD Workshop on Information Quality in Information Systems (IQIS), 2006.
Quality and Complexity Measures for Data Linkage and Deduplication. Peter Christen and Karl Goiser, Quality Measures in Data Mining, Volume 43, 2007.

Die weitere Literatur ergibt sich aus den jeweiligen Themenstellungen.

Themen und Termine

Termin	Thema	Vortragender	Betreuer	Folien
16.4.	Einführung in die Duplikaterkennung und Vorstellung der Themen	Felix Naumann Sascha Szott	-	[pdf_intro] [pdf_prof_naumann] [pdf_sascha]
18.6	Vortrag 1: Eliminating Fuzzy Duplicates in Data Warehouses Vortrag 2: Source-aware Entity Matching: A Compositional Approach	Vortrag 1: Christian Schwarz Vortrag 2: Christian Dittmar	Naumann
25.6.	Vortrag 3: Collective Entity Resolution in Relational Data Vortrag 4: Domain-Independent Data Cleaning via Analysis of Entity-Relationship Graph	Vortrag 3: Ole Eckermann Vortrag 4: Janek Schumann	Naumann
2.7.	Vortrag 5: Adaptive Sorted Neighborhood Methods for Efficient Record Linkage Vortrag 6: Adaptive Duplicate Detection Using Learnable String Similarity Mea	Vortrag 5: Oliver Wonneberg Vortrag 6: Andriy Vedrych	Szott
9.7.	Vortrag 7: Robust Identification of Fuzzy Duplicates Vortrag 8: Interactive Deduplication using Active Learning	Vortrag 7: David Sonnabend Vortrag 8: Arvid Heise	Szott
16.7.	Benchmarking und Evaluierung	alle	Naumann, Szott