Duplikaterkennung
Betreuung
Prof. Felix Naumann, Sascha Szott
Beschreibung
Als Duplikate werden verschiedene Datensätze bezeichnet, die dasselbe Realweltobjekt repräsentieren. Typische Beispiele sind mehrfach geführte Kunden in einem Kundenmanagementsystem, verschiedene Repräsentationen eines Produkts oder doppelt gebuchte Bestellungen. Das Ziel der Duplikaterkennung ist es, möglichst effizient und effektiv alle Duplikate eines Datenbestandes zu finden.
Dieses Problem wird seit vielen Jahren in der Forschung (und in der Industrie) untersucht. Das Ziel des Seminars ist die ausführliche Beschreibung, Implementierung, Evaluierung und Verbesserung bekannter Methoden der Duplikaterkennung für relationale Daten.
Termine
Das Seminar findet wöchentlich Mittwochs um 17 Uhr in A-1.2 statt
Literatur
Die folgenden Artikel sind als einführende Lektüre für alle empfohlen. Einige der surveys sind sehr ausführlich und müssen nicht vollständig gelesen werden.
- Ein fast schon populärwissenschaftlicher Artikel als allererste Einführung: Methoden der Dublettenerkennung. Felix Naumann, is report 05/2007
- Ahmed K. Elmagarmid and Panagiotis G. Ipeirotis and Vassilios S. Verykios. Duplicate Record Detection: A Survey. IEEE Transanctions on Knowledge and Data Engineering, Vol. 19, number 1, 2007.
- Overview of Record Linkage and Current Reserach Directions. William Winkler, Research Report of the Statistical Research Division, U.S. Census Bureau
- A Duplicate Detection Benchmark for XML (and Relational) Data. Melanie Weis and Felix Naumann and Franziska Brosy, SIGMOD Workshop on Information Quality in Information Systems (IQIS), 2006.
- Quality and Complexity Measures for Data Linkage and Deduplication. Peter Christen and Karl Goiser, Quality Measures in Data Mining, Volume 43, 2007.
Die weitere Literatur ergibt sich aus den jeweiligen Themenstellungen.
Themen und Termine
| Termin | Thema | Vortragender | Betreuer | Folien |
| 16.4. | Einführung in die Duplikaterkennung und Vorstellung der Themen | Felix Naumann Sascha Szott | - | |
| 18.6 | Vortrag 1: Eliminating Fuzzy Duplicates in Data Warehouses Vortrag 2: Source-aware Entity Matching: A Compositional Approach | Vortrag 1: Christian Schwarz Vortrag 2: Christian Dittmar | Naumann | |
| 25.6. | Vortrag 3: Collective Entity Resolution in Relational Data Vortrag 4: Domain-Independent Data Cleaning via Analysis of Entity-Relationship Graph | Vortrag 3: Ole Eckermann Vortrag 4: Janek Schumann | Naumann | |
| 2.7. | Vortrag 5: Adaptive Sorted Neighborhood Methods for Efficient Record Linkage Vortrag 6: Adaptive Duplicate Detection Using Learnable String Similarity Mea | Vortrag 5: Oliver Wonneberg Vortrag 6: Andriy Vedrych | Szott | |
| 9.7. | Vortrag 7: Robust Identification of Fuzzy Duplicates Vortrag 8: Interactive Deduplication using Active Learning | Vortrag 7: David Sonnabend Vortrag 8: Arvid Heise | Szott | |
| 16.7. | Benchmarking und Evaluierung | alle | Naumann, Szott |