Als Duplikate werden verschiedene Datensätze bezeichnet, die dasselbe Realweltobjekt repräsentieren. Typische Beispiele sind mehrfach geführte Kunden in einem Kundenmanagementsystem, verschiedene Repräsentationen eines Produkts oder doppelt gebuchte Bestellungen. Das Ziel der Duplikaterkennung ist es, möglichst effizient und effektiv alle Duplikate eines Datenbestandes zu finden.
Dieses Problem wird seit vielen Jahren in der Forschung (und in der Industrie) untersucht. Das Ziel des Seminars ist die ausführliche Beschreibung, Implementierung, Evaluierung und Verbesserung bekannter Methoden der Duplikaterkennung für relationale Daten.