Dieses Problem ist nicht neu – im Gegenteil: es wird bereits seit vielen Jahren an Ansätze zur automatischen Duplikaterkennung gearbeitet. Hier unterscheidet man grundsätzlich zwischen zwei Arten: Solche die konventionelle Algorithmen nutzen und solche, die maschinelles Lernen nutzen.
Bei konventionellen Algorithmen muss für jede Anwendung zunächst eine Reihe von Regeln definiert werden, nach denen Paare von Einträgen als Duplikate markiert werden. Ein möglicher Regelsatz könnte beispielsweise zwei Kunden mit sehr ähnlichen Namen und identischem Geburtsdatum als Duplikat markieren. Alle konventionellen Ansätze eint, dass die Entscheidungsgrundlage des Algorithmus vom Menschen programmiert sein muss und Wissen über den Verwendungszweck enthält.
Ansätze mit maschinellem Lernen hingegen setzen einen kleineren manuell markierten Datensatz zum Trainieren voraus. In diesem sind also bereits alle Duplikate identifiziert und stehen dem Algorithmus zur Verfügung. Mit Hilfe mehrerer Durchläufe versucht der Algorithmus dann aus den markierten Daten sinnvolle Regeln abzuleiten, mit denen er eine hohe Erkennungsrate der tatsächlichen Duplikate erreicht. Anschließend werden auf Basis dieses vom Algorithmus bestimmten Modells im Gesamtdatensatz die Duplikate bestimmt. Oftmals ist es für den Menschen bei solchen Ansätzen nicht möglich nachzuvollziehen, warum sich der Algorithmus genau für diese Regeln entschieden hat. Auch hängt der Erfolg dieser Ansätze sehr stark von der Größe und Qualität des Trainingsdatensatzes ab. In der Praxis werden solche Algorithmen deshalb oft vortrainiert ausgeliefert, so dass weniger Training und damit ein kleinerer Trainingsdatensatz beim Endanwender selbst benötigt wird.
Zusammenfassend ist also für beide Ansätze Vorarbeit nötig. Während konventionelle Algorithmen einen von Hand definierten Regelsatz verwenden, nutzen Ansätze mit maschinellem Lernen kleinere händisch markierte Beispieldatensätze, um automatisiert einen Regelsatz zu erstellen.