Sie sollen erkennen, welche Arten von Problemen beim Zusammenführen von Datenbeständen auftreten, welche Probleme sich mit einfachen Mitteln (SQL, Scripte, Text-Editor, etc.) lösen lassen und welche nicht. In praktischer Teamarbeit implementieren Sie Algorithmen zur Dublettenerkennung für große Datenmengen (1 Mio. Kundendatensätze). Das Team mit den meisten richtig gefundenen Dubletten gewinnt! Die in den beiden ersten Tagen gewonnenen Erkenntnisse und Lösungen sollen am Abschlusstag präsentiert werden.
Die Partner bei FUZZY! haben einige große Personendatenbanken generiert und präpariert, um Ihnen die Reinigung besonders schwer zu machen! Im Laufe des Workshops
- führen Sie eine automatisierte Standardisierung von Kundendaten mit selbst-entwickelten Methoden durch,
- entwickeln Sie Ähnlichkeitsmaße um doppelte Kunden (Duplikate) zu finden,
- entwickeln Sie effiziente Methoden um nicht alle Paare von Kundendaten vergleichen zu müssen,
- arbeiten Sie im Team um gemeinsame Lösungen zu finden (2er Teams),
- vergleichen Ihre Methoden mit denen anderer und stellen fest, ob Sie alle Duplikate korrekt erkennen - die beste Lösung wird prämiert,
- erhalten Sie eine Teilnahmeurkunde.
Der Workshop richtet sich also an Studenten und Doktoranden, die
- Interesse and der Lösung realer Informatik-Probleme haben,
- Lust auf eine Herausforderung haben (einige der Duplikate finden selbst professionelle Tools nicht),
- schon ein wenig programmieren können (Java, Perl oder ähnliches)
- schon ein wenig in die Welt der Datenbanken hineingeschaut haben (DBS I oder auch Berufserfahrung mit Datenbanken genügen)