Datenreinigung

Beschreibung

Datenreinigung bezeichnet sowohl das Erkennen als auch das Korrigieren von Daten, die aus verschiedensten Gründen Fehler aufweisen, und somit geschäftskritische Analysen verfälschen. Typische Fehler sind Rechtschreibfehler, veraltete Daten (Adressen) und mehrfaches Auftreten eines Objekts (eines Kunden).

In diesem Seminar werden verschiedene Kernthemen der Datenreinigung sowohl aus Forschungssicht als auch aus Sicht der Industrie behandelt. Dazu gehören z.B. Data Profiling, das automatische Erkennen von Doubletten, oder das Zusammenführen von Doubletten.

Das Seminar richtet sich an Studenten im Masterstudiengang. Die Leistungserfassung besteht aus einem Seminarvortrag und einer Implementierung bzw. einer Ausarbeitung (themenabhängig) zu einem ausgewählten Thema.

Anmeldung und Themenvergabe:

Anwesenheit am ersten Termin
Geordnete Themenwunschliste bis spätestens 1.5.07 per mail an Frank.Kaufer(at)hpi.uni-potsdam.de mit mind. 2 Themen aus mind. 2 Themengebieten (siehe unten); Bei Implementierungsthemen bitte auch den Teampartner angeben.
Vergabe der Themen am 2.5.07; Benachrichtigung per mail

Termine und Themenvergabe

Termin	Thema	Vortragender
24.4.07	Einführung in die Datenreinigung und Themen	Jana Bauckmann, Melanie Weis, Alexander Albrecht, Jens Bleiholder
12.6.07	LateX Einführung, Latex Vorlage Bericht	Jens Bleiholder
19.6.07	Probabilistische Fusion: Partial Natural Outer Join	Andreas Meyer, Andreas Blueher
26.6.07	Data Profiling: Bellman	Tobias Vogel, Matthias Kunze
3.7.07	Doublettenerkennung: Sorted Neighborhood	Oliver Wonneberg, Robert Kunze
10.7.07	Demos

Themen

Data Profiling

Bellman: Erkennen von Strukturmerkmalen einer Datenbank mit Hilfe von "summaries" (Beschreibung des Systems, Anwendungsbericht) - Implementierung des Findens von Join-Pfaden
Finden von mehrattributigen Inklusionsabhängigkeiten (INDs) mit Hilfe von Cliquen in Hypergraphen (Short Paper, Technical Report) - Implementierung des Findens von INDs mit mind. 3 Attributen
TANE: Finden von Funktionalen Abhängigkeiten - Implementierung des Findens exakter FDs und Vergleich mit den kommerziellen Produkten IBM® WebSphere® Information Analyzer und Microsoft® SSIS

Doublettenerkennung

Die Sorted Neighborhood Methode + Erweiterungen für Doublettenerkennung in relationalen Daten (Implementierung)
Doublettenerkennung in Graph Daten (Implementierung)
DELPHI und DogmatiX: Duplikaterkennung in hierarchischen relationalen und XML Daten (Ausarbeitung)

Datenfusion

Probabilistische Fusion: Partial Natural Outer Join (Implementierung)
Subsumption als Fusion: Full Disjunction (Implementierung)
TSIMMIS und Hermes, 2 Fusionssysteme (Ausarbeitung)
Consistent Query Answering (Theorie / Systeme) (Ausarbeitung)

Datenreinigungssysteme

Data-Cleaning Konzepte und Methoden kommerzieller Produkte, z.B. IBM® WebSphere® QualityStage und Microsoft® SSIS Einordnung und Bewertung (Implementierung)
Deklaratives Data Cleaning in relationalen un XML Daten, z.B. AJAX vs. XClean (Ausarbeitung)