Hasso-Plattner-Institut
Prof. Dr. Felix Naumann
 

Project Overview

Funding: German Science Foundation DFG
Duration: May 2003 through April 2008
Project Members: Felix Naumann, Jens Bleiholder, Melanie Weis, Karsten Draba, Christoph Böhm
Web site: www.hpi.uni-potsdam.de/~naumann/hummer/

Projektdetails

Merging Autonomous Content (MAC) ist die Vereinigung von Daten und Informationen mehrerer, autonomer Quellen zu einer einheitlichen Informationsmenge. Trotz intensiver Entwicklung und Untersuchung integrierender Informationssysteme, angefangen mit verteilten und föderierten Datenbanksystemen [SL90], über Methoden der Schemaintegration [BLN86], bis hin zu Mediator-basierten Integrationsarchitekturen [Wie92] und Anfragesystemen [Nau02] existieren überraschend wenig wissenschaftliche Ergebnisse und praktische Ansätze zur Integration der Daten und Informationen selbst. Nach dem Entwurf und Aufbau eines integrierten Informationssystems wird der nächste Schritt, die eigentliche Integration der heterogenen Informationen, oft ignoriert (see anecdotal evidence). MAC ordnet sich in den Bereich Contentware Engineering ein und bietet ein großes Forschungspotenzial.

Das greifbare Resultat des MAC Projekts ist das Hummer Integrationssystem, welches heterogene Informationen effizient sammelt, qualitativ bewertet, korrekt kombiniert, gegebenenfalls annotiert und schließlich dem Informationssuchenden präzis und verständlich darstellt.

The Humboldt Merger (HumMer) is an integrated information system, reading relational, XML, and unstructured data and merging it into common, structured information. Hummer serves the research group as a plattform to test the feasability, scalability, and usefulness of new ideas. It is yet under development.

1. Identifikation:

Nach Erhalt von Informationen mehrerer Quellen, muß entschieden werden, welche dieser Informationen gleiche Konzepte beschreiben und somit integriert werden können. Ist jede Information mit einem global konsistenten Schlüssel versehen, ist die Entscheidung einfach: Informationen mit gleichem Schlüssel können integriert werden. In Ermangelung eines Schlüssels werden Methoden der Objektidentifikation verwendet. Obwohl bereits viele Methoden für konkrete Domänen existieren, z.B. für Adressdaten [HS98], ist eine allgemeine und effiziente Vorgehensweise für Informationengleicher Domäne noch nicht bekannt.

 

2. Integration:

Relationale Datenbanksysteme stellen den Vereinigungsoperator (union) zur Verfügung. Dieser Operator läßt sich auf andere Datenmodelle, etwa XML Daten, und andere Datentypen, etwa Texte, erweitern. Die Vereinigung von Daten verschiedener autonomer Quellen durch union ergibt jedoch nicht

immer das gewünschte Resultat: Das Ergebnis kann erstens redundanteund zweitens mehrere, sich widersprechende Informationen enthalten. Eigentliche Integration ist erst erreicht, wenn beide Probleme gelöst werden. Der minimum union Operator [Gal94] entfernt redundante Daten, jedoch fehlt ein allgemeines, theoretisches Modell um Widersprüche in den Informationen zu lösen. Die Entwicklung eines neuen merge union Operators und einzugehöriger effizienter Algorithmus versprechen die Lösung beider Probleme und bietet dem Nutzer ein einheitliches und konzises Ergebnis. Der merge union Operator integriert die gesamte Informationspannbreite moderner content-provider, von strukturierten Daten (DBMS, streaming data, etc.), über semi-strukturierte Inhalte (Online-kataloge, XML-Dokumente, etc.), bis hin zu unstrukturierten Texten (Fachartikel, product reviews, etc.).

 

3. Optimierung:

Die Einführung eines Integrationsoperators, wie der vorgeschlagene merge union Operator, erfordert neue Algorithmen zur Optimierung des integrierten Ergebnisses. Wegen der Autonomie der Informationsquellen kann bei der Nutzung integrierender Informationssysteme kein vollständiges und korrektes

Anfrageergebnis erwartet werden. Neben der herkömmlichen Minimierungder Anfragebearbeitungszeit, kann sich ein Optimierer andere Ziele setzen,etwa die Maximierung der Vollständigkeit des Ergebnisses. Weitere Nebenbedingungenergeben sich z.B. durch den Ausfall von Quellen, so dass sich ein Optimierer dynamisch anpassen muss.

 

4. Visualisierung:

Ein Integrationssystem soll Informationen aus verschiedenen Quellen einheitlich darstellen. Gleichzeitig ist es nötig, dem Nutzer dieser Informationen Angaben über deren Herkunft, deren Transformation und deren Integration zur Verfügung zu stellen. Nur so kann der Nutzer den Integrationsprozess nachvollziehen, die Informationen entsprechend nutzen und gegebenenfalls den Integrationsprozess anpassen. Neue und existierende Visualisierungmethoden sollen für dieses neue Umfeld entwickelt bzw. angepasst werden.

Die Entwicklung der genannten Komponenten und deren und Integration in einem Gesamtsystem stellt ein interessantes theoretisches Problem und eine praktische Herausforderung dar, die über bisherige Forschungsergebnisse hinausgehen. Zusammengenommen verwirklichen die Komponenten die Vision eines modernen, den heutzutage verfügbaren Informationsquellen angemessenen integrierten Informationssystems. Als prototypischer Anwendungsbreich dienen die Life Sciences. Diese Domäne vereinigt viele interessante Probleme,

bietet Graduierten ein hoch-aktuelles Anwendungsfeld, und verspricht aufgrund ihres rasanten Wachstums die Verwendung der Forschungsergebnisse mittels

industrieller Kooperationen. Die Humboldt Universität zu Berlin mit ihrem Campus in Adlershof bietet eine hervorragend geeignete Umgebung mit vielen Ansprechpartnern sowohl in der Informatik als auch in der Life Sciences Anwendungsdomäne.

 

 

References / Literaturverzeichnis

 

[BLN86] C. Batini, M. Lenzerini, S.B. Navathe, A Comparative Analysis of Methodologies for Database Schema Integration, ACM Computing Surveys 18(4), S. 323-364, 1986.

[Gal94]    César A. Galindo-Legaria, Outerjoins as Disjunctions, Proceedings of the ACM International Conference on Management of Data (SIGMOD), S. 348-358, Minneapolis, MA, 1994.

[HS98]    M.A. Hernández, S.J. Stolfo, Real-world Data is Dirty: Data Cleansing and The Merge/Purge Problem, Data Mining and Knowledge Discovery 2(1), S. 9-37, 1998.

[Nau02]    Felix Naumann, Quality-driven Query answering for Integrated Information Systems, Lecture Notes in Computer Sciences LNCS 2261, Springer Verlag, Heidelberg, 2002.

[SL90]    Amit P. Sheth and James A. Larson, Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases, ACM Computing Surveys 22(3), S. 183-236, 1990.

[Wie92]    G. Wiederhold, Mediators in the Architecture of Future Information Systems, IEEE Computer 25(3), S. 38-49, 1992.


Anecdotal evidence - Examples

  • "This article does not propose solutions to the question of what is to be done once the duplicate records are detected" [Mon00]
  • "Several problems must be solved before robust general-purpose heterogeneous multidatabase management systems become possible. The problems that must be resolved include distinguishing equal but logically different objects, consolidating different representations of the same object, materializing the views of existing applications, resolving the semantic and schematic heterogeneity of information stored in multiple databases, maintaining consistency of data in the presence of multidatabase concurrent transactions, and doing all this efficiently." [ASDK91]
  • "The work focuses on tools needed by an administrator to express solutions to identity problems, not with methodologies for discovering solutions, nor with resolution of data discrepancies. The paper deals only with object identity and not such related matters as shallow or deep equality [17]." [KAAK92]

 

References / Literaturverzeichnis

 

[Mon00] Alvaro E. Monge. An Adaptive and Efficient Algorithm for Detecting Approximately Duplicate Database Records. Unpublished, see citeseer.nj.nec.com/monge00adaptive.html,

2000.

[ASDK91] R. Ahmed, P.D. Smedt, W. Du, W. Kent, M.A. Ketabchi, W.A. Litwin, A. Rafii, M. Shan. The Pegasus Heterogeneous Multidatabase System. IEEE Computer. 1991. 24(12). p. 19-27.

[KAAK92] W. Kent, R. Ahmed, J. Albert, M.A. Ketabchi, M. Shan. Object Identification in Multidatabase Systems