Hasso-Plattner-Institut
Prof. Dr. Felix Naumann
 

Informationsintegration mit dem IIS

 

Projekt

Das Bachelorprojekt HighQ - Informationsintegration mit dem IBM Information Server beschäftigt sich mit der Evaluierung und Verbesserung der Nutzungsmöglichkeiten des IBM Information Servers im Kontext von SAP-Systemen für das Customer Relationship Management (CRM). Hierzu vergleichen wir die gegebene Implementierung mit den Anforderungen des Nutzungsszenarios und erweitern diese um Methoden aus der Forschung im Bereich Datenqualität. Die ursprüngliche Projektausschreibung findet sich hier

Data Quality Monitoring

Im Bereich des Data Quality Monitoring geht es um die Überwachung der Datenqualität eines SAP-CRM-Datenbestandes. Im Rahmen des Bachelorprojektes soll das Tool DQ4SAP entwickelt werden, das die Datenqualität solcher Daten überwacht. Dazu werden verschiedene Metriken aus den Bereichen Vollständigkeit, Redundanz, Aktualität und Korrektheit an den SAP Kontext angepasst, implementiert und die Ergebnisse visualisiert.

Duplikaterkennung

Um eine effiziente Duplikaterkennung durchzuführen wird die Sorted Neighborhood Methode als Stage im IBM Information Server implementiert. Dabei wird ein besonderes Augenmerk auf ein vordefiniertes Ähnlichkeitsmaß gelegt, welches sich in Verbindung mit Geschäftspartner- bzw. CRM-Daten als sinnvoll erweist. Weitere Ähnlichkeitsmaße sollen frei spezifizierbar sein.

Datenfusion

Im Bereich der Datenfusion hat sich die Subsumption als mächtiger Operator etabliert. Ziel ist es eine effiziente Umsetzung der Subsumption im Kontext des IBM Information Servers zu entwickeln. Ein besonderer Fokus liegt auf den dabei verwendeten Algorithmen und Datenstrukturen, durch welche eine parallele Abarbeitung ermöglicht werden soll. Zusätzlich betrachten wir erweiterte Möglichkeiten zur Datenfusion im IBM Information Server. Dabei erlaubt die Erweiterung der vorhandenen Konfliktlösungsfunktionen die zusätzliche Spezifikation von Attributbeziehungen. Weiterhin betrachtet wird die Einsatzfähigkeit von Ontologien im Kontext der Konfliktlösung für SAP-CRM-Systeme.

 

Bachelorarbeiten

Die Titel der Bachelorarbeiten finden sich hier.

Poster

Personen

Durchgeführt wird das Projekt von sieben Bachelorstudenten aus dem 5./6. Semester unter der Betreuung von Alexander Albrecht und Prof. Felix Naumann.

Foto: HPI/K. Herschelmann

Von links nach rechts:

 

  • Florian Reinhart, Data Quality Monitoring
  • Gerald Töpper, Data Quality Monitoring
  • Dr. Albert Maier, IBM
  • Matthias Pohl, Data Quality Monitoring
  • Prof. Dr. Felix Naumann, HPI
  • Sönmez Ulutürk, Duplikaterkennung
  • Marvin Mendelssohn, IBM
  • Dandy Fenz, Duplikaterkennung
  • Prof. Dr. Christoph Meinel, HPI
  • Peter Faymonville, Datenfusion
  • Daniel Hefenbrock, Datenfusion
  • Dr. Thomas Schwarz, IBM

Background

The IBM Information Server (IIS) is a platform for building Extraction, Transformation and Load processes (ETL processes) used for the integration of heterogeneous data sources in data warehouses.

The successful handling of business processes mainly depends on an effective integration of the required information systems. These information systems are distributed, autonomous and the stored data are heterogeneous and dirty. Integration systems allow uniformed access to these data and offer users and applications an integrated interface. In addition to traditional databases systems applying innovative technologies, such as Service Oriented Architecture (SOA), Web services, XML or Radio Frequency Identification (RFID), often need to be integrated in the process.

Such information integration includes complex technologies, such as data cleansing, duplicate detection, information fusion, data consolidation, and data warehouse techniques.

General set-up

The project is performed at the Hasso Plattner Institute, in particular by the research group Information Systems, in close cooperation with IBM Germany. Among others, IBM provides the IBM Information Server, a software platform for information integration. Furthermore an "Information Server Lab" with 2 servers and 10 high-quality desktops is set up with an IBM SUR grant award.

The IBM Information Server is already successfully used within teaching and research practice at the Information Systems research group. Extra events, workshops, and discussions will take place on the course of this bachelor project. All students are very welcome to join these additional events.

The number of student participants in the project is six. The implementation language is Java.

Project description

The IBM Information Server already includes a large number of functionalities for data mining, data cleansing, data transforming, and providing autonomous and heterogeneous data from distributed sources. The goal of this project is to upgrade the IBM Information Server with new research techniques, e.g., for duplicate detection, in order to allow optimal data integration of heterogeneous and autonomous data sources within various scenarios.

Additionally, the IBM Information Server supports the set up of a Service Oriented Architecture in order to re-use already implemented functionalities as integration services within vari-ous processes and scenarios.

The Information Systems research group and IBM supply different SAP use cases for which an integration system has to be developed using the extended IBM Information Server.

Schedule of the program

During the preparatory phase basic principles of information integration will be presented. The participants will get to know several techniques of information integration and optimization. Apart from special topics, such as information quality and data cleaning, information retrieval and metadata management will be outlined. These topics will be handled and presented within the course of regular meetings by the participants during winter term 2007/08. Detailed knowledge about how to work with the IBM information server will be conveyed in the course of the preparatory tutorial and first techniques will be implemented.

Start of the project: 2007/10/15
Room: A 1.10

Contact

For further information please contact Prof. Dr. Felix Naumann or Alexander Albrecht. For specific dates, please contact the office of Prof. Dr. Felix Naumann: office-naumann(at)hpi.uni-potsdam.de

http://www.ibm.com/de/entwicklung/
http://www.ibm.com/software/de/db2/integration/