Prof. Dr. Felix Naumann


Der IBM Information Server (IIS) ist eine Plattform zur Erstellung von Extraktions-, Transformations- und Lade-Prozessen für die Integration heterogener Datenquellen.

Die erfolgreiche Abwicklung inner- und zwischenbetrieblicher Geschäftsprozesse hängt in einem hohen Maße von einer effektiven Integration der benötigten Informationssysteme ab.  Diese Informationssysteme sind verteilt und autonom; die darin gespeicherten Daten sind heterogen und verschmutzt. Integrationssysteme ermöglichen den einheitlichen Zugriff auf diese Daten und bieten Nutzern und Anwendungen eine einheitliche und integrierende Schnittstelle. Oft müssen dabei neben klassischen Datenbanken auch Systeme integriert werden, die innovative Technologien wie Service-orientierte Architekturen (SOA), Web Services, XML oder Radio Frequency Identification (RFID) nutzen.

Die Problematik der Integration bestehender Datenbestände, z.B. Kundendatenbestände, ist der Hintergrund dieses Bachelorprojekts. Hinter dem Begriff der Informationsintegration verbergen sich Techniken der Datenreinigung (data cleansing) und Duplikaterkennung, der Informationsfusion und Datenkonsolidierung und des Data Warehousing.


Das Projekt wird vom Hasso Plattner Institut, vertreten durch das Fachgebiet Informationssysteme, in Zusammenarbeit mit IBM Deutschland durchgeführt. Dafür stellt IBM u.a. den IBM Information Server, eine Software Plattform zur Informationsintegration, zur Verfügung. Zudem wird mittels IBM-Fördergeldern ein "Information Server Lab" am HPI (zwei IBM System x3500 Server und zehn IBM IntelliStation M Pro Workstations) eingerichtet.


The IBM Information Server (IIS) is a platform for building Extraction, Transformation and Load processes (ETL processes) used for the integration of heterogeneous data sources in data warehouses.

The successful handling of business processes mainly depends on an effective integration of the required information systems. These information systems are distributed, autonomous and the stored data are heterogeneous and dirty. Integration systems allow uniformed access to these data and offer users and applications an integrated interface. In addition to traditional databases systems applying innovative technologies, such as Service Oriented Architecture (SOA), Web services, XML or Radio Frequency Identification (RFID), often need to be integrated in the process.

Such information integration includes complex technologies, such as data cleansing, duplicate detection, information fusion, data consolidation, and data warehouse techniques.

General set-up

The project is performed at the Hasso Plattner Institute, in particular by the research group Information Systems, in close cooperation with IBM Germany. Among others, IBM provides the IBM Information Server, a software platform for information integration. Furthermore an "Information Server Lab" with 2 servers and 10 high-quality desktops is set up with an IBM SUR grant award.

The IBM Information Server is already successfully used within teaching and research practice at the Information Systems research group. Extra events, workshops, and discussions will take place on the course of this bachelor project. All students are very welcome to join these additional events.

The number of student participants in the project is six. The implementation language is Java.

Project description

The IBM Information Server already includes a large number of functionalities for data mining, data cleansing, data transforming, and providing autonomous and heterogeneous data from distributed sources. The goal of this project is to upgrade the IBM Information Server with new research techniques, e.g., for duplicate detection, in order to allow optimal data integration of heterogeneous and autonomous data sources within various scenarios.

Additionally, the IBM Information Server supports the set up of a Service Oriented Architecture in order to re-use already implemented functionalities as integration services within vari-ous processes and scenarios.

The Information Systems research group and IBM supply different SAP use cases for which an integration system has to be developed using the extended IBM Information Server.

Schedule of the program

During the preparatory phase basic principles of information integration will be presented. The participants will get to know several techniques of information integration and optimization. Apart from special topics, such as information quality and data cleaning, information retrieval and metadata management will be outlined. These topics will be handled and presented within the course of regular meetings by the participants during winter term 2007/08. Detailed knowledge about how to work with the IBM information server will be conveyed in the course of the preparatory tutorial and first techniques will be implemented.

Start of the project: 2007/10/15
Room: A 1.10


For further information please contact Prof. Dr. Felix Naumann or Alexander Albrecht. For specific dates, please contact the office of Prof. Dr. Felix Naumann: office-naumann(at)hpi.uni-potsdam.de



Der IBM Information Server wird im Fachgebiet Informationssysteme bereits erfolgreich in Lehre und Forschung eingesetzt. Begleitend zu diesem Projekt werden zusätzliche Veranstaltungen, Work­shops und Diskussionen stattfinden, zu denen die Teilnehmer des Bachelorprojekts herzlich eingeladen sind.

Die Teilnehmerzahl ist auf 8 Mitglieder beschränkt. Die technische Umsetzung erfolgt mit Java.


Der IBM Information Server umfasst bereits umfangreiche Funktionalitäten zum Verständnis, Bereinigen, Umwandeln und Bereitstellen unabhängiger, heterogener Daten aus verschiedenen Quellen. Ziel dieses Projektes ist es, den IBM Information Server um neue Methoden aus der Forschung, z.B. zur Duplikaterkennung, zu erweitern, die eine optimale Integration heterogener und autonomer Informationsquellen in verschiedensten Szenarien ermöglichen.

Zusätzlich unterstützt der IBM Information Server den Aufbau einer Service-orientierten Architektur (SOA), um implementierte Funktionalitäten als Integrationsservices in verschiedene Prozessen und Szenarien wiederverwenden zu können.

Es werden vom Fachgebiet Informationssysteme und IBM mehrere Integrationsszenarien (use cases) aus dem SAP Umfeld zur Verfügung gestellt, für die unter Verwendung des erweiterten IBM Information Servers ein konkretes Integrationssystem implementiert werden soll.


In der Vorbereitungsphase werden Grundlagen der Informationsintegration vorgestellt. Die Teilnehmer lernen Techniken der Informationsintegration und deren Optimierung kennen. Darüber hinaus werden Spezialthemen, etwa Methoden der Informationsqualität und Datenreinigung, der Informationssuche und des Metadatenmanagements behandelt. Diese Themen werden im Rahmen regelmäßiger Treffen sowohl theoretisch als auch praktisch in regelmäßigen Treffen im Wintersemester 2007/08 durch die Teilnehmer bearbeitet und vorgestellt. Detaillierte Kenntnisse zum Arbeiten mit dem IBM Information Server werden im Vorbereitungsseminar zusätzlich vermittelt und erste Methoden werden umgesetzt.

Projektbeginn: 15.10.2007
Raum: A 1.10


Für weiterführende Informationen stehen Prof. Dr. Felix Naumann und Alexander Albrecht zur Verfügung. Eine Terminabsprache ist über das Sekretariat von Prof. Naumann möglich: office-naumann(at)hpi.uni-potsdam.de
