Hasso-Plattner-Institut
Prof. Dr. Felix Naumann
 

Neue Entwicklungen im Bereich Informationssysteme

Im Rahmen dieses Forschungsseminars stellen Mitarbeiter und Studenten ihre Forschungsarbeiten auf diesem Gebiet vor. Studenten und Gäste sind herzlich eingeladen.

Allgemein

Wann: Dienstag, 15:15 - 16:45 Uhr

Wo: Raum A-2.2

Themen und Termine

TerminThema Vortragender
15.04.08Service-oriented Information Integration Mohammed AbuJarour
22.04.08fällt aus
30.04.08fällt aus
06.05.08Recognition of complex entities in unstructured contentFalk Brauer
Provide EXPLAIN functionality for Information Extraction processWojtek Barczynski
13.05.08fällt aus
20.05.08fällt aus
27.05.08

Aktuelle Master- und Diplomarbeiten am Lehrstuhl:

 

Karsten Draba, Jörn Hartwig, Alexander Renneberg, Maik Taubert, Véronique Tietz
03.06.08fällt aus
10.06.08fällt aus
17.06.08

Aktuelle Masterarbeiten am Lehrstuhl:

 

Martin Probst, Tobias Vogel

24.06.08

fällt aus
01.07.08Datenqualitäts-gesteuerte Optimierung der Verarbeitung von SensordatenströmenAnja Klein, SAP Research
08.07.08Webbasierende DatenintegrationRobert Hollmann, Steven Helmis
15.07.08Datenfehler in der freien Wildbahn - Erfahrungen aus einem Projekt mit der Schenker AGJens Bleiholder

Karsten Draba: Zusammenführen von ETL Prozessen mittels des Merge Operators

Die spezifischen Prozessabläufe eines Unternehmens oder einer Organisation gehören genauso zu deren wirtschaftlicher und funktionaler Basis, wie die Daten auf denen diese Prozesse operieren. Dennoch hat die Integration von Prozessen, im Vergleich zur Integration von Daten, in der Forschung bisher wenig Beachtung gefunden. Ziel dieser Arbeit ist es mit dem Merge Operator, einen grundlegenden Operator für die Integration von Prozessen zu entwickeln und zu implementieren. Dabei sollen Integrationsprozesse, wie sie typischerweise mit ETL Werkzeugen entworfen werden, als Grundlage dienen. Die Vorteile einer solchen Integration liegen nicht nur in einer möglichen Performanzsteigerung, sondern ebenso in einer besseren Verwaltung von Ressourcen, einem besseren Verständnis der Prozesse und der Wiederverwendbarkeit von Teilprozessen. Der zu entwickelnde Ansatz orientiert sich an Verfahren zur Anfrageoptimierung in relationalen Datenbanksystemen. Von besonderem Interesse ist die Optimierung multipler Anfragen (mutiple query optimization). Ähnlich wie dort, gilt es gemeinsame Teilprozesse zu identifizieren, die zur Vereinigung der Prozesse genutzt werden können. Um diese identifizieren zu können, sollen Transformationsregeln definiert werden, die einen ETL Prozess in einen anderen äquivalenten ETL Prozess überführen.

Joern Hartwig: Erstellung eines validierten Konzepts für eine webbasierte Anwendung zum Einholen von frühzeitigem Endnutzer-Feedback

Das grundlegende Problem bei der Anwendung von benutzerorientierten Designprozessen für den Entwurf von Software-Lösungen ist der intensive zeitliche und monetäre Aufwand zur Validierung der erstellten Ideen, Konzepte sowie Prototypen.
Im Rahmen dieser Master-Arbeit wird ein Ansatz bzw. Konzept entwickelt, das in Form einer Web-Anwendung das Einholen qualitativen asynchronen Feedbacks ermöglicht.
Das Konzept, welches die Akkumulierung von qualitativem Feedback zu einfachen Papierprototypen unterstützt, ist dabei auf das typische Vorgehen an der HPI School of Design Thinking (D-School) und der D-LABS GmbH abgestimmt.

Alexander Renneberg: Konzeptionierung und prototypische Entwicklung eines User-Research Repository für relevante Informationen aus initialen Endnutzer-Interviews

Der nachhaltige Erfolg von Projekten, die benutzerorientierten Designprozessen folgen, hängt im Wesentlichen von der zweckmäßigen Dokumentation von Endnutzer-Interviews ab.
Das zu entwickelnde User-Research Repository adressiert das Bedürfnis, alle relevanten Informationen über End-Nutzer Interviews digital zu speichern, um später auf diese Information über speziellen Abfragen zuzugreifen. Ziel der Arbeit ist auch die Identifikation dieser relevanten Informationen und der zwei am häufigsten vorkommenden Abfragen.
Diese Master Arbeit analysiert vergangene und aktuelle Projekte an der HPI School of Design Thinking (D-School) und der D-LABS GmbH. Demzufolge stehen akademische und kommerzielle Projekte aus dem Bereich Mittelstand im Vordergrund.
Die Erstellung des Konzepts und die Enwicklung des User-Research Repository erfolgt in iterativen Schritten. Demnach wird der erste Prototyp im Rahmen konkreter Projekte an der D-School und der D-LABS GmbH validiert werden. Die Ergebnisse dieser Validierung fließen in einen zweiten Neu-Entwurf der Lösung ein.

Maik Taubert: Effizienzsteigerung durch Parallelisierung von Duplikaterkennungsalgorithmen auf graph-basierten Datenstrukturen

Anders als Datenmengen flacher Hierarchien, können Daten, bestehend aus Graphen, beliebig komplexe Strukturen annehmen. Objekte des täglichen Lebens können somit - auf ihre wesentlichen Inhalte reduziert - in einem Informationssystem verwaltet werden. Dabei ist darauf zu achten, dass ein Realweltobjekt immer genau einmal in dem Datenbestand vorhanden ist. Der Vorgang zur Identifizierung solcher unerwünschter Dopplungen nennt man Duplikaterkennung.
Aufgrund der strukturellen Komplexität der Objektrepräsentationen, ist die Duplikaterkennung
gerade auf Graphen ein sehr schwieriger Prozess, der bei großen Datenbeständen sehr lange - teilweise tagelang - dauern kann. Zur Duplikatklassifizierung wird ein Ähnlichkeitsmaß
genutzt, mithilfe dessen ein Algorithmus in der Lage ist, ein Element als Duplikat oderNicht-Duplikat zu klassifizieren. Allerdings ist die Entscheidung bei graphbasierten Datenstrukturen nicht allein von der Ähnlichkeit einzelner Knoten zueinander abhängig,
sondern auch von der Klassifizierung ihrer Nachbarknoten. Dies erschwert und verkompliziert die Klassifizierung zusätzlich.
Die Arbeit befasst sich damit, den langwierigen Prozess der Duplikaterkennung auf graph-basierten Daten zu parallelisieren, und somit die Laufzeit zu reduzieren. Da die Zerlegung der Daten in logische Arbeitpakete und die darauf folgende gleichzeitigeBerechnung der Duplikate nicht-trivialer Natur sind, stellt die Parallelisierung auf graph-basierten Daten eine besondere Herausforderung dar.

Véronique Tietz: Nutzung von Statistiken über Daten-Overlap zur Anfrageoptimierung in Peer Data Management Systemen

Ein Peer Data Management System (PDMS) ist ein verteiltes Informationssystem, das auseinem Netzwerk von autonomen Quellen (Peers) mit im Allgemeinen heterogenen Schemata besteht.In einem solchen System wird eine Anfrage von einem Peer bearbeitet, indem siemithilfe von Mappings an andere, benachbarte Peers weitergeleitet und die Ergebnissegeeignet zusammengeführt werden. Je nach Verteilung der Daten in dem PDMS können diese Ergebnisse Überlappungen bezüglich Real-World-Entitäten aufweisen, was zuerheblichen Redundanzen sowohl im Datentransport als auch bei der Anfragebearbeitunführt. Ziel der Arbeit ist es, unter Nutzung von Statistiken diese Redundanzen zu vermeiden und damit zu einer weiteren Optimierung der Anfragebearbeitung beizutragen. Besondere Herausforderungen ergeben sich dabei aus dem Fehlen einer zentralen Instanz mit "globalem Wissen" und dem Anspruch, die Autonomie der einzelnen Peers vollständig zu erhalten.

Martin Probst: Mining Webservices for Metadata

Webservices im weitesten Sinne - automatisierte, HTTP-basierte Interaktionen zwischen Programmen - spielen in der Softwareentwicklung eine immer stärkere Rolle. Der ursprüngliche Entwurf eines Service-basierten Umfelds mit stark typisierten Webservices im Sinne von SOAP, WSDL, und WS-* wird dabei immer mehr von lose typisierten, REST basierten Szenarios verdrängt.
Die Master-Arbeit 'Mining Webservices for Metadata' untersucht in diesem Kontext, wie zu Webservices automatisiert oder semi-automatisiert Metadaten gewonnen werden können, um das Auffinden, die Nutzung und die Wiederverwendung von Webservices zu erleichtern. Der Vortrag zeigt unterschiedliche Ansätze, Daten zu Webservices zu gewinnen, Metadaten daraus zu extrahieren, und gibt einen Ausblick auf mögliche Analysen auf diesen Metadaten.

Tobias Vogel: Automatisierte Erstellung von Webservices zur Kapselung mehrstufiger Webformulare

Immer mehr Prozesse der echten Welt werden in Informationssystemen und speziell im World Wide Web abgebildet, nicht zuletzt deswegen, weil sie dort preisgünstiger abgewickelt werden können und mehr Menschen (eben die Kunden) erreichen. Beispiele dafür sind Auktionsplattformen wie Ebay, Dienstleistungen für Reiseplanungen wie kayak.com oder die Nahverkehrsauskunft vbb-online.de sowie Informationsdienste wie das digitale Telefonbuch unter telefonbuch.com.
Die Dateineingabe erfolgt dabei über Formulare, die zum Teil über mehrere Schritte verteilt sind. Einerseits soll damit die Komplexität für den Benutzer reduziert werden, andererseits müssen während des Ausfüllens bisherige Eingaben geprüft werden, bevor der Vorgang abgeschlossen werden kann, beispielsweise die Verfügbarkeit eines Benutzernamens beim Einrichten eines Benutzerkontos.
Die entsprechenden Schnittstellen dieser Angebote sind für die Interaktion mit dem menschlichen Benutzer vorgesehen; es sind Webseiten. Die Möglichkeiten, die eine direkte Interaktion mit Anwendungen auf Nutzerseite bietet, wurden bisher – auch in Ermangelung entsprechender Maschinenschnittstellen – nur wenig ausgeschöpft.
In dieser Arbeit soll anhand einer prototypischen Implementierung überprüft werden, ob und inwieweit sich Webservices automatisch aus den oben beschriebenen Formularketten generieren lassen. Dafür müssen unter anderem ein geeignetes Bedienkonzept für den Generator entwickelt sowie Zusammenhänge zwischen den Formularschritten erkannt werden. Zudem müssen geeignete Evaluationskriterien für Effizienz und Effektivität des Ansatzes entwickelt und angewendet werden. Anhaltspunkte sind die Äquivalenz zwischen dem Webservice und der anfragespezifischen menschlichen Formularbenutzung und der Entwicklungsaufwand.

Anja Klein: Datenqualitätsgesteuerte Optimierung der Verarbeitung von Sensordatenströmen

Smart monitoring systems use sensor data to guide automatic  manufacturing processes and complex business decisions. The  restricted quality of sensor data due to limited sensor precision and sensor failures poses a crucial problem, which is very often ignored by the application owners. If not handled carefully, these data quality deficiencies result in misguided or even incorrect decisions.
The presentation aims to raise the awareness of data quality by introducing the quality-driven optimization of data stream processing. Quasi-analog sensor stream operators will be analyzed to identify configuration parameters for an overall quality improvement. Based on these findings, the multi-objective optimization problem is classified. Heuristic solution algorithms, derived from the field of operations research, will be presented. To validate the proposed methods, a comprehensive evaluation of the algorithms using artificial and real-world data streams will be given.

Steven Helmis, Robert Hollmann: Webbasierende Datenintegration

IT-Systeme bilden das Rückgrat der verschiedensten Unternehmen und Institutionen. Sie steuern Prozesse und nehmen Überwachungs- und Informationsaufgaben war. IT- gestützte Systeme sind aus dem alltäglichen Leben, wie auch der Geschäftswelt nicht mehr weg zu denken. Seit der Entwicklung der ersten Anwendungen für Unternehmen hat die Technologie einen raschen Wandel erlebt. So bietet die fortgeschrittene Technik heute viel mehr, als die anfangs eingesetzten hoch spezialisierten Insellösungen, die kleine Teile in einem Geschäftsprozess unterstützten. Heute sind viel mehr einheitliche, effiziente und einfach zu bedienende Informationssysteme gefragt, die den Entscheidern in einem Unternehmen eine valide Informationsbasis für strategische Vorhaben zur Verfügung stellen. Solche Systeme stehen in einem Unternehmen nicht Ad-hoc zur Verfügung. Sie müssen in einem komplizierten Prozess aufgebaut werden und die Informationen der einzelnen, im Unternehmen vorhandenen Lösungen integrieren. Die Herausforderung besteht in eben dieser Integration. Unterschiedlichste Architekturen und die zugrunde liegenden Daten müssen vereinheitlicht und zusammengeführt werden. Die polymorphe Gestalt dieser Systeme erschwert dieses Vorhaben erheblich. Daten liegen in den unterschiedlichsten Formaten und semantischen Formen vor. Es gilt diese zu transformieren und in ein einheitliches Format zu bringen. Es erscheint logisch, dass der Qualität dieser Daten eine zentrale Rolle zukommt.
Daten die doppelt vorhanden, unvollständig sind, im falschen Format vorliegen oder informatorisch nicht korrekt sind, bieten eine nur unzuverlässige Basis für ein einheitlich integriertes Informationssystem. Eine solche Datenbasis, die keine ausreichende Reputation erlangt oder die qualitativ minderwertig ist, kann nicht als Entscheidungsgrundlage für wichtige Schritte im Unternehmen herangezogen werden. Unzureichende Datenqualität führt nicht nur zu falschen oder verspäteten Entscheidungen, sondern kann im laufenden Betrieb eines Unternehmens hohe Kosten verursachen.
Die Arbeiten der beiden Autoren beleuchten die geschilderte Thematik eingehend. Im Anschluss stellen Sie ein, während der praktischen Phase dieser Thesis implementiertes, vollständig webbasierendes Werkzeug für die Messung der Datenqualität in heterogenen Datenbeständen vor.

Jens Bleiholder: Datenfehler in der freien Wildbahn - Erfahrungen aus einem Projekt mit der Schenker AG

In Zusammenarbeit mit der Schenker AG wurde am Lehrstuhl ein Datenqualitätsprojekt durchgeführt, bei dem es darum ging einen Datenbestand auf Fehler zu untersuchen. Im Vortrag werde ich kurz und anekdotenhaft über die Erfahrungen aus diesem Projekt berichten, insbesondere welche Tools, Techniken und Herangehensweisen erfolgreich verwendet werden konnten.