Hasso-Plattner-Institut
Prof. Dr. Felix Naumann
  
 

Latest developments in the Information Systems field

In this seminar, research staff members and students introduce their word in the area of information systems. Frequently, we also welcome guests to report on their work.

Everybody is welcome to attend the talks.

Anja Jentzsch coordinates this research seminar.

Dates

  • 04.11.2013, 14:00 - 15:00, H-E.51
    • Produktduplikaterkennung und Titel-Fusion (Master's Thesis Presentation)
    • Presenter: Robert Aschenbrenner
  • 04.11.2013, 15:00 - 16:00, H-E.51
    • Suchmaschine für Gesetze (Master's Thesis Presentation)
    • Presenter: Stefan Wehrmeyer
  • 19.11.2013, 15:00 - 16:00, A-1.2
    • Strategies for structure-based rewriting of SPARQL queries for data prefetching (Master's Thesis Presentation)
    • Presenter: Armin Zamani
  • 19.12.2013, 09:00 - 10:00, A-1.1
    • Entwicklung einer Suchmaschine zur Bewertung von Experten basierend auf ihren Publikationen im Feld der Energiewissenschaftene (Master's Thesis Presentation)
    • Presenter: Stefan George
  • 11.02.2014, 14:00 - 15:00, tbd
    • Optimizing Performance of Linked Data Profiling (Master's Thesis Presentation)
    • Presenter: Benedikt Forchhammer
  • 11.02.2014, 15:00 - 16:00, tbd
    • Text Profiling: Aggregation Analyses on Sets of Texts (Master's Thesis Presentation)
    • Presenter: Matthias Kohnen

Abstracts

  • Robert Aschenbrenner : Produktduplikaterkennung und Titel-Fusion
    Einige der von einem Unternehmen angebotenen Produkte unterscheiden sich nur in wenigen Details. Sind diese für Kunden nicht unmittelbar relevant, werden sie als Produktduplikate bezeichnet. Zum Beispiel können sich zwei Produkte nur im Titel unterscheiden, während die sonstigen Eigenschaften und zugehörigen Produktbilder identisch sind. Im Onlineshop einer Firma bieten präsentierte Produktduplikate dem Kunden keinen Mehrwert. Sie sollten als Duplikate erkannt werden. Anschließend können in Produktübersichten neben einem Repräsentant der Duplikat-Gruppe andere Produkte angezeigt werden. Zur Duplikaterkennung werden traditionell Informationen aus einer Datenbank verwendet. Diese Arbeit untersucht die Verwendung von Produktbildern bei der Duplikatsuche. Es werden wahrnehmungsbasierte Hash-Verfahren und Techniken zur Extraktion lokaler Bildmerkmale evaluiert. Dabei kommen mit SURF und FREAK aktuelle Technologien zur Bildrepräsentation zum Einsatz. Die Evaluierung geschieht mit Hilfe eines manuell überprüften Produkt-Datensatzes der Firma „Ansichtskartenpool”. In Experimenten zeigt sich, dass anhand der Bilder über 99% der Produktduplikate korrekt identifiziert werden können. Produktbilder sind beim getesteten Datensatz besser zur Duplikaterkennung geeignet als textuelle Informationen der Datenbank. Die gefundenen Duplikate differieren teilweise bei den Titel-Angaben. Inkonsistente Daten werden bei der Fusion von Duplikaten oftmals ignoriert oder der Nutzer muss eine manuelle Lösung angeben. Es wird ein Algorithmus vorgestellt, der verschiedene Titel zu einem umfangreichen und konsistenten Titel vereinigt. Die dabei entstehenden, automatisch fusionierten Titel sind zufriedenstellend und müssen nicht von Hand korrigiert werden.
  • Stefan Wehrmeyer : Suchmaschine für Gesetze
    This thesis presents a search engine for German law texts that improves the search experience for laymen. The corpus of German federal laws is analysed, references are extracted and requirements for a search engine are derived. These requirements are the basis for the configuration of the search engine software ElasticSearch. The search engine is extended with domain-specific synonym lists and keywords extracted from related texts are connected to paragraphs. The ranking is customized based on the document type and its references. The resulting configurations are compared with three external search engines using relevance feedback and queries from a query log. The result is statistically evaluated and a significant improvement can be shown in comparison to the external search engines.
  • Armin Zamani : Strategies for structure-based rewriting of SPARQL queries for data prefetching
    Linked Data repositories offer large sets of RDF triple facts for public access. Human users and machine agents can retrieve the data from endpoints using SPARQL queries. By analyzing the queries issued against endpoints, common patterns can be observed in the query structures. For example, typically machine agents issue similarly structured queries and vary a few parameters from query to query. In this thesis, we analyze SPARQL query logs for sessions, identify structural reformulations in the sessions, and derive rewriting strategies suitable for data prefetching. By this, the workload on SPARQL endpoints can be reduced beyond caching previous query results. For an automated processing, we introduce a formalism and method to identify reformulations between two arbitrary SPARQL queries. Using the strategies, the user's subsequent queries are anticipated and suitable RDF result sets are prefetched by rewriting the user's queries. Finally, we evaluate our prefetching approach with real-world SPARQL query logs.
  • Stefan George : Entwicklung einer Suchmaschine zur Bewertung von Experten basierend auf ihren Publikationen im Feld der Energiewissenschaften
    Forschung in Unternehmen findet heutzutage in einem so hohen Maß diversifiziert statt, dass die Expertise für spezielle Aufgaben sehr häufig im Unternehmen selbst nicht vorhanden ist und stattdessen externe Experten herangezogen werden müssen. Das Auffinden von Experten ist keine einfache Aufgabe, da die Bewertung von Experten selbst das Fachwissen benötigt, über das der Suchende nicht unbedingt verfügt. Außerdem gibt es zu vielen Fachgebieten eine so große Anzahl an potentiellen Experten, dass es unmöglich ist, alle zu überprüfen und zu kontaktieren. Daher ist es notwendig aus allen Wissenschaftlern diejenigen zu filtern, welche auf dem gesuchten Teilgebiet die notwendige Expertise haben und anschließend diese in eine Reihenfolge zu bringen, welche diejenigen mit der größten Expertise zuerst listet. Grundlage dieser Bewertung stellen die wissenschaftlichen Arbeiten der Experten dar, die in Form von Publikationen vorliegen. Um eine Lösung für diese Problematik zu finden, wurde eine Suchmaschine für Experten entwickelt, welche folgende Aufgaben umfasst: Im ersten Schritt müssen die Publikationen aus verschiedenen Quellen bezogen und die Metainformationen, wie Autoren, Titel und Abstract extrahiert werden. Im zweiten Schritt müssen diese Informationen zusammengeführt und vereinheitlicht werden. Dazu wird eine Duplikaterkennung für Autoren, Universitäten und Publikationen durchgeführt. Anschließend wird in einem dritten Schritt ein Rankingmodell für die Publikationen erstellt, um die wichtigsten Publikationen für eine Aufgabe zu finden. Im letzten Schritt wird dann basierend auf den Publikationen ein Rankingmodell für die Autoren erstellt, um die für die Aufgabe geeignetsten Wissenschaftler zu finden.
  • Benedikt Forchhammer : Optimizing Performance of Linked Data Profiling
    The Web of Data contains a large number of different, openly-available datasets. In order to effectively integrate these into existing applications, meta information is needed on statistical and structural properties of such datasets. Examples include information about cardinalities, value patterns or co-occurring properties. For Linked Data sets such information is currently very limited or not available at all. So, data profiling techniques are needed to compute respective statistics and meta information. However, current state-of-the-art approaches can either not be applied to RDF data, or exhibit considerable performance problems. This thesis presents a workflow for computing, optimizing and benchmarking data profiling techniques based on MapReduce with Apache Pig. We implement 15 of the most important data profiling tasks, optimise their simultaneous execution, and evaluate them with 4 typical datasets from the Web of Data. Our optimizations focus on reducing the amount of MapReduce jobs and minimizing the communication overhead between multiple jobs. Although, some future work on cost-based optimization and materialized views is still needed, the final evaluation shows that the proposed techniques demonstrate a significant potential in optimizing the runtime costs for RDF profiling.
  • Matthias Kohnen : Text Profiling: Aggregation Analyses on Sets of Texts
    Data profiling techniques are well-known methods which are often used in database systems. However, the profiling of sets of texts is one of the least developed parts of this area. This thesis describes the implementation of a text profiling system and demonstrates different use cases for text profiling. Besides the general relevance of the described methods, the possibilities to identify faults in supercomputers through text profiling of log messages are described.