Hasso-Plattner-Institut
  
Hasso-Plattner-Institut
Prof. Dr. Felix Naumann
  
 

Latest developments in the Information Systems field

In this seminar, research staff members and students introduce their word in the area of information systems. Frequently, we also welcome guests to report on their work.

Everybody is welcome to attend the talks.

Anja Jentzsch coordinates this research seminar.

Dates

  • 04.11.2013, 14:00 - 15:00, H-E.51

    • Produktduplikaterkennung und Titel-Fusion (Master's Thesis Presentation)
    • Presenter: Robert Aschenbrenner

  • 04.11.2013, 15:00 - 16:00, H-E.51

    • Suchmaschine für Gesetze (Master's Thesis Presentation)
    • Presenter: Stefan Wehrmeyer

  • 19.11.2013, 15:00 - 16:00, A-1.2

    • Strategies for structure-based rewriting of SPARQL queries for data prefetching (Master's Thesis Presentation)
    • Presenter: Armin Zamani

  • 19.12.2013, 09:00 - 10:00, A-1.1

    • Entwicklung einer Suchmaschine zur Bewertung von Experten basierend auf ihren Publikationen im Feld der Energiewissenschaftene (Master's Thesis Presentation)
    • Presenter: Stefan George

  • 11.02.2014, 14:00 - 15:00, tbd

    • Optimizing Performance of Linked Data Profiling (Master's Thesis Presentation)
    • Presenter: Benedikt Forchhammer

  • 11.02.2014, 15:00 - 16:00, tbd

    • Text Profiling: Aggregation Analyses on Sets of Texts (Master's Thesis Presentation)
    • Presenter: Matthias Kohnen

Abstracts

     

  • Robert Aschenbrenner : Produktduplikaterkennung und Titel-Fusion


    Einige der von einem Unternehmen angebotenen Produkte unterscheiden sich nur in wenigen Details. Sind diese für Kunden nicht unmittelbar

    relevant, werden sie als Produktduplikate bezeichnet.

    Zum Beispiel können sich zwei Produkte nur im Titel unterscheiden, während die sonstigen Eigenschaften und zugehörigen Produktbilder identisch sind. Im Onlineshop einer Firma bieten präsentierte Produktduplikate dem Kunden keinen Mehrwert. Sie sollten als Duplikate erkannt werden. Anschließend können in Produktübersichten neben einem Repräsentant der Duplikat-Gruppe andere Produkte angezeigt werden.

    Zur Duplikaterkennung werden traditionell Informationen aus einer

    Datenbank verwendet. Diese Arbeit untersucht die Verwendung von

    Produktbildern bei der Duplikatsuche. Es werden wahrnehmungsbasierte

    Hash-Verfahren und Techniken zur Extraktion lokaler Bildmerkmale

    evaluiert. Dabei kommen mit SURF und FREAK aktuelle Technologien zur

    Bildrepräsentation zum Einsatz.

    Die Evaluierung geschieht mit Hilfe eines manuell überprüften

    Produkt-Datensatzes der Firma „Ansichtskartenpool”.

    In Experimenten zeigt sich, dass anhand der Bilder über 99% der

    Produktduplikate korrekt identifiziert werden können. Produktbilder

    sind beim getesteten Datensatz besser zur Duplikaterkennung geeignet

    als textuelle Informationen der Datenbank.

    Die gefundenen Duplikate differieren teilweise bei den Titel-Angaben.

    Inkonsistente Daten werden bei der Fusion von Duplikaten oftmals

    ignoriert oder der Nutzer muss eine manuelle Lösung angeben. Es wird

    ein Algorithmus vorgestellt, der verschiedene Titel zu einem

    umfangreichen und konsistenten Titel vereinigt. Die dabei

    entstehenden, automatisch fusionierten Titel sind zufriedenstellend

    und müssen nicht von Hand korrigiert werden.

  •  

  • Stefan Wehrmeyer : Suchmaschine für Gesetze


    This thesis presents a search engine for German law texts that improves the search experience for laymen. The corpus of German federal laws is analysed, references are extracted and requirements for a search engine are derived. These requirements are the basis for the configuration of the search engine software ElasticSearch. The search engine is extended with domain-specific synonym lists and keywords extracted from related texts are connected to paragraphs. The ranking is customized based on the document type and its references. The resulting configurations are compared with three external search engines using relevance feedback and queries from a query log. The result is statistically evaluated and a significant improvement can be shown in comparison to the external search engines.

  • Armin Zamani : Strategies for structure-based rewriting of SPARQL queries for data prefetching


    Linked Data repositories offer large sets of RDF triple facts for public access. Human users and machine agents can retrieve the data from endpoints using SPARQL queries. By analyzing the queries issued against endpoints, common patterns can be observed in the query structures. For example, typically machine agents issue similarly structured queries and vary a few parameters from query to query. In this thesis, we analyze SPARQL query logs for sessions, identify structural reformulations in the sessions, and derive rewriting strategies suitable for data prefetching. By this, the workload on SPARQL endpoints can be reduced beyond caching previous query results. For an automated processing, we introduce a formalism and method to identify reformulations between two arbitrary SPARQL queries. Using the strategies, the user's subsequent queries are anticipated and suitable RDF result sets are prefetched by rewriting the user's queries. Finally, we evaluate our prefetching approach with real-world SPARQL query logs.

  • Stefan George : Entwicklung einer Suchmaschine zur Bewertung von Experten basierend auf ihren Publikationen im Feld der Energiewissenschaften


    Forschung in Unternehmen findet heutzutage in einem so hohen Maß diversifiziert statt, dass die Expertise für spezielle Aufgaben sehr häufig im Unternehmen selbst nicht vorhanden ist und stattdessen externe Experten herangezogen werden müssen.

     

    Das Auffinden von Experten ist keine einfache Aufgabe, da die Bewertung von Experten selbst das Fachwissen benötigt, über das der Suchende nicht unbedingt verfügt. Außerdem gibt es zu vielen Fachgebieten eine so große Anzahl an potentiellen Experten, dass es unmöglich ist, alle zu überprüfen und zu kontaktieren. Daher ist es notwendig aus allen Wissenschaftlern diejenigen zu filtern, welche auf dem gesuchten Teilgebiet die notwendige Expertise haben und anschließend diese in eine Reihenfolge zu bringen, welche diejenigen mit der größten Expertise zuerst listet. Grundlage dieser Bewertung stellen die wissenschaftlichen Arbeiten der Experten dar, die in Form von Publikationen vorliegen.

     

    Um eine Lösung für diese Problematik zu finden, wurde eine Suchmaschine für Experten entwickelt, welche folgende Aufgaben umfasst:

    Im ersten Schritt müssen die Publikationen aus verschiedenen Quellen bezogen und die Metainformationen, wie Autoren, Titel und Abstract extrahiert werden. Im zweiten Schritt müssen diese Informationen zusammengeführt und vereinheitlicht werden. Dazu wird eine Duplikaterkennung für Autoren, Universitäten und Publikationen durchgeführt. Anschließend wird in einem dritten Schritt ein Rankingmodell für die Publikationen erstellt, um die wichtigsten Publikationen für eine Aufgabe zu finden. Im letzten Schritt wird dann basierend auf den Publikationen ein Rankingmodell für die Autoren erstellt, um die für die Aufgabe geeignetsten Wissenschaftler zu finden.

  • Benedikt Forchhammer : Optimizing Performance of Linked Data Profiling


    The Web of Data contains a large number of different, openly-available datasets. In order to effectively integrate these into existing applications, meta information is needed on statistical and structural properties of such datasets. Examples include information about cardinalities, value patterns or co-occurring properties. For Linked Data sets such information is currently very limited or not available at all. So, data profiling techniques are needed to compute respective statistics and meta information. However, current state-of-the-art approaches can either not be applied to RDF data, or exhibit considerable performance problems. This thesis presents a workflow for computing, optimizing and benchmarking data profiling techniques based on MapReduce with Apache Pig. We implement 15 of the most important data profiling tasks, optimise their simultaneous execution, and evaluate them with 4 typical datasets from the Web of Data. Our optimizations focus on reducing the amount of MapReduce jobs and minimizing the communication overhead between multiple jobs. Although, some future work on cost-based optimization and materialized views is still needed, the final evaluation shows that the proposed techniques demonstrate a significant potential in optimizing the runtime costs for RDF profiling.

  • Matthias Kohnen : Text Profiling: Aggregation Analyses on Sets of Texts


    Data profiling techniques are well-known methods which are often used in database systems.

    However, the profiling of sets of texts is one of the least developed parts of this area.

    This thesis describes the implementation of a text profiling system and demonstrates different use cases for text profiling.

    Besides the general relevance of the described methods, the possibilities to identify faults in supercomputers through text profiling of log messages are described.

  •