Die neuste Ausgabe des Datenbank-Spektrum - Volume 19 Nummer 2 ist online. Zu den Gastautoren dieses Heftes zählen Jens Dittrich, Felix Naumann, und Norbert Ritter.
Abstract:
Die Nachvollziehbarkeit (repeatability) und Wiederholbarkeit (reproducability) wissenschaftlicher Erkenntnisse ist ein essentiell wichtiges Thema nicht nur in der Informatik, sondern in nahezu allen wissenschaftlichen Disziplinen. Wie kann ich mir sicher sein, dass ein in einem begutachteten Fachartikel beschriebenes wissenschaftliches Experiment tatsächlich die angeführten Ergebnisse erbracht hat? Wenn jemand Unabhängiges dasselbe Experiment wiederholte, würden dieselben Ergebnisse beobachtet und dieselben Schlussfolgerungen gezogen werden?
Diese Überprüfung ist immer dann schwierig, wenn nicht alle Informationen vollständig im Fachartikel dargelegt oder referenziert sind, die für eine Wiederholung eines Experiments notwendig sind. In der Informatik gehören hierzu: die verwendeten Algorithmen, Anfragen und Daten, Vorverarbeitungs- und Reinigungsschritte, die Parameter der Algorithmen, eine klare Beschreibung der verwendeten Hardware, die Versionen der verwendeten Software-Bibliotheken, ein annotierter Gold-Standard usw. Fehlt nur eine dieser Informationen, kann eine Wiederholung der Experimente bereits stark erschwert sein.
Die internationale Datenbankgemeinde hat sich schon früh über dieses Problem Gedanken gemacht, sei es durch einschlägige Forschung in diesem Bereich, aber auch z.B. durch Repeatability-Kommittees, die zumindest Blackbox-Tests der Software angenommener Beiträge durchführen, und den sehr erfolgreichen Experiments & Analysis-Track auf (P)VLDB, der bei Autoren keinen unnötigen Druck aufbaut, Neuheit („...our approach is novel…“) zu behaupten und/oder künstlich herbeizuschreiben ( „...our algorithm is very different from related work…“).
Diese Ausgabe des Datenbankspektrums ist ein weiterer Versuch, ein wenig Licht in diese noch zu dunkle Ecke der Wissenschaft zu bringen. Hierzu tragen sechs ausgewählte Fachbeiträge bei, die die Themen Nachvollziehbarkeit und Wiederholbarkeit aus ganz unterschiedlichen Blickwinkeln beleuchten. So schlagen Chamanara et al. im Hinblick auf eine nationale Forschungsdateninfrastruktur ein semantisch verknüpftes Netzwerk von Forschungsdatensystemen vor. Auch Vidal et al. beschäftigen sich mit der Nutzbarmachung heterogener Daten, hier jedoch mit dem Domänen-spezifischen Ziel der Verbesserung von medizinischen Behandlungen. Pawlik et al. identifizieren fünf Ebenen der Reproduzierbarkeit von Daten und beleuchten damit die möglichen Auswirkungen von Vorverarbeitungsschritten. Risch et al. führen als neues Konzept die „partial data repeatability“ zur besseren Nachvollziehbarkeit von Web-Science-Experimenten ein. Ebenfalls mit Web-Daten beschäftigt sich der Beitrag von Bizer et al., wobei hier die Nutzung von semantischen Annotationen vorgeschlagen wird. Und der von Kiefer et al. beschriebene Ansatz versucht schließlich, auch ohne (Gold-) Annotationen die Qualität von (Text-) Daten abschätzen und entsprechend verbessern zu können.
Die volle Version finden Sie hier.
Wir wünschen viel Spaß beim Lesen!