Hasso-Plattner-Institut25 Jahre HPI
 

24.05.2017

News

HPI-Studenten erhalten Marianne-Englert-Preis für Software zur Analyse von Fußball-Daten

Für ihre Software, die über ein Dutzend Internet-Quellen zum Thema Fußball intelligent miteinander verknüpft, sind zwei Studenten des Hasso-Plattner-Instituts (HPI) mit dem Marianne-Englert-Preis ausgezeichnet worden. Der Verein für Medieninformation und Mediendokumentation (vfm) vergibt diese Auszeichnung jährlich an herausragende wissenschaftliche Arbeiten, die sich mit Fragestellungen der Informationsgesellschaft befassen.

Die HPI-Studenten Julian Risch (l.) und Moritz Finke (r.) haben in diesem Jahr für ihre Software zur Analyse von Fußball-Daten den Marianne-Englert-Preis erhalten. (Foto: HPI/K. Herschelmann)

Die Anwendung der HPI-Informatiker Julian Risch und Moritz Finke (beide 25) setzt unter anderem Tweets, Wetterdaten und Online-Videos aus den letzten 50 Jahren Fußballgeschichte zueinander in Beziehung und leitet daraus Fakten und Statistiken ab. "Durch die historische Vollständigkeit der Daten können wir Statistiken abrufen, die ansonsten nur sehr schwer zu generieren sind", weiß Informatiker Risch. So lasse sich beispielsweise blitzschnell ermitteln, dass in der Zeit zwischen der ersten Bundesliga-Saison 1963/64 und der Saison 2011/12 Matthias Scherz die meisten Tore nach der Einwechslung erzielte (insgesamt 19), Jürgen Kreyer mit 6,23 Karten pro Spiel der strengste Schiedsrichter war und Borussia Dortmund in der Saison 1995/1996 die meisten Tore in der ersten Halbzeit erzielte (insgesamt 32).

Fußball-Informationen sind fast immer unstrukturiert

"Es gibt zum Fußball zwar viele verschiedene Datenquellen, aber die Informationen sind fast immer unstrukturiert und können nicht ohne Weiteres verknüpft werden", erklärt Risch. Unstrukturierte Daten wie beispielsweise journalistische Online-Artikel und Beiträge in den sozialen Medien folgen keinem fest vorgegebenen Format und müssen daher speziell aufbereitet werden, bevor sie automatisiert ausgewertet werden können. Im Rahmen ihres Studienprojekts führen Risch und Finke unter anderem YouTube-Videos, Statistiken, Twitter-Nachrichten, Magazinartikel und die Daten des Deutschen Wetterdienstes zusammen.

Gemeinschaftsprojekt hilft bei Extraktion strukturierter Informationen 

"Die besondere Schwierigkeit liegt darin, dass die Bezeichnungen sehr verschieden sein können. Unsere Software muss zum Beispiel erkennen, dass Christiano Ronaldo häufig mit CR7 abgekürzt wird und sich die Informationen auf ein und dieselbe Person beziehen", so Finke. Um eine Datengrundlage für die jeweiligen Querverbindungen zu erstellen, greifen die beiden Informatiker auf die DBpedia zurück. Diese extrahiert strukturierte Informationen aus internationalen Wikipedia-Artikeln. Der Datenbestand des HPI-Projekts umfasst insgesamt 575 Mannschaften, 21.000 Spiele und 40.000 Spieler aus der Champions League sowie der 1. und 2. Bundesliga.

Verknüpfungen mit vielen weiteren Datenquellen sind denkbar

Beide Wissenschaftler können sich auch sinnvolle Verknüpfungen mit vielen weiteren Datenquellen vorstellen: "Es wäre beispielsweise möglich, die Einwohnerzahl des Geburtsortes mit in die Statistiken einzubeziehen. Mittels Geodaten kann ermittelt werden, in welchen Städten oder Ländern bestimmte Spieler oder Teams besonders erfolgreich sind", sagt Finke. Besonders beim Frauenfußball bestehe die Möglichkeit, viele Statistiken erstmalig zu erstellen, da der Informationsumfang dort bisher vergleichsweise gering sei. "Leider erlauben es viele der von uns genutzten Quellen aus urheberrechtlichen Gründen nicht, dass die so gewonnenen Informationen auch veröffentlicht werden", bedauert Finke.