Die Wissenschaftler des Fachgebiets Informationssysteme greifen für ihre Analysen auf Online-Artikel und Leserkommentare unterschiedlicher Zeitungen zurück. So beschäftigen sie sich beispielsweise mit den britischen Zeitungen The Guardian und The Telegraph, sowie den amerikanischen Zeitungen Washington Post und Fox News. Im deutsch-sprachigen Raum nutzen sie Online-Artikel und Leserkommentare von ZEIT ONLINE. Die erhobenen Daten ermöglichen eine präzise Analyse der Kommentare und zeigen, wie sich das Kommentarverhalten und der Moderationsaufwand über die Zeit verändern.
Mithilfe der Variablen, die mit jedem einzelnen Kommentar verknüpft sind, lassen sich sehr unterschiedliche Aspekte auswerten – darunter die Tonalität der Meinungsäußerungen (z.B. Forschung zu Hate Speech), etwaige Geschlechterunterschiede, oder auch die Diskussionsgegenstände an sich. Krestel und Risch haben sich im ersten Schritt ihrer Forschung darauf konzentriert, das Kommentarvolumen zu prognostizieren, mit dem die Redaktion nach der Veröffentlichung eines Artikels zu rechnen hat. Moderatoren journalistischer Online-Medien soll so ermöglicht werden, den Aufwand für die Interaktion mit den Nutzern abzuschätzen und besser vorausplanen zu können.
„Unser Ziel ist es, die 10 Prozent der meist diskutierten Artikel pro Woche zu identifizieren", sagt Krestel. Dafür bezieht das Team Metadaten des Artikels, Kontextinformationen, die Überschrift und auch den Artikeltext selbst mit ein. „Für die Auswertung nutzen wir in erster Linie Entscheidungsbäume und statistische Regressionsmodelle. Zwar gibt es auf dem Feld der neuronalen Netze große Fortschritte, aber Redaktionen brauchen nicht nur eine verlässliche Vorhersage, sondern auch eine Begründung, welche Faktoren stark oder sehr stark zu dieser Vorhersage beitragen", führt Krestel aus.
Laut den Berechnungen der HPI-Forscher sind insbesondere die im Artikel enthaltenen Wörter (genutzt wurde ein Bag-of-Words-Modell), die übergeordneten Themen eines Artikels (per Topic Modelling), die Schlüsselwörter in der Überschrift (N-Gramme bzw. Wortgruppen von 1-3 Wörtern und vom Autor des Artikels bereitgestellte Schlagworte) sowie die Metadaten des Artikels (darunter die Quelle und das Ressort) entscheidend für die zu erwartende Menge an Kommentaren. So konnten Krestel und Risch feststellen, dass Artikel, die die Begriffe „Clausnitz”, „Gauland”, „Beatrix” und „Storch” im untersuchten Zeitraum enthielten, bei ZEIT ONLINE am ehesten zu Kommentaren führten, welche gegen die Netiquette verstießen. Diese Kommentare wurden nicht aufgrund der Begriffe per se, sondern wegen regelwidriger (zum Beispiel beleidigender oder diskriminierender) Formulierungen im Text des Kommentars beanstandet. „Wir konnten auswerten, welche Artikelthemen in hohem bzw. niedrigem Maß zu Kommentaren führen, die nach Meinung der Moderatoren gegen die Netiquette verstoßen haben”, beschreibt HPI-Doktorand Risch. Während bei Artikeln, die das Wort „Clausnitz" enthalten, durchschnittlich jeder sechzehnte Kommentar gelöscht werden musste, waren es bei Artikeln mit dem Begriff „CO2" etwa jeder hundertneunzigste, der gegen die Kommentarregeln verstieß. „Anhand dieser Daten lässt sich beispielsweise nachvollziehen, bei welchen Themen die Diskussionen stark aus dem Ruder laufen. Es ist in diesem Sinne auch ein Zeugnis der Debattenkultur in einem spezifischen Zeitraum", fasst Risch zusammen.