Hasso-Plattner-Institut25 Jahre HPI
Hasso-Plattner-Institut25 Jahre HPI
Login
 

04.06.2018

News

Zwischen Diskurs und Diskreditierung: HPI-Forscher analysieren Online-Kommentare

Auf den Seiten von Bloomberg, Reuters und The Verge geht es schon lange nicht mehr, bei der Neuen Zürcher Zeitung und der Süddeutschen Zeitung nur noch punktuell und unter Aufsicht: Die Kommentarfunktion für Online-Artikel ist in den letzten Jahren für fast jedes journalistische Medium zu einer echten Herausforderung avanciert. Weckten die Kommentarspalten im Netz als neue Räume für die deliberative Demokratie am Anfang vielerorts Hoffnungen, fallen sie in den letzten Jahren zunehmend durch Diffamierung, Polemik und Aggressivität auf. Senior Researcher Dr. Ralf Krestel und HPI-Doktorand Julian Risch stellen in ihrer Forschung die Nutzerkommentare im Internet auf den Prüfstand. Erste Forschungsergebnisse präsentieren sie am 4. Juni auf der NAACL-Konferenz in New Orleans.

Foto: HPI/K. Herschelmann

Weitere Informationen

Die Wissenschaftler des Fachgebiets Informationssysteme greifen für ihre Analysen auf Online-Artikel und Leserkommentare unterschiedlicher Zeitungen zurück. So beschäftigen sie sich beispielsweise mit den britischen Zeitungen The Guardian und The Telegraph, sowie den amerikanischen Zeitungen Washington Post und Fox News. Im deutsch-sprachigen Raum nutzen sie Online-Artikel und Leserkommentare von ZEIT ONLINE. Die erhobenen Daten ermöglichen eine präzise Analyse der Kommentare und zeigen, wie sich das Kommentarverhalten und der Moderationsaufwand über die Zeit verändern.

Mithilfe der Variablen, die mit jedem einzelnen Kommentar verknüpft sind, lassen sich sehr unterschiedliche Aspekte auswerten – darunter die Tonalität der Meinungsäußerungen (z.B. Forschung zu Hate Speech), etwaige Geschlechterunterschiede, oder auch die Diskussionsgegenstände an sich. Krestel und Risch haben sich im ersten Schritt ihrer Forschung darauf konzentriert, das Kommentarvolumen zu prognostizieren, mit dem die Redaktion nach der Veröffentlichung eines Artikels zu rechnen hat. Moderatoren journalistischer Online-Medien soll so ermöglicht werden, den Aufwand für die Interaktion mit den Nutzern abzuschätzen und besser vorausplanen zu können. 

„Unser Ziel ist es, die 10 Prozent der meist diskutierten Artikel pro Woche zu identifizieren", sagt Krestel. Dafür bezieht das Team Metadaten des Artikels, Kontextinformationen, die Überschrift und auch den Artikeltext selbst mit ein. „Für die Auswertung nutzen wir in erster Linie Entscheidungsbäume und statistische Regressionsmodelle. Zwar gibt es auf dem Feld der neuronalen Netze große Fortschritte, aber Redaktionen brauchen nicht nur eine verlässliche Vorhersage, sondern auch eine Begründung, welche Faktoren stark oder sehr stark zu dieser Vorhersage beitragen", führt Krestel aus.

Laut den Berechnungen der HPI-Forscher sind insbesondere die im Artikel enthaltenen Wörter (genutzt wurde ein Bag-of-Words-Modell), die übergeordneten Themen eines Artikels (per Topic Modelling), die Schlüsselwörter in der Überschrift (N-Gramme bzw. Wortgruppen von 1-3 Wörtern und vom Autor des Artikels bereitgestellte Schlagworte) sowie die Metadaten des Artikels (darunter die Quelle und das Ressort) entscheidend für die zu erwartende Menge an Kommentaren. So konnten Krestel und Risch feststellen, dass Artikel, die die Begriffe „Clausnitz”, „Gauland”, „Beatrix” und „Storch” im untersuchten Zeitraum  enthielten, bei ZEIT ONLINE am ehesten zu Kommentaren führten, welche gegen die Netiquette verstießen. Diese Kommentare wurden nicht aufgrund der Begriffe per se, sondern wegen regelwidriger (zum Beispiel beleidigender oder diskriminierender) Formulierungen im Text des Kommentars beanstandet. „Wir konnten auswerten, welche Artikelthemen in hohem bzw. niedrigem Maß zu Kommentaren führen, die nach Meinung der Moderatoren gegen die Netiquette verstoßen haben”, beschreibt HPI-Doktorand Risch. Während bei Artikeln, die das Wort „Clausnitz" enthalten, durchschnittlich jeder sechzehnte Kommentar gelöscht werden musste, waren es bei Artikeln mit dem Begriff „CO2" etwa jeder hundertneunzigste, der gegen die Kommentarregeln verstieß. „Anhand dieser Daten lässt sich beispielsweise nachvollziehen, bei welchen Themen die Diskussionen stark aus dem Ruder laufen. Es ist in diesem Sinne auch ein Zeugnis der Debattenkultur in einem spezifischen Zeitraum", fasst Risch zusammen.

Auch der Einstieg in die Diskussion, die direkt nach der Veröffentlichung des Artikels erfolgt, ist den HPI-Wissenschaftlern zufolge ein wichtiger Indikator für die zu erwartende Menge an Kommentaren. „Angesichts der dutzenden, teils hunderten von Kommentaren, nehmen Leser häufig nur die ersten wahr, da sie an oberster Stelle sichtbar sind. Analog zur Social-Media-Forschung haben wir es hier als sehr wahrscheinlich eingeschätzt, dass besonders kontroverse Meinungsäußerungen am Anfang auch zu einem höheren Kommentarvolumen insgesamt führen", so Risch. Um die Hypothese zu überprüfen, übersetzte das Team die jeweils ersten vier deutschen Kommentare unter einem Artikel ins Englische. Dadurch wurde es möglich, bereits wissenschaftlich erprobte Klassifizierungs-Algorithmen zu nutzen, die den Ton der geäußerten Meinungen einordnen. „Unseren Modellen zufolge sind tatsächlich insbesondere persuasive, kontroverse oder negative Kommentare die besten Indikatoren, um das darauffolgende Kommentarvolumen abzuschätzen", sagt Risch.

Durch die Anwendung beider Prognose-Modelle gelang es Krestel und Risch, die Vorhersagegenauigkeit von Kommentarvolumen um 81% gegenüber gängigen Modellen zu steigern. „Darauf basierend könnte man Konzepte entwickeln, wie sich die Diskussionen zukünftig ausgewogener gestalten lassen, etwa durch ein Ranking von Kommentaren", regt Risch an. Gleichzeitig können und müssen sich Journalisten angesichts der Datenlage kritisch damit auseinandersetzen, welche Reaktionen sie etwa durch die Wahl ihrer Überschriften beim Publikum auslösen. In einem aktuellen HPI-Seminar für Masterstudierende lässt Risch die Kommentare der britischen Zeitung „The Guardian" untersuchen: „Hier haben wir es mit etwa 60 Millionen Leserkommentaren zu tun, die beispielsweise Aufschluss über Themenkonjunkturen oder auch nationale Unterschiede der Lesermeinungen geben", erzählt Risch. An Fragestellungen mangelt es Krestel und Risch auf absehbare Zeit jedenfalls nicht.