Hasso-Plattner-Institut25 Jahre HPI
 

16.11.2017

News

Falsche Twitter-Identitäten automatisch entdecken: Neue Erkenntnisse aus HPI-Spitzenforschungslabor

Wie Machine Learning dabei helfen kann, kriminelle Twitter-Nutzer zu entlarven, haben Forscher der südafrikanischen Universität Pretoria am 15. November in Potsdam gezeigt: Sie nutzen für ihre Big-Data-Analysen das Spitzenforschungslabor „HPI Future SOC Lab“, dessen leistungsstarke IT-Infrastruktur vom Hasso-Plattner-Institut (HPI) kostenfrei zur Verfügung gestellt wird.

Estée van der Walt und Prof. Jan Eloff von der Universität Pretoria. (Foto: HPI/F. Flemming)

Beim „HPI Future SOC Lab Day“ diskutierten IT-Experten aus Universitäten, Forschungsinstituten und Unternehmen am SAP Innovation Center Potsdam aktuelle Ergebnisse, die sie mithilfe der Potsdamer Serversysteme erarbeitet haben. Gastgeber sind HPI-Direktor Professor Christoph Meinel und Professor Andreas Polze, Leiter des Fachgebiets Betriebssysteme und Middleware. 

Mit über 200 Millionen Tweets arbeitet Estée van der Walt von der Universität Pretoria. Ihr Ziel ist es, menschliche Twitter-Nutzer zu entlarven, die im eigenen Account falsche Angaben über ihre Identität machen. Die Missbrauchs-Fälle bewegen sich laut der südafrikanischen Forscherin von Cybermobbing über fingiertes Dating bis hin zur Rekrutierung durch Terrorgruppen auf einem breiten Spektrum. „Das Problem ist, dass die falschen Identitäten erst dann entlarvt werden, wenn es bereits zu spät ist. Das möchten wir ändern“, beschreibt van der Walt ihre Motivation. In ihrem Projekt, das seit 2014 läuft und nun kurz vor dem Abschluss steht, hat sie sich auf das Problem der Pädophilie konzentriert.    

In einem ersten Schritt hat die Forscherin das Sozialenetzwerk nach Beiträgen mit den Worten „School“ und „Homework“ durchsucht. So ermittelte van der Walt 223.000 Twitter-Accounts und analysierte mit dem Future SOC Lab einen bereinigten Datensatz von 157.000 Accounts. In diesen speiste sie weitere 1.000 eigens gefälschte Nutzerkonten ein, die eine große statistische Ähnlichkeit zu anderen Fake-Accounts besitzen. Mittels der Metadaten wie Profilbild, Name, Erstellungsdatum, Standort und Zeitzone sollten überwachte Machine-Learning-Algorithmen selbständig erkennen, bei welchen Accounts es sich um Fälschungen handelt. Das Ergebnis war zunächst ernüchternd: Mit nur 58 Prozent korrekten Ergebnissen lag der Algorithmus nur knapp besser als Zufallsschätzungen.

Identity Deception Score soll bei Identifizierung falscher Accounts helfen

Auf Basis aktueller Forschungsergebnisse aus der Psychologie bezog van der Walt in einem nächsten Schritt andere Attribute mit ein: So etwa die Levenshtein-Distanz zwischen angegebenem Namen und Twitter-Synonym, die Distanz zwischen dem angegebenen Ort und der GPS-Location sowie die Unterschiede zwischen angegebenem Alter und Geschlecht auf der einen und der Profilbild-Analyse mittels Googles Vision API auf der anderen Seite. Durch die neuen Daten lagen die Berechnungen nun bei 78 Prozent korrekten Ergebnissen. Die Gewichtungen der einzelnen Faktoren, die der Algorithmus in seiner Black Box vornahm, nutzte die Forscherin für die Berechnung eines „Identity Deception Scores“. Er trifft Aussagen über die Wahrscheinlichkeit, mit der die Account-Daten von der Realität abweichen. Die so generierten „Red Flags“ unter den Twitter-Accounts können als Ausgangspunkt für polizeiliche Ermittlungen dienen, nach van der Walt aber auch Anlass geben, in einem künftigen Forschungsprojekt die tatsächlichen Tweets dieser Accounts zu analysieren. 

Dass ähnliche Datenmassen auch in ganz anderen Fachgebieten bearbeitet werden, zeigten beim „Future  SOC Lab Day“ etwa Forscher der brasilianischen Universidade Federal do Pará: Sie analysieren mithilfe des HPI Future SOC Lab die Sensordaten, die während des Metallverarbeitungsprozesses anfallen. Informatiker des Hasso-Plattner-Instituts präsentieren Möglichkeiten, Grafikprozessoren für Machine-Learning-Berechnungen in Unternehmen anzuwenden.   

Seit Eröffnung des HPI-Spitzenforschungslabors 2010 haben Experten aus über 20 Nationen die Infrastruktur für rund 370 Forschungsprojekte genutzt. Am Mittwoch entscheidet die Steuerungsgruppe des HPI-Spitzenforschungslabors über 32 neue Projektanträge, die aus 22 verschiedenen Forschungsinstituten aus aller Welt am HPI Future SOC Lab eingereicht wurden. Das Labor bietet Wissenschaftlern kostenlos die neuesten Technologien für die Erforschung und die Analyse riesiger Datenmengen in Echtzeit.

Die Teilnehmer des "Future SOC Lab Day" (Foto: HPI/F. Flemming)