Naumann wird in seinem Massive Open Online Course (MOOC) aktuelle Schlagworte aus Beruf und Alltag herausgreifen und diese allgemeinverständlich erklären. Erläutert wird, welche Technologien hinter den in der Öffentlichkeit viel diskutierten Begriffen wie Big Data, Data Science, Data Engineering, Cloud Computing, Data und Text Mining, Machine Learning und Künstliche Intelligenz (KI) stehen und wie sie verwendet werden. Naumann hat sich in der Audio-Reihe „HPI-Wissenspodcasts“ soeben auch zum Thema „Das schmutzige Geschäft des Data Science“ geäußert.
Schwerpunkt liegt auf Data Engineering
Den Kursschwerpunkt legt der Informatikprofessor, der am HPI auch Sprecher des Forschungskollegs "Data Science and Engineering" ist, auf das Data Engineering, also die grundlegenden Datentechnologien, welche Deep Learning und KI erst ermöglichen. „Wir benennen alle diese Technologien und erklären jeweils in kurzen Videos von drei bis fünf Minuten Länge, was sie generell leisten“, so Naumann. Pro Kurswoche stellt er zusammengerechnet bis zu zwei Stunden Videomaterial bereit.
So sollen die Teilnehmer die typischen Arbeitsschritte eines Data Scientist nachvollziehen können: Datenbeschaffung, Datenreinigung und Datenintegration. Außerdem wird gezeigt, wie man durch Data Mining und maschinelles Lernen Erkenntnisse aus dem Datenmaterial gewinnen kann. Den Schluss bildet eine Diskussion über Ethik und Fairness bei der automatisierten Datenanalyse.
Mitreden können in der Diskussion um „Big Data“
In dem Kurs gehe es nicht darum, wie genau die vorgestellten Technologien funktionieren, betont der Kursleiter. Die Teilnehmer lernten also keine komplexen Algorithmen, Verfahren oder Programmiersprachen kennen. Dementsprechend sind die Selbsttests, Hausaufgaben und Prüfungen des kostenlosen Onlinekurses auch nicht auf Anwendungswissen konzentriert, sondern stellen unter anderem kleine Rechercheaufgaben. Für die Bewältigung der Aufgaben müssen die Teilnehmer laut Kursleiter mit etwa dem gleichen Zeitaufwand rechnen wie fürs Anschauen der Videos, also zwei Stunden. Naumann hofft auf rege Debatten im Nutzer-Forum von openHPI.