In unserem Alltag kommen wir häufig mit Künstlicher Intelligenz (KI) in Kontakt – sei es in der Gesundheitsversorgung, beim Recruiting oder wenn ein Streamingdienst uns den nächsten Film empfiehlt. Doch gut funktionierende KI-Anwendungen müssen vorab mit großen Mengen an Datensätzen trainiert werden. Dabei gilt einerseits: Je mehr Trainingsdaten desto besser. Ausschlaggebend für den Erfolg einer KI-Anwendung ist aber auch die Datenqualität, da es sonst leicht zu Fehlern oder Vorurteilen kommen kann.
In der neuen Folge des HPI-Wissenspodcasts Neuland „Ethik und KI: Die Verantwortung der Data Scientists“ erklären PD Dr. Jessica Heesen, Leiterin des Forschungsschwerpunkts Medienethik und Informationstechnik am Ethikzentrum der Universität Tübingen, und Prof. Dr. Felix Naumann, Leiter des Fachgebiets Informationssysteme am Hasso-Plattner-Institut (HPI), was hochwertige Daten sind und welche ethischen Probleme mit KI-Systemen einhergehen können. Derzeit erforschen beide Wissenschaftler:innen die Zusammenhänge zwischen KI, Ethik, Recht und Datenqualität im BMAS-geförderten KITQAR Projekt. Mit Moderator Leon Stebe sprechen sie über die weitreichenden Konsequenzen mangelhafter Traningsdaten und diskutieren, wie die breite Öffentlichkeit für das Thema noch stärker sensibilisiert und eine höhere Datensouveränität innerhalb der Gesellschaft gefördert werden kann.
Es sei überaus wichtig, dass bereits im Entwicklungsprozess bestimmte Wertvorstellungen einbezogen würden, um eine gemeinwohlorientierte KI-Anwendung zu generieren, die dem Nutzen der Gesellschaft dient und nicht nur großen KI-Konzernen. „Wenn der Prozess der Datenerhebung schon fragwürdig ist, ist es klar, dass die Daten nicht neutral sind und es schon während der Datenerhebung zu einem Bias kommen kann“, so Heesen. Deswegen sei es besonders wichtig bei den Daten, mit denen ein KI-Modell trainiert wird, Qualitätsmerkmale, wie etwa Fehlerfreiheit, Vollständigkeit und Diversität von Anfang an sicherzustellen, auch wenn das mit höheren Kosten einhergehe.
„Erschwerend kommt hinzu, dass Fehler oftmals erst später erkannt werden können, wenn ein KI-System eingangs mit mangelhaften Datensätzen trainiert wurde. Aufgrund der Komplexität der Modelle merken wir leider erst in der Anwendung, dass etwas schiefgelaufen ist“, ergänzt Naumann. Eine der Schlüsselkompetenzen, um die Tragweite, Konsequenzen und Fehleranfälligkeit besser einschätzen zu können, liege daher bei den Data Scientists. „Es gibt viele Verantwortliche, aber besonders die Data Scientists können die Auswirkungen noch am besten überblicken“, betont Naumann. Sie können aufzeigen, wie Trainingsdaten verfasst sind und welche Anforderungen in Bezug auf Datenqualität und –standards verfolgen sollten. Eine Sensibilisierung zum Thema Ethik und Recht in Bezug auf KI-Systeme sei deshalb schon während des Studiums wichtig, fügt Naumann hinzu. Zudem sei in Zukunft ein generelles Grundverständnis der Gesellschaft für KI und Machine Learning unabdingbar.
Fundiertes Wissen über die digitale Welt, anschaulich und verständlich erklärt – das bietet der Wissenspodcast „Neuland“ mit Experten des Hasso-Plattner-Instituts (HPI) unter: https://podcast.hpi.de, bei iTunes und Spotify. Einmal im Monat sprechen sie bei Neuland über aktuelle und gesellschaftlich relevante Digitalthemen, ihre Forschungsarbeit und über Chancen und Herausforderungen digitaler Trends und Entwicklungen.