Professor Georg Kaissis, Fachgebietsleiter "Digital Health: Human-Centered Transformative AI" am HPI, ist Teil eines Forschungsteams von HPI, TUM und Imperial College London, das diese Woche eine Arbeit in "Nature" veröffentlicht hat.
Das Team forscht daran, wie sicher medizinische KI-Modelle wirklich mit sensiblen Patient:innendaten umgehen. Die Arbeit zeigt, dass Angreifer:innen unter bestimmten Umständen herausfinden könnten, ob die Daten einer bestimmten Person zum Training eines KI-Modells verwendet wurden. Wir haben Prof. Georg Kaissis zum Interview getroffen.
Hasso-Plattner-Institut (HPI): Was war der Ausgangspunkt deiner Forschung? Gab es eine konkrete Beobachtung, Sorge oder Entwicklung im Bereich medizinischer KI, die euch dazu veranlasst hat, Datenschutzrisiken genauer zu untersuchen?
Prof. Georg Kaissis: Medizinische KI wird zunehmend in der Praxis eingesetzt, und diese Modelle werden auf hochsensiblen Patientendaten trainiert. Dass sich aus einem fertig trainierten Modell Informationen über seine Trainingsdaten zurückgewinnen lassen, ist seit Längerem bekannt, etwa über sogenannte Membership-Inference-Angriffe, die verraten, ob die Daten einer bestimmten Person zum Training verwendet wurden.
Was uns dabei gestört hat: Bisher wurde dieses Risiko fast immer als Durchschnitt über einen gesamten Datensatz gemessen. Genau dadurch verschwindet aber die Information, die für die einzelne Patientin oder den einzelnen Patienten zählt. Ein gemittelter Wert kann unbedenklich aussehen, während einzelne Personen einem nahezu perfekten Angriff ausgesetzt sind.
Hinzu kommt, dass Menschen in klinischen Datensätzen meist nicht einen, sondern viele ähnliche Datensätze beitragen, was das individuelle Risiko weiter erhöht. Und in bestimmten Konstellationen ist schon die bloße Zugehörigkeit zu einem Trainingsdatensatz hochsensibel: Liegen die Daten einer Person im Trainingsdatensatz eines Modells, das das Ansprechen auf eine Krebs-Immuntherapie vorhersagt, dann verrät ein erfolgreicher Angriff allein durch diese Mitgliedschaft, dass die Person an Krebs erkrankt ist. Das war für uns der Anlass, das Risiko erstmals konsequent auf der Ebene einzelner Patientinnen und Patienten zu untersuchen.
HPI: Was ist die zentrale Erkenntnis des Papers?
Prof. Kaissis: KI-Modelle, die mit medizinischen Daten trainiert werden, können unbeabsichtigt preisgeben, dass die Daten einer bestimmten Person zum Training verwendet wurden, und dieses Risiko trifft einzelne Menschen, häufig aus ohnehin benachteiligten Gruppen, sehr viel härter, als es Durchschnittswerte vermuten lassen.
HPI: Warum sind Privatsphärenrisiken bei medizinischen KI-Modellen besonders relevant – was könnte im schlimmsten Fall für Patient:innen passieren?
Prof. Kaissis: Bei den meisten Daten ist es nicht weiter dramatisch, wenn jemand erfährt, dass man Teil eines Datensatzes war. In der Medizin ist das anders: Hier kann allein die Mitgliedschaft in einem Trainingsdatensatz hochsensible Informationen offenlegen.
Wird ein Modell auf einer spezifischen Patientengruppe trainiert, etwa Menschen mit einer bestimmten Krebs- oder einer psychiatrischen Diagnose, dann ist der Nachweis, dass die Daten einer Person zum Training gehörten, faktisch der Nachweis, dass diese Person diese Diagnose hat. Im schlimmsten Fall lässt sich so die sensibelste medizinische Information eines Menschen aufdecken, ohne dass je direkt auf eine Krankenakte zugegriffen wird.
Erschwerend kommt hinzu, dass der von uns untersuchte Angriff sehr niederschwellig ist: Er funktioniert über die normale Vorhersageschnittstelle eines Modells und benötigt im Prinzip nur eine einzige Anfrage, er steht also jedem offen, der das Modell wie ein gewöhnlicher Nutzer verwenden kann.
Besonders besorgniserregend finde ich, dass dieses Risiko ungleich verteilt ist: Gerade Menschen aus unterrepräsentierten Gruppen sind überdurchschnittlich häufig betroffen. Damit droht ausgerechnet jenen Gruppen die größte Datenschutzlast, die ohnehin schon mit schlechteren gesundheitlichen Ergebnissen konfrontiert sind, ein Muster, das bestehende Ungleichheiten im Gesundheitswesen weiter verschärfen könnte.
HPI: Was sollten Kliniken, Forschungseinrichtungen oder Entwickler:innen aus den Ergebnissen lernen?
Prof. Kaissis: Für mich ergeben sich drei zentrale Lehren. Erstens: Datenschutz-Audits müssen anders berichtet werden. Ein gemittelter Risikowert über einen gesamten Datensatz genügt nicht und kann das tatsächliche Risiko einzelner Personen massiv unterschätzen. Wir müssen das Angriffsrisiko auf der Ebene einzelner Datenbeitragender ausweisen, oder, wo keine Personen-Identifikatoren vorliegen, zumindest auf der Ebene einzelner Datensätze.
Zweitens: Größer ist nicht automatisch besser. Mit der Modellgröße steigt nicht nur die diagnostische Leistung, sondern oft auch das Datenschutzrisiko, in unseren Experimenten teils um Größenordnungen. Entwicklerinnen und Entwickler sollten daher bewusst abwägen, ob der zusätzliche Leistungsgewinn eines sehr großen Modells den Preis an Privatsphäre wert ist.
Drittens: Es gibt wirksame Gegenmaßnahmen, und wir sollten sie einsetzen. Mathematisch beweisbare Verfahren wie Differential Privacy schützen nachweislich die Daten jeder einzelnen Person, unabhängig davon, wie einzigartig oder untypisch diese sind. Wichtig ist dabei, den Schutz auf Patientenebene und nicht nur auf der Ebene einzelner Datensätze anzusetzen, da Menschen oft mehrere Datensätze beitragen. Wo das nicht möglich ist, braucht es zumindest strenge Zugangskontrollen zu den Modellen.
Und schließlich sollten alle Beteiligten im Blick behalten, dass das Risiko ungleich verteilt ist, teils auf eine Weise, die für Fachleute gar nicht erkennbar ist, etwa bei selbstberichteter ethnischer Zugehörigkeit auf Röntgenbildern. Datenschutz ist damit immer auch eine Frage der Fairness.
Vielen Dank für das Interview!
Das Paper der Forschungsgruppe gibt es zu Lesen unter: https://www.nature.com/articles/s41586-026-10688-0
Weitere Artikel
Ansprechpersonen
Julia Gühlholtz
Pressereferentin / Wissenschaftskommunikation
Tel.: +49 331 5509-1358
E-Mail: presse@hpi.de