23.08.2023

Wie leicht ist es, ChatGPT auch Geheimnisse zu entlocken, Prof. de Melo?

Große Sprachmodelle, wie ChatGPT oder Bard, sind beliebt – auch weil sie auf jede Frage eine Antwort finden. Aber nicht jede Antwort auf jede Frage ist ethisch erwünscht – zum Beispiel wie man Straftaten begeht oder wie man einen Computer angreift. Die Sprachmodelle sollen auf diese Fragen eigentlich keine Antworten liefern. Doch gelingt es immer wieder, positive Ergebnisse auf unerwünschte Fragen zu bekommen. "Jailbreaks" wird dieses Phänomen genannt. Prof. Gerard de Melo, der Leiter des Fachgebiets "Artificial Intelligence – Intelligent Systems" am HPI hat jüngst dem Tagesspiegel Background ein Interview dazu gegeben. Wir dokumentieren hier seine Antworten.

Wie einfach ist es, geschlossenen Sprachmodellen, wie Bard oder ChatGPT, Informationen zu entlocken, die sie eigentlich nicht preisgeben sollen?

Prof. de Melo: Immer wieder finden sich kreative Wege, den Modellen etwas zu entlocken. Im Internet werden viele Tipps dazu ausgetauscht. Wer sich ein wenig mit diesem Thema beschäftigt, kann sicherlich einen Weg finden. Das Ganze ist natürlich auch ein wenig wie ein Katz-und-Maus-Spiel, da bekannt gewordene Lücken auch immer wieder behoben werden.

Was sind die gängigsten Ansätze für solche Jailbreaks und wie gut lässt sich diesen im Rahmen des Finetunings vorbeugen?

Prof. de Melo: Am Anfang war es noch sehr einfach, durch kreatives Herumspielen mit ChatGPT eine Formulierung zu finden, die einen Jailbreak ermöglicht. Später wurden die Jailbreaks kreativer, z.B. durch die Nutzung von Prompts mit Programmcode. Inzwischen hat sich die Forschungsgemeinde intensiver mit Jailbreaks beschäftigt und neue automatische Verfahren zur Entdeckung von Jailbreaks entwickelt. (siehe z.B. der jüngst erschienene "Universal Jailbreak"). Sprachmodelle werden grundsätzlich nach statistischen Prinzipien trainiert, sodass wir auch nach der Absicherung der Modelle gegen Jailbreaks (oft durch Reinforcement Learning from Human Feedback, das allgemein bereits zum Trainieren von ChatGPT eingesetzt wird) immer nur sagen können, dass sie mit einer hohen Wahrscheinlichkeit funktioniert. Aktuell ist es nicht möglich, ein Sprachmodell vollständig abzusichern.

Welche Absichten stecken am häufigsten hinter solchen Jailbreaks? Welche Gefahren gehen damit einher?

Prof. de Melo: Oft steht tatsächlich nur die spielerische Herausforderung im Vordergrund, wenn Menschen nach Jailbreaks suchen. Wenn es gelingt, einem Sprachmodell einen fragwürdigen Witz oder Tipps zu einer illegalen Tätigkeit zu entlocken, ist in der Regel nicht viel gewonnen, denn vergleichbare Inhalte finden sich zuhauf ohnehin bereits im Internet. Primär führen derartige Antworten also zu einem möglichen Image-Schaden bei den KI-Unternehmen. In etlichen Fällen ist es aber auch gelungen, den Modellen die grundlegenden System-Prompts zu entlocken, die versteckt im Hintergrund für die richtige Verhaltensweise einer KI-Anwendung sorgen. Mit derartigen System-Prompts ist es oft jedem möglich, eine existierende KI-Anwendung nachzubauen, d.h. es gelangen durchaus wichtige unternehmensinterne Prompts an die Öffentlichkeit. Besonders tragisch wäre es, wenn noch sensiblere interne Daten eines Unternehmens aus dem Trainingsprozess des Modells an die Öffentlichkeit gerieten, etwa personenbezogene Daten. Dies ist bislang noch kein großes Thema gewesen, kann aber in Zukunft verstärkt passieren, wenn immer weitere Unternehmen ihre eigenen großen Sprachmodelle trainieren.

Ist zu erwarten, dass es Jailbreaks immer schwieriger werden, weil die Modelle sicherer werden – oder ist eher davon auszugehen, dass die Techniken der Jailbreaks immer besser werden, so dass sich das Problem letztlich nie lösen wird?

Prof. de Melo: Sicherlich werden Jailbreaks durch einfaches Ausprobieren verschiedener Prompts immer schwieriger, weil die Modelle immer besser dagegen abgesichert werden. Durch neue automatische Verfahren zur Entdeckung von Jailbreaks gibt es aber auch die entgegengesetzte Entwicklung. Im Moment ist das noch ein Katz-und-Maus-Spiel, aber ich denke, dass wir mittelfristig gänzlich neue Verfahren entwickeln können, mit denen Jailbreaks zunehmend weiter verhindert werden.

Die Fragen stellte Steffen Stierle vom Tagesspiegel Background "Digitalisierung & KI". Den Artikel gibt es hier.

Weitere Informationen zu "Jailbreaks" gibt es auch in unserem openHPI-Kurs zur generativen KI.