Was wäre, wenn KI ihre Schwächen eingesteht?

Ein Foto mit den beiden HPI-Doktoranden Roi Cohen und Konstantin Dobler. Beide zucken mit den Schultern und heben die Hände.

“Ich weiß es nicht.” Vier Worte, die wir Menschen eigentlich oft nutzen (sollten). Kaum etwas ist unangenehmer, als ein Gegenüber mit übersteigertem Selbstwertgefühl und der nicht vorhandenen Fähigkeit, eigene Wissens-Grenzen zu benennen.

Wären die aktuellen großen Sprachmodelle ein Mensch, dann also ein ziemlich unangenehmer. Die größte Schwäche: LLMs geben immer eine Antwort – sogar dann, wenn ihnen das dafür notwendige Wissen fehlt. Doch haben Konstantin Dobler und Roi Cohen dafür eine Lösung? Konstantin, Doktorand im Bereich KI und Sprachmodelle am HPI, sagt:

Momentan ist man mit einem blinden Vertrauen in Systeme wie ChatGPT nicht gut beraten. Leider werden diese Antworten durchaus oft für bare Münze genommen. Umso wichtiger wird es also, zu erkennen, wann Anfragen die Fähigkeiten oder das Wissen des aktuellen Systems übersteigen

Gemeinsam mit Roi Cohen beschäftigt sich Konstantin mit verantwortungsvoller KI, wie Desinformation reduziert werden und sogenannte Halluzinationen – Antworten ohne Wissensgrundlage - vermieden werden können. Beide sind Doktoranden am Lehrstuhl von KI-Prof. Dr. Gerard de Melo.

Ein Foto der beiden HPI-Doktoranden Konstantin Dobler und Roi Cohen — Die beiden HPI-Doktoranden Konstantin Dobler (li.) und Roi Cohen

Hasso-Plattner-Institut (HPI): Wie funktioniert das Modell?

Roi Cohen: Normale Sprachmodelle generieren Texte zerstückelt in Wortteile – sogenannte “Tokens”. Unser IDK-Modell verfügt neben normalen Tokens auch über ein besonderes I Don’t Know Token (IDK-Token), das anstelle einer normalen Vorhersage generiert wird, wenn die Vorhersage mit großer Unsicherheit verbunden ist. Wenn so ein Modell nun Fragen beantworten soll, deren Antwort es nicht gelernt hat, würde es normalerweise trotzdem eine (unsichere) Antwort geben – sogenannte Halluzinationen. Durch das IDK-Token kann diese Unsicherheit stattdessen aber explizit ausgedrückt werden.

HPI: Inwieweit ist das, woran ihr forscht, neu?

Konstantin Dobler: Unsere Methode ist zum einen neu, weil wir keine besonderen Daten benötigen, um unser IDK-Modell zu trainieren. Wir nutzen beliebige Texte, die kein besonderes Format haben müssen, um eine Repräsentation von Unsicherheit zu lernen. Außerdem ist der Ansatz neu, die Unsicherheit als ein neues Token zu repräsentieren.

HPI: Wie erlangt so ein Model denn die Fähigkeit, zu erraten, dass es falsch liegen könnte?

Roi: Wir nutzen ein bereits vortrainiertes Modell, das bereits Wissen und Sprachverständnis gelernt hat. Nun geben wir diesem Modell Texte als Input und schauen uns an, bei welchen Tokens das Modell eine falsche Antwort gibt. Unsere Methode trainiert nun das Modell, die richtigen Antworten beizubehalten, aber anstelle der falschen Antworten unser IDK-Token zu wählen. Um diese Aufgabe gut zu lösen, muss das Modell lernen, die (Un-)Sicherheit in den eigenen Antworten intern zu repräsentieren. Diese gelernte Repräsentation wird dann genutzt, um das IDK-Token statt falscher Antworten zu geben, wenn diese Unsicherheit zu groß ist.

Wichtig ist, dass wir nicht bloß für bestimmte Frage-Antwort Paare lernen, ob das zugrundeliegende Modell die richtige Antwort geben kann. Die gelernte innere Repräsentation von Unsicherheit ist allgemeiner und kann eben auch für Inhalte genutzt werden, die im Training nicht gesehen wurden.

HPI: Warum gibt es so etwas denn nicht schon überall?

Konstantin: Das Problem von Halluzinationen ist in der Forschungsgemeinde durchaus sehr präsent und wird auch aktiv bearbeitet. Tatsächlich muss man sagen, dass wir es mit einem sehr schweren Problem mit vielen Facetten zu tun haben und auch unsere Methode nicht perfekt ist, sondern nur ein Schritt in die richtige Richtung. Besonders die Kalibrierung ist wichtig: ein Modell, das immer “I Don’t Know” zurückgibt, gibt mir zwar keine falschen Antworten, ist aber auch nicht besonders nützlich. Manchmal gibt es mehrere richtige Antworten und in anderen Fällen (z.B. dem Schreiben von Geschichten oder anderen kreativen Aufgaben) gibt es gar kein definiertes Richtig oder Falsch.

Um den Einsatz in kommerziellen Systemen wie ChatGPT zu finden, müssen also sehr viele verschiedene Anwendungskontexte gut abgedeckt werden.

HPI: Warum ist dieses “Fehler zugeben” so wichtig?

Roi: Eine große Schwäche von aktuellen Sprachmodellen ist, dass sie eben immer eine Antwort geben, auch wenn das zugrundeliegende Wissen fehlt. Wenn ich ChatGPT nutze, muss ich mich immer fragen, ob die Antwort halluziniert ist, besonders in etwas komplexeren Themengebieten und Fragestellungen. Momentan ist man mit einem blinden Vertrauen in Systeme wie ChatGPT nicht gut beraten. Leider werden diese Antworten durchaus oft für bare Münze genommen. Die vielen tollen Fähigkeiten von Sprachmodellen wollen wir aber auch nicht mehr missen. Je mehr ChatGPT & Co. verwendet werden, desto wichtiger wird es also, zu erkennen, wann Anfragen die Fähigkeiten oder das Wissen des aktuellen Systems übersteigen.

Roi und Konstantin werden auf jeden Fall weiter forschen, mit dem Ziel, ihre Methode zu verbessern. Insbesondere wollen sie auch herausfinden, was sie tun können, um Modellen dabei zu helfen, doch korrekte Antworten zu geben, wenn Unsicherheit erkannt wird. Dies kann etwa durch mehr Rechenzeit oder relevante Kontexte aus weiteren Quellen geschehen.

Zum Paper

Danke an Konstantin Dobler und Roi Cohen für Eure Zeit!

Was wäre, wenn KI ihre Schwächen eingesteht?

Weitere Artikel