Hintergrundbild mit Farbverlauf

KI-Stimmenimitator: Der Zwischenton macht die Musik

HPI-Student Kajo Kratzenstein

Bisher waren KI-Stimmen am Telefon ziemlich lästig – eindeutig künstlich, kaum intelligent. Doch inzwischen kommen immer mehr KI-Sprachmodelle auf den Markt, die bisherige künstliche Stimmen in den Schatten stellen. Eines davon hat HPI-Masterstudent Kajo Kratzenstein am KI-Servicezentrum entwickelt.  

Sprache wird durch Fehler perfekt 

Ein kurzer Beispielsatz, eingesprochen über den Laptop, und wenige Sekunden Geduld reichen. Schon kann die KI, die Kajo Kratzenstein entwickelt hat, jeden erdenklichen Satz in dieser Stimme sprechen. Das Ergebnis klingt zum Verwechseln ähnlich. Aufnahmen mit professionellen Studio-Mikrofonen liefern sogar Ergebnisse, die vom Original nicht zu unterscheiden sind. 

Was die Stimmenimitation von Kajos Text-to-Speech-KI (TTS) so verblüffend realistisch macht, sind nicht die Worte. Es sind die Pausen, das Räuspern, die Stolperer. "Unser Modell schafft es erstmals, Deutsche Sprache realistisch auszuspielen. Die Stimmen können unzählige Feinheiten wiedergeben, zum Beispiel Freude, Trauer, sogar Trunkenheit."

Modell-Kombination bringt Durchbruch 

Möglich wird das mittels der Kombination eines Diffusion- und eines Large-Language-Modells (LLM). Durch die Hinzunahme eines Sprachmodells versteht die KI, was sie sagen soll – inklusive subtiler Emotionen, Haltungen und Zustände. "Das LLM übernimmt das ‚Heavy Lifting‘, interpretiert den Text. Im Anschluss sorgt das Diffusion-Modell für die Feinheiten, baut also auf Basis des Textverständnisses aus dem LLM all die kleinen Nuancen ein, die Sprache natürlich klingen lassen." 

Dieses Prinzip ist noch jung, aber nicht völlig neu. Die Innovation im Modell von Kajo ist, dass es erstmals explizit für die deutsche Sprache umgesetzt wurde und nachweislich sehr gut funktioniert. In einem dreistufigen Test hat er mit anonymen Tester:innen die Qualität des Modells geprüft. "Zuerst sollten zwei KI-Sprechproben verglichen werden, dann eine Originalstimme mit zwei KI-Sprechproben. Beim dritten Test sollten die Tester:innen aus zwei Beispielen entscheiden, welches Mensch und welches Maschine ist", sagt Kajo. Der Clou: Beim dritten Test waren alle Stimmen KI-generiert. Die Fragestellung sollte dafür sorgen, dass die Tester:innen möglichst unvoreingenommen sind. Das Ergebnis aus den Proben: Kajos KI kann es mit den Marktführern aufnehmen. 

Open-Source-Daten fürs Open-Source-Modell 

Die Arbeit an einem deutschen TTS-Modell begann Anfang 2024 am KI-Servicezentrum Berlin-Brandenburg. Dabei handelt es sich um ein vom Bundesministerium für Bildung und Forschung gefördertes Projekt am Hasso-Plattner-Institut, mit dem Ziel, den Einsatz von Künstlicher Intelligenz in Wirtschaft und Gesellschaft zu fördern. Es bietet kostenfrei Beratungsleistungen, Bildungsangebote und Infrastruktur, um KI-Anwendungen zu entwickeln, zu betreiben und erfolgreich einzusetzen.  

Das ursprüngliche Team um die damalige HPI-Doktorantin Johanna Reiml, Kajo sowie die Studenten Carlos Menke und Enes Sürmeli versuchte zunächst, eine existierende Sprach-KI auf Deutsch zu optimieren. Nachdem das Team seine Ergebnisse veröffentlichte, bekam es massenhaft Anfragen von Menschen und Unternehmen, die das Modell nutzen wollten. So begann die Arbeit, aus einem kleinen Showcase ein vollständiges TTS-Modell zu bauen. Den heutigen Stand hat Kajo schließlich weitgehend allein weiterentwickelt. 

Als Basis nutzte er dafür das Open-Source-Modell "VibeVoice" von Microsoft. Um es auf deutsche Stimmenimitationen zu optimieren, trainierte er es ab Sommer 2025 mit dem Open-Source-Datensatz "Yodas2", der aus rund zwölf Millionen Minuten deutscher Youtube-Videos unter Creative-Commons-Lizenzen besteht. Auf diese Weise stellte Kajo sicher, dass ihr Modell künftig kommerziell genutzt werden kann und für jeden zugänglich wird. Nach etwas mehr als einem halben Jahr Arbeit ist das Modell nun tatsächlich fertig und für jede:n kostenlos verfügbar. "Am freien Markt wäre das kaum möglich. In die Entwicklung unseres Modells ist Rechenleistung eingeflossen, die ohne die Ressourcen des KI-Servicezentrums mehr als 200.000 Euro gekostet hätte", sagt Kajo. Mit seiner KI können jetzt beispielsweise Telefonagenten deutlich verbessert werden und gesprochene Konversationen mit Computern, etwa andere KI-Tools oder interaktive Systeme in Fahrzeugen, viel natürlicher klingen. 

Doppelte Absicherung gegen Missbrauch 

Eine allzu realistische KI zur Stimmenimitation birgt jedoch auch Risiken. Darum hat Kajo zwei Sicherungsmechanismen in sein TTS-Modell eingebaut. Die erste Sicherung ist technisch: Ein für das menschliche Ohr nicht hörbares, aber maschinell auslesbares „Wasserzeichen“ identifiziert die Stimmen aus dem Modell als eindeutig KI-generiert. Während dieser Schutz erst in einer nachträglichen Analyse wirkt, greift der zweite schon vor der Generierung einer Stimme. "Wir haben das Klonen von Stimmen aus dem öffentlichen Modell herausgeschnitten", sagt Kajo. Wer also eine neue Stimme zur Imitation ins Modell einspeisen will, muss diese bereits kontrollieren: "Für einen neuen Stimm-Klon muss man zu uns ans KI-Servicezentrum kommen und von uns definierte Beispielsätze einsprechen. Man kann nicht einfach beliebig irgendwelche Stimmen einbauen", sagt Kajo. 

So bietet Kajos KI ein sicheres, DSGVO-konformes TTS-Modell, das auf europäischen Servern gehostet wird – und weckt Hoffnung auf ein baldiges Ende von Telefonrobotern, die eher Frust als Effizienz erzeugen.

HPI-Student Kajo Kratzenstein zeigt den KI-Stimmenimitator auf seinem Smartphone