Hasso-Plattner-Institut
 

Wie Dolly große Sprachmodelle demokratisieren kann

Matei Zaharia zu Gast im ersten KISZ-Talk des KI-Servicezentrums Berlin-Brandenburg

Die Entwicklung großer Sprachmodelle (Large Language Models) verläuft rasant. Zunehmend stellt sich die Frage: wie können breite Teile der Gesellschaft und die Wirtschaft von LLMs nachhaltig profitieren – zum Beispiel auch kleinere und mittelgroße Unternehmen? Oder auch die Wissenschaft? Eine Lösung ist Dolly 2.0. Matei Zaharia hat das Projekt am Hasso-Plattner-Institut vorgestellt.

Matei Zaharia

Der Hörsaal war gut gefüllt und das Interesse am Vortrag von Matei Zaharia groß. Der Associate Professor für Computer Science an der Standford University ist Mitbegründer und Chief Technologist von Databricks, einem Startup für Daten- und KI-Plattformen. Vor wenigen Wochen hat das Unternehmen Dolly 2.0 präsentiert – das erste open source LLM, das individualisierte Anwendungen für alle möglich macht.

Matei Zaharia skizziert in seiner Präsentation zunächst den Ausgangspunkt dieser Idee. Er beschreibt den Vorteil großer Sprachmodelle: „LLMs revolutionieren jedes User-Interface und analysieren unstrukturierte Textdaten.“ Damit alle an diesem Fortschritt teilhaben können, müsse es leichter werden, auch eigene, individualisierte Sprachmodelle zu bauen. Databricks stellt dafür Dolly 2.0 als Open-Source-Lösung zur Verfügung. Das bedeutet, dass jedes Unternehmen leistungsstarke LLMs selbst erstellen, besitzen und an die eigenen Bedürfnisse anpassen kann.

Die Vorteile liegen aus Sicht von Matei Zaharia auf der Hand. Mit diesem Ansatz würde mehr Unabhängigkeit von bisherigen Sprachmodellen erreicht. Gleichzeitig ließen sich Anforderungen des Datenschutzes besser erfüllen, weil keine Daten mit Dritten geteilt werden müssen. Dieses Modell sei zudem leistungsstärker, weil es weniger Daten nutzt. Dies sei kostengünstiger und schone darüber hinaus auch Ressourcen. Und nicht zuletzt erzielten Unternehmen dadurch eine bessere Qualität ihrer Anwendungen – und auch mehr Kontrolle über die Ergebnisse.

Nach dem Vortrag gab es aus dem Publikum eine Reihe von Fragen – unter anderem zur Funktionsweise von Dolly unter speziellen Bedingungen. Nutzt Dolly bestimmte Filter – und gibt es eine Content-Moderation? Wie verhält sich Dolly bei unterschiedlichen Sprachen? Was ist die Zukunft von freien und offenen Wissensdatenbanken, wie zum Beispiel wikidata? Wie viel Daten reichen aus, damit Dolly gute Ergebnisse liefern kann? Die Antworten von Matei Zaharia und sein gesamter Vortrag sind hier abrufbar.

Im Anschluss gab es Gelegenheit zum persönlichen Austausch. Matei Zaharia stand für weitere Fragen zur Verfügung. Außerdem wurde weiter über die Chancen großer Sprachmodelle diskutiert. Am Abend ging der erste KISZ-Talk des KI-Servicezentrums Berlin-Brandenburg am HPI zu Ende. Wir freuen uns auf viele spannende Gespräche in der Zukunft!