Hintergrundbild mit Farbverlauf

Nasri Ferdous löst ein weltweit bekanntes Problem der Bioinformatik

Ein Foto von Nasri Ferdous auf dem HPI-Campus

Als der Blogpost von Anthropic online ging, ahnt Ferdous Nasri nicht, wie groß das Echo sein würde. Sie dachte: Okay, der Text geht bald online, alles entspannt.

Stattdessen: eine Flut an Mails. Nachrichten aus der Community. Kooperationsanfragen. Rückmeldungen von Menschen, die schrieben: „Danke, dass ihr eine Lösung habt.“ Da wurde ihr klar, wie viele Forschende weltweit auf genau diese Lösung gewartet hatten und wie sehr ihre Arbeit einen Nerv getroffen hatte. Ferdous Nasri ist Doktorandin am HPI und verbindet mit ihrer Forschung Bioinformatik, KI und globale Gesundheit. In ihrem aktuellen Projekt behandelt sie mit ihrem Team die Frage:

Was passiert, wenn KI-Agenten biologische Daten abfragen sollen, aber die Datenwelt gar nicht für KI gebaut wurde?

Ferdous erklärt das mit diesem Bild:

Biologische Datenbanken sind oft wie alte europäische Städte: verwinkelt, voller kleiner Straßen. Bestens geeignet für Expert:innen, die wissen, welche Wege funktionieren und wo man besser nicht blind vertraut.

KI-Agenten hingegen kommen eher wie hochmotorisierte Sportwagen in diese Stadt. Die alten, verwinkelten Straßen sind nicht für sie gemacht. Also nehmen sie Abkürzungen und liefern eine Antwort, die überzeugend klingt, aber nicht zuverlässig ist.

Übersetzt in die Bioinformatik heißt das: Weltweit laden Labore genetische Virusdaten in internationale Datenbanken wie die des National Center for Biotechnology Information (NCBI). Forschende nutzen diese Daten, um Ausbrüche und Varianten nachzuverfolgen. Ferdous und ihr Team haben untersucht, wie gut KI-Agenten die Informationen aus diesen Datenbanken abrufen können.

Das Team formulierte einen Benchmark, VirBench, 120 typische Abfragen zu 40 Krankheitserregern und ließ verschiedene KI-Agenten die passenden Datensätze suchen. Das klappte nicht zuverlässig. Und fehlerhafte Ausgaben sind heikel. Denn die Ausgaben können Grundlage dafür sein, wie Ausbrüche eingeschätzt oder Varianten beobachtet werden.

Für die Untersuchungen brauchte das Team Zugang zu leistungsfähigen Modellen und ein großes Rechenbudget. Anthropic und OpenAI stellten dafür Tokens bereit. Die transatlantische Zusammenarbeit dahinter baute Ferdous Stück für Stück auf. Sie initiierte und koordinierte die Kooperation mit dem Broad Institute of MIT and Harvard, und dem NCBI. Anthropic veröffentlichte später außerdem einen Blogpost zur Arbeit.

Denn das Team um Ferdous Nasri hat eine Lösung gebaut: gget virus.

Wenn wir wieder an die alte, europäische Stadt denken, dann hat das neue Tool eine neue Straße unter die alte Stadt gelegt. Eine strukturierte Straße, auf der KI-Agenten und auch Menschen Virusdaten sauber abrufen können. Wenn etwas nicht funktioniert, wird das sichtbar gemacht.

Während viele die Arbeit mit Daten als langweilig empfinden, ist es für Ferdous das essentielle Fundament.

Sie erklärt, dass ohne verlässliche Daten auch das beste Modell keine verlässliche Antwort geben wird. Und während alle über größere Modelle, bessere Agenten, klügere Prompts sprechen, sollten gute Daten der erste Fokus sein, denn:

Wir können uns aus diesem Daten-Bottleneck nicht einfach herausprompten.

Schon jetzt ist Ferdous wieder unterwegs: Die wissenschaftliche Ausarbeitung ihrer Untersuchung ist auf dem Weg in ein Fachjournal, auf Konferenzen sammelt sie Feedback. Und einige Labore haben sich gemeldet – sie nutzen das Tool schon.

Zum Team gehören außerdem: Laura Luebbert, Sarah Gurev, Krithik Ramesh, Patrick Varilly, Nuala Oleary, Jonah Cool, Pardis Sabeti, Bernhard Renard.

Lies hier den Anthropic-Artikel!