Hintergrundbild mit Farbverlauf

Wie Entwickler:innen die Arbeit mit GenAI erleben

HPI-Doktorandin Charlotte Brandebusemeyer während einer Präsentation

KI-gestützte Programmiertools wie GitHub Copilot versprechen eine höhere Produktivität – doch wie erleben Entwicklerinnen und Entwickler die Arbeit mit Generativer KI (GenAI) tatsächlich? Eine aktuelle Studie von HPI-Doktorandin Charlotte Brandebusemeyer untersucht, wie professionelle Programmierer:innen in ihrer realen Arbeitsumgebung mit GenAI interagieren. 

Um diese Frage zu beantworten und einen realistischen Eindruck zu gewinnen, führte Charlotte Brandebusemeyer eine empirische Mixed-Methods-Studie an zwei SAP-Standorten in den USA durch. Sie kombinierte reale Verhaltensdaten mit den persönlichen Erfahrungen der Entwickler:innen bei der Arbeit mit GenAI. Die Forschung ist Teil eines Kooperationsprojekts zwischen dem HPI und SAP mit den Projektbetreuern Prof. Bert Arnrich, Leiter des Fachgebiets "Digital Health – Connected Healthcare", und Prof. Tobias Schimmer, Leiter Developer Experience bei SAP. Die Ergebnisse der Studie wurden für die Veröffentlichung auf der International Conference on Software Engineering (ICSE 2026) im Track Software Engineering in Practice (SEIP) angenommen. Im April wird Charlotte Brandebusemeyer ihre Arbeit auf der Konferenz in Rio de Janeiro/Brasilien vorstellen. 

Die Ergebnisse der Studie zeigen, dass eine moderate Nutzung von GenAI – etwa durch Code-Vorschläge im Editor oder Chat-Prompts – die Effizienz steigert und die wahrgenommene Arbeitsbelastung bei Arbeitsaufgaben reduziert. Eine zu intensive oder kombinierte Nutzung kann diese Vorteile jedoch verringern. Die Studie liefert wertvolle Erkenntnisse sowohl für die akademische Forschung als auch für die Praxis in der Industrie und unterstreicht die Bedeutung einer menschenzentrierten, ganzheitlichen Betrachtung von Produktivität und den Erfahrungen von Entwickler:innen. 

Der Preprint des Konferenzpapers von Charlotte Brandebusemeyer "Developers’ Experience with Generative AI – First Insights from an Empirical Mixed-Methods Field Study" ist hier zu finden. 


Wir haben Charlotte Brandebusemeyer zu ihrem Forschungsprojekt befragt. 

Hasso-Plattner-Institut: Was hat dich in der Studie am meisten überrascht, was die tatsächliche Nutzung von KI durch Entwickler:innen betrifft? 

Charlotte Brandebusemeyer: Mich hat überrascht, wie unterschiedlich Entwickler:innen GenAI in ihrem Arbeitsalltag einsetzen und wie entscheidend es für Effizienzgewinne und eine geringere wahrgenommene Arbeitsbelastung ist, für jede Aufgabe die richtige Interaktionsform zu wählen. 

HPI: Welchen Ansatz hast du in deiner Studie verfolgt? 

Charlotte: Mir war es wichtig, die Entwickler:innen in den Mittelpunkt der Studie zu stellen. Ein Großteil der Forschung konzentriert sich auf Produktivitätsgewinne und die Qualität der Ergebnisse von KI-Modellen, doch die Erfahrungen und das Wohlbefinden der Menschen, die diese Werkzeuge nutzen, werden oft vernachlässigt. Um einen realistischen Eindruck zu gewinnen, führten wir eine Studie mit professionellen Entwickler:innen direkt in ihrer alltäglichen Arbeitsumgebung durch. Indem wir ihnen sowohl strukturierte Aufgaben gaben als auch ihren natürlichen Arbeitsalltag dokumentieren ließen und Daten aus Umfragen, Bildschirmaufzeichnungen und physiologischen Messungen von Armbändern kombinierten, konnten wir ein breites und detailliertes Bild davon erfassen, wie Entwickler:innen im realen Leben mit GenAI interagieren. 

HPI: Warum führt eine moderate Nutzung von KI-Unterstützung zu besseren Ergebnissen als eine intensive oder kombinierte Nutzung? 

Charlotte: Wir haben festgestellt, dass es einen großen Unterschied macht, wie Entwickler:innen Copilot nutzen. Eine intensive Verwendung von Code-Vorschlägen im Editor spiegelt häufig einen Trial-and-Error-Ansatz wider, bei dem viel Code generiert, aber auch wieder gelöscht wird. Eine starke Nutzung des Chat-Dialogs deutet darauf hin, dass Probleme im Code bestehen bleiben oder weitere Erklärungen benötigt werden. Die gleichzeitige Nutzung von Code-Vorschlägen und Chat-Prompts für dieselbe Aufgabe kann darauf hindeuten, dass die zunächst gewählte Interaktionsform ungeeignet war, um das konkrete Problem zu lösen. Das führt zu zusätzlicher kognitiver Belastung, da die Art der Interaktion mit Copilot gewechselt wird und kleine Unterbrechungen im Arbeitsfluss entstehen. Die zentrale Erkenntnis lautet: Wer von Anfang an die passende Interaktionsform für eine Aufgabe wählt, kann den größten Nutzen aus KI-gestützten Programmierwerkzeugen ziehen. 

HPI: Wie kann ich entscheiden, welche Art von Copilot-Interaktion für eine konkrete Aufgabe am besten geeignet ist? 

Charlotte: Als Faustregel gilt: Einfache Programmieraufgaben, die nur einen kleinen Ausschnitt des Codes als Kontext benötigen und keine langen Erklärungen erfordern, funktionieren gut mit Code-Vorschlägen im Editor. Für komplexere oder nicht rein programmierbezogene Aufgaben – etwa Brainstorming, das Schreiben von Zusammenfassungen, Debugging oder die Erkundung einer großen Codebasis – ist die Chat-Interaktion meist hilfreicher. Generell lassen sich Aufgaben, die höheres Denken, Kontextverständnis oder kreative Problemlösung erfordern, durch die dialogartige Natur des Chats besser bewältigen. 

HPI: Welche konkreten Lehren können Unternehmen aus den Ergebnissen zur Nutzung von Generativer KI im Programmieralltag ziehen? 

Charlotte: Es ist wichtig, Mitarbeitende darin zu schulen, wie sie effektiv mit GenAI interagieren. Unternehmen könnten einen Studienaufbau ähnlich dem von uns entwickelten nutzen, um neue KI-Werkzeuge für ihre spezifischen Anwendungsfälle zu testen und zu sehen, wie Entwickler:innen damit interagieren und ob sie hilfreich sind. So lassen sich die optimalen Anwendungsbereiche eines KI-Tools für verschiedene Aufgaben bestimmen und seine Vorteile voll ausschöpfen – was zu einer produktiveren und angenehmeren Erfahrung und Interaktion für die Entwickler:innen führt. 

HPI: Charlotte, vielen Dank für das Interview.