Gemini 2.5 Computer Use Model: Google bringt Browser-Agenten

Inhaltsverzeichnis

Was ist das Gemini 2.5 Computer Use Model?

Das Gemini 2.5 Computer Use Model ist ein spezialisiertes KI-Modell von Google DeepMind, das entwickelt wurde, um Web- und mobile Benutzeroberflächen visuell zu verstehen und mit ihnen zu interagieren. Google stellte das Modell am 7. Oktober 2025 in einer Preview vor; Entwickler können es über Google DeepMind Blog sowie über Gemini API und Vertex AI nutzen. Kurz gesagt: statt auf APIs zuzugreifen, kann das Modell wie ein Mensch klicken, scrollen und Formularfelder ausfüllen — nützlich dort, wo keine programmgesteuerte Schnittstelle existiert.

Wie funktioniert das Modell?

Technisch arbeitet das Computer-Use-Modell in einem iterativen Agenten-Loop: Die Anwendung sendet einen Nutzerauftrag plus einen Screenshot der aktuellen Oberfläche, das Modell antwortet mit konkreten UI-Aktionen (z. B. “klicken”, “tippen”, “ziehen”) und die Client-Seite führt die Aktion aus. Nach der Ausführung liefert die Anwendung einen neuen Screenshot zurück — der Kreislauf wiederholt sich, bis das Ziel erreicht ist. Google beschreibt diese Architektur in der Entwicklerdokumentation und stellt Beispiel-Implementierungen bereit, unter anderem mit einer Python-Referenz und Playwright-Integrationen.

Wofür eignet sich der Browser-Agent? (Use-Cases)

Das Modell ist primär für browserbasierte Aufgaben gedacht: automatisierte Formulareingaben, UI-Tests, Datensammlung über mehrere Websites oder das Durchführen von mehrstufigen Workflows in Web-Apps. Google demonstriert Szenarien wie das Eintragen von Kundendaten in CRMs, das Organisieren von Notizen in Web-Apps oder das Aufrufen von Informationen aus Seiten ohne API. Für mobile UI-Kontrolle zeigt die Dokumentation ebenfalls Optionen, die Implementierung ist aber noch nicht auf Desktop-OS-Steuerung ausgelegt.

Sicherheit, Grenzen und Entwicklerpflichten

Google weist ausdrücklich auf Sicherheits- und Zuverlässigkeitsanforderungen hin: das Modell ist als Preview verfügbar und kann Fehler oder Sicherheitslücken haben. Deshalb sind Sandbox-Umgebungen, eingeschränkte Browserprofile und ausdrücklich implementierte Bestätigungs-Workflows empfohlen. Aktionen, die risikoreich sind (zum Beispiel Zahlungen), können vom Modell mit einer require_confirmation-Markierung versehen werden — die Client-App muss dann eine explizite Nutzerbestätigung einholen. Auch die Dokumentation betont, dass man das System nicht für kritische Entscheidungen oder sensible Daten unbeaufsichtigt einsetzen sollte.

Leistung und Konkurrenz

Google nennt für das Gemini 2.5 Computer Use Model bessere Ergebnisse bei Web- und Mobile-Control-Benchmarks sowie geringere Latenz im Vergleich zu Alternativen. Fachmedien berichten, dass das Modell 13 vordefinierte UI-Aktionen unterstützt und in Demos flüssige Abläufe zeigt. Wichtig: Im Vergleich zu manchen Konkurrenzansätzen, die Betriebssystem-weit arbeiten, beschränkt sich Gemini 2.5 vorerst auf Browser- und (teilweise) Mobile-Interaktionen — ein bewusstes Design, das das Angriffs- und Fehlerrisiko limitiert.

Bedeutung für Entwickler und Anwender

Für Entwickler bedeutet die Preview, dass Tools für Automatisierung und Agenten deutlich einfacher zu bauen sind: Statt komplexer Parserskripte oder fragiler DOM-Selector-Logik liefert das Modell Handlungsanweisungen auf Basis visueller Eingaben. Für Unternehmen eröffnen sich Chancen zur Prozessautomatisierung in Legacy-Web-systemen ohne API. Gleichzeitig bleiben Risiken: Überwachter Einsatz, explizite Nutzerzustimmung und strikte Testumgebungen sind zwingend, bis das System aus der Preview in ein allgemein verfügbares Produkt übergeht.

Das Gemini 2.5 Computer Use Model markiert einen nächsten Schritt in Richtung agentenbasierter Automatisierung: KI, die nicht nur versteht, sondern direkt in Nutzeroberflächen handelt. Die Preview (Stand 7. Oktober 2025) bietet mächtige Möglichkeiten, erfordert aber verantwortungsvolle Implementierung und enge Sicherheitskontrollen. Wer heute experimentiert, sollte Sandbox-Setups, Nutzerbestätigungen und strenge Tests einplanen — für produktive, unüberwachte Einsätze ist äußerste Vorsicht geboten.