Überspringen Sie zu Inhalten
Thor News

Thor News

The Hub Of Relevance for Tech & Gaming

Primäres Menü
  • Tech
    • Enterprise-Tech
    • Markt/Politik
  • Gaming
    • Hardware
      • Nintendo
      • PlayStation 5
      • PlayStation 6
      • Handheld
    • Spiele
  • Hardware
    • Notebook
    • CPU
    • GPU
    • Festplatten
    • NVMe
  • Künstliche Intelligenz
  • Gadgets & Devices
    • Apple
    • Android
  • Wissenschaft
    • Astronomie
  • Developers
  • Entertainment
Hell/dunkler Knopf
  • Heim
  • Künstliche Intelligenz
  • Gemini 2.5 Computer Use Model: Google bringt Browser-Agenten
  • Künstliche Intelligenz

Gemini 2.5 Computer Use Model: Google bringt Browser-Agenten

08.10.2025, 15:18 Uhr 3 minutes read
gemini_2.5_computer_use_model

Inhaltsverzeichnis

Toggle
  • Was ist das Gemini 2.5 Computer Use Model?
  • Wie funktioniert das Modell?
  • Wofür eignet sich der Browser-Agent? (Use-Cases)
  • Sicherheit, Grenzen und Entwicklerpflichten
  • Leistung und Konkurrenz
  • Bedeutung für Entwickler und Anwender
  • Quellen

Was ist das Gemini 2.5 Computer Use Model?

Das Gemini 2.5 Computer Use Model ist ein spezialisiertes KI-Modell von Google DeepMind, das entwickelt wurde, um Web- und mobile Benutzeroberflächen visuell zu verstehen und mit ihnen zu interagieren. Google stellte das Modell am 7. Oktober 2025 in einer Preview vor; Entwickler können es über Google DeepMind Blog sowie über Gemini API und Vertex AI nutzen. Kurz gesagt: statt auf APIs zuzugreifen, kann das Modell wie ein Mensch klicken, scrollen und Formularfelder ausfüllen — nützlich dort, wo keine programmgesteuerte Schnittstelle existiert.

Wie funktioniert das Modell?

Technisch arbeitet das Computer-Use-Modell in einem iterativen Agenten-Loop: Die Anwendung sendet einen Nutzerauftrag plus einen Screenshot der aktuellen Oberfläche, das Modell antwortet mit konkreten UI-Aktionen (z. B. “klicken”, “tippen”, “ziehen”) und die Client-Seite führt die Aktion aus. Nach der Ausführung liefert die Anwendung einen neuen Screenshot zurück — der Kreislauf wiederholt sich, bis das Ziel erreicht ist. Google beschreibt diese Architektur in der Entwicklerdokumentation und stellt Beispiel-Implementierungen bereit, unter anderem mit einer Python-Referenz und Playwright-Integrationen.

Wofür eignet sich der Browser-Agent? (Use-Cases)

Das Modell ist primär für browserbasierte Aufgaben gedacht: automatisierte Formulareingaben, UI-Tests, Datensammlung über mehrere Websites oder das Durchführen von mehrstufigen Workflows in Web-Apps. Google demonstriert Szenarien wie das Eintragen von Kundendaten in CRMs, das Organisieren von Notizen in Web-Apps oder das Aufrufen von Informationen aus Seiten ohne API. Für mobile UI-Kontrolle zeigt die Dokumentation ebenfalls Optionen, die Implementierung ist aber noch nicht auf Desktop-OS-Steuerung ausgelegt.

Sicherheit, Grenzen und Entwicklerpflichten

Google weist ausdrücklich auf Sicherheits- und Zuverlässigkeitsanforderungen hin: das Modell ist als Preview verfügbar und kann Fehler oder Sicherheitslücken haben. Deshalb sind Sandbox-Umgebungen, eingeschränkte Browserprofile und ausdrücklich implementierte Bestätigungs-Workflows empfohlen. Aktionen, die risikoreich sind (zum Beispiel Zahlungen), können vom Modell mit einer require_confirmation-Markierung versehen werden — die Client-App muss dann eine explizite Nutzerbestätigung einholen. Auch die Dokumentation betont, dass man das System nicht für kritische Entscheidungen oder sensible Daten unbeaufsichtigt einsetzen sollte.

Leistung und Konkurrenz

Google nennt für das Gemini 2.5 Computer Use Model bessere Ergebnisse bei Web- und Mobile-Control-Benchmarks sowie geringere Latenz im Vergleich zu Alternativen. Fachmedien berichten, dass das Modell 13 vordefinierte UI-Aktionen unterstützt und in Demos flüssige Abläufe zeigt. Wichtig: Im Vergleich zu manchen Konkurrenzansätzen, die Betriebssystem-weit arbeiten, beschränkt sich Gemini 2.5 vorerst auf Browser- und (teilweise) Mobile-Interaktionen — ein bewusstes Design, das das Angriffs- und Fehlerrisiko limitiert.

Bedeutung für Entwickler und Anwender

Für Entwickler bedeutet die Preview, dass Tools für Automatisierung und Agenten deutlich einfacher zu bauen sind: Statt komplexer Parserskripte oder fragiler DOM-Selector-Logik liefert das Modell Handlungsanweisungen auf Basis visueller Eingaben. Für Unternehmen eröffnen sich Chancen zur Prozessautomatisierung in Legacy-Web-systemen ohne API. Gleichzeitig bleiben Risiken: Überwachter Einsatz, explizite Nutzerzustimmung und strikte Testumgebungen sind zwingend, bis das System aus der Preview in ein allgemein verfügbares Produkt übergeht.

Das Gemini 2.5 Computer Use Model markiert einen nächsten Schritt in Richtung agentenbasierter Automatisierung: KI, die nicht nur versteht, sondern direkt in Nutzeroberflächen handelt. Die Preview (Stand 7. Oktober 2025) bietet mächtige Möglichkeiten, erfordert aber verantwortungsvolle Implementierung und enge Sicherheitskontrollen. Wer heute experimentiert, sollte Sandbox-Setups, Nutzerbestätigungen und strenge Tests einplanen — für produktive, unüberwachte Einsätze ist äußerste Vorsicht geboten.

Quellen

  • Introducing the Gemini 2.5 Computer Use model — Google DeepMind (Oct 07, 2025)
  • Computer Use model and tool — Vertex AI Documentation (Oct 2025)

Über den Autor

Avatar-Foto

Sebastian Schiebort

Administrator

Alle Beiträge anzeigen

Keine ähnlichen Artikel gefunden.

  • Künstliche Intelligenz

Post navigation

Previous: UFS 5.0: Schnellerer Flash mit geringerem Energiebedarf
Next: Robotischer Rucksack: Sechsarmige Jizai Arms

Andere Beiträge des Autors

Commodore 128: CES-Premiere 1985, Technik und Vermächtnis Commodore 128 CES-Premiere 1985, Technik und Vermächtnis

Commodore 128: CES-Premiere 1985, Technik und Vermächtnis

06.01.2026, 03:40 Uhr 0
GlassWorm Malware: neue Mac-Welle mit Krypto-Trojanern GlassWorm Malware neue Mac-Welle mit Krypto-Trojanern

GlassWorm Malware: neue Mac-Welle mit Krypto-Trojanern

04.01.2026, 19:51 Uhr 0
Nano Banana 2 Flash: Googles schnellste Bild-KI 2026 Nano Banana 2 Flash Googles schnellste Bild-KI 2026

Nano Banana 2 Flash: Googles schnellste Bild-KI 2026

02.01.2026, 18:14 Uhr 0
ChatGPT-Hardware: OpenAI setzt auf Stimme & Emotion ChatGPT-Hardware OpenAI setzt auf Stimme Emotion

ChatGPT-Hardware: OpenAI setzt auf Stimme & Emotion

01.01.2026, 18:22 Uhr 0

Ähnliche Themen

Nano Banana 2 Flash Googles schnellste Bild-KI 2026
5 minutes read
  • Künstliche Intelligenz

Nano Banana 2 Flash: Googles schnellste Bild-KI 2026

02.01.2026, 18:14 Uhr 0
ChatGPT-Hardware OpenAI setzt auf Stimme Emotion
6 minutes read
  • Künstliche Intelligenz

ChatGPT-Hardware: OpenAI setzt auf Stimme & Emotion

01.01.2026, 18:22 Uhr 0
KI-Gigafactory München 1 Mrd. Euro & GPU-Vergleich
6 minutes read
  • Künstliche Intelligenz

KI-Gigafactory München: 1 Mrd. Euro für AI-Cloud

04.11.2025, 19:26 Uhr 0
Google bestätigt Ads in der AI-Suche – aber anders
5 minutes read
  • Künstliche Intelligenz

Google bestätigt: Ads in der AI-Suche – aber anders

02.11.2025, 02:12 Uhr 0
Über eine Million Nutzer pro Woche OpenAI offenbart Suizid-Gefährdung bei ChatGPT-Chats
4 minutes read
  • Künstliche Intelligenz

Über eine Million Nutzer pro Woche: OpenAI offenbart Suizid-Gefährdung bei ChatGPT-Chats

28.10.2025, 19:25 Uhr 0
Hochpräzises Küstenflut-Modelling University of California Santa Cruz mit NVIDIA-Technologie
4 minutes read
  • Künstliche Intelligenz
  • GPU

UCSC & NVIDIA: GPU-Technologie revolutioniert Küstenflut-Modelle

22.10.2025, 13:26 Uhr 0

Trends

Bald kein Prime-Sharing mehr – droht das auch in Deutschland? amazon_prime_stop 1

Bald kein Prime-Sharing mehr – droht das auch in Deutschland?

09.09.2025, 09:01 Uhr 0
Gaming Notebook mit Nvidia RTX 5090 – Razer Blade 18 Razer_RTX5090_Notebook 2

Gaming Notebook mit Nvidia RTX 5090 – Razer Blade 18

30.08.2025, 19:07 Uhr 0
Dying Light: The Beast uncut in Deutschland: So geht’s Dying Light The Beast 3

Dying Light: The Beast uncut in Deutschland: So geht’s

19.09.2025, 10:49 Uhr 0
Dying Light: The Beast – Neuer Trailer zeigt Mortal-Kombat-Brutalität Dying Light The Beast 4

Dying Light: The Beast – Neuer Trailer zeigt Mortal-Kombat-Brutalität

05.08.2025, 18:44 Uhr 0

Neueste Beiträge

  • Commodore 128: CES-Premiere 1985, Technik und Vermächtnis
  • GlassWorm Malware: neue Mac-Welle mit Krypto-Trojanern
  • Nano Banana 2 Flash: Googles schnellste Bild-KI 2026
  • ChatGPT-Hardware: OpenAI setzt auf Stimme & Emotion
  • Fractal Design Scape Headset Review: Mein Fazit

Neueste Kommentare

Es sind keine Kommentare vorhanden.

Archiv

  • Januar 2026
  • November 2025
  • Oktober 2025
  • September 2025
  • August 2025
  • Juli 2025

Könnte dich auch interessieren

Commodore 128 CES-Premiere 1985, Technik und Vermächtnis
6 minutes read
  • Retrogaming

Commodore 128: CES-Premiere 1985, Technik und Vermächtnis

06.01.2026, 03:40 Uhr 0
GlassWorm Malware neue Mac-Welle mit Krypto-Trojanern
6 minutes read
  • Developers
  • Cybersecurity

GlassWorm Malware: neue Mac-Welle mit Krypto-Trojanern

04.01.2026, 19:51 Uhr 0
Nano Banana 2 Flash Googles schnellste Bild-KI 2026
5 minutes read
  • Künstliche Intelligenz

Nano Banana 2 Flash: Googles schnellste Bild-KI 2026

02.01.2026, 18:14 Uhr 0
ChatGPT-Hardware OpenAI setzt auf Stimme Emotion
6 minutes read
  • Künstliche Intelligenz

ChatGPT-Hardware: OpenAI setzt auf Stimme & Emotion

01.01.2026, 18:22 Uhr 0
Cookie-Einstellungen ändern
  • Impressum
  • Datenschutzerklärung
  • Über uns
  • Redaktionelle Richtlinien
  • Kontakt
  • Facebook
  • x.com
  • WhatsApp
  • Flipboard
  • RSS Feed
Alle Rechte vorbehalten. Copyright © thor.news