Neuer GUI-Agent löst komplexe Aufgaben dank Experten‑Demonstrationen
Ein brandneuer Ansatz aus dem arXiv‑Repository präsentiert den Instruction Agent, einen grafischen Benutzeroberflächen‑Agenten, der mit Hilfe von Experten‑Demonstrationen selbst anspruchsvolle Aufgaben bewältigt. Durch die Analyse einer einzigen Demo extrahiert der Agent Schritt‑für‑Schritt‑Anweisungen und folgt strikt der vom Nutzer vorgesehenen Trajektorie, wodurch Fehler während der Ausführung vermieden werden.
Der Agent nutzt zusätzlich die Module „Verifier“ und „Backtracker“, um das aktuelle Ergebnis jeder Aktion zu verstehen und unerwartete Unterbrechungen wie Pop‑Up‑Fenster zu handhaben. Diese Kombination erhöht die Robustheit erheblich und ermöglicht eine nahtlose Fortführung der Aufgaben.
In Experimenten erreichte der Instruction Agent eine Erfolgsquote von 60 % bei einer Reihe von OSWorld‑Aufgaben, die sämtliche führenden Agenten nicht abschließen konnten. Dieser Fortschritt markiert einen bedeutenden Schritt hin zu verlässlicher Automatisierung von realen GUI‑Workflows und bietet ein erweiterbares Framework für zukünftige Entwicklungen.