AgentProg: Programmgestützte Kontextverwaltung für langfristige GUI-Agenten

In einer jüngsten Veröffentlichung auf arXiv (2512.10371v1) stellen die Autoren AgentProg vor, ein neues Verfahren zur Verwaltung des Kontextes von mobilen GUI-Agenten, die über lange Zeiträume hinweg Aufgaben ausführen sollen. Das Ziel ist es, die Effizienz und Zuverlässigkeit solcher Agenten zu erhöhen, indem die Menge an benötigtem Speicher reduziert und gleichzeitig die wesentlichen Informationen erhalten bleiben.

Der Hauptschwierigkeit bei der Entwicklung von Agenten für langfristige Aufgaben ist die stetig wachsende Interaktionshistorie. Traditionelle Kompressionstechniken können dabei wichtige semantische Details verlieren, was zu schlechteren Ergebnissen führt. AgentProg begegnet diesem Problem, indem es die Historie in ein Programm mit Variablen und Kontrollfluss umwandelt. Durch die Nutzung der Programmstruktur kann das System genau bestimmen, welche Informationen behalten und welche verworfen werden dürfen.

Zusätzlich integriert AgentProg einen globalen Glaubenszustand, inspiriert vom Belief-MDP-Framework, um mit partieller Beobachtbarkeit umzugehen und sich an unerwartete Änderungen in der Umgebung anzupassen. Diese Kombination aus programmgestützter Kontextverwaltung und adaptivem Glaubensmodell ermöglicht es dem Agenten, konsistente Entscheidungen zu treffen, selbst wenn die Umgebung unvorhersehbar ist.

Experimentelle Ergebnisse auf den Benchmark-Suiten AndroidWorld und einer erweiterten Long-Horizon Task Suite zeigen, dass AgentProg die bisher besten Erfolgsraten erzielt. Besonders auffällig ist die stabile Leistung bei langen Aufgaben, während herkömmliche Methoden häufig drastisch nachlassen. Das System ist vollständig Open Source und steht unter https://github.com/MobileLLM/AgentProg zur Verfügung.

Ähnliche Artikel

🍪 Cookie-Einstellungen