ProRe: Proaktives Belohnungssystem steigert GUI-Agenten um bis zu 22,4 %

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In der Forschung zu großen Sprachmodellen (LLMs) spielt die Belohnung eine zentrale Rolle für deren Bewertung und Training. Traditionelle regelbasierte oder modellbasierte Ansätze stoßen jedoch bei GUI-Agenten an ihre Grenzen, weil dort häufig keine echten Trajektorien oder Datenbanken zur Verfügung stehen. Auch statische, trajektorienbasierte LLM‑als‑Judge-Methoden liefern nur begrenzte Genauigkeit.

Um diese Probleme zu lösen, wurde ProRe entwickelt – ein proaktives Belohnungssystem, das einen allgemeinen Reasoner mit domänenspezifischen Evaluator‑Agenten (Actors) kombiniert. Der Reasoner plant gezielte Zustandsabfrageaufgaben, die die Evaluator‑Agenten durch aktive Interaktion mit der Umgebung ausführen. Durch das Sammeln zusätzlicher Beobachtungen kann der Reasoner präzisere und verifizierbare Belohnungen vergeben.

Experimentelle Ergebnisse über mehr als 3.000 Trajektorien zeigen, dass ProRe die Belohnungsgenauigkeit um bis zu 5,3 % und die F1‑Score um 19,4 % steigert. Darüber hinaus führt die Integration von ProRe in moderne Policy‑Agenten zu einer Erfolgsrate von bis zu 22,4 % – ein deutlicher Fortschritt gegenüber bestehenden Methoden.

Ähnliche Artikel