SeeUPO: Agentisches RL mit Konvergenzgarantie bei Mehrfachwechseln
Reinforcement‑Learning (RL) ist heute das bevorzugte Verfahren, um KI‑Agenten auf Basis großer Sprachmodelle zu trainieren. Trotz seiner Popularität fehlt den gängigen RL‑Algorithmen jedoch eine verifizierte Konvergenz, besonders in Mehrfachwechsel‑Szenarien, was zu Instabilität und suboptimalen Policies führen kann.
In einer systematischen Analyse wurden verschiedene Kombinationen von Policy‑Update‑Mechanismen und Advantage‑Estimation‑Methoden untersucht. Dabei zeigte sich, dass REINFORCE in Verbindung mit Group Relative Advantage Estimation (GRAE) unter nicht diskontierten Bedingungen global optimal konvergiert. Die Kombination von PPO und GRAE hingegen zerstört die ursprüngliche monotone Verbesserungs‑Eigenschaft von PPO.
Darüber hinaus konnten die etablierten Backbone‑Algorithmen nicht gleichzeitig ohne Kritiker (critic‑free) und mit Konvergenzgarantie in Mehrfachwechsel‑Umgebungen arbeiten. Um dieses Problem zu lösen, wurde SeeUPO (Sequence‑level Sequential Update Policy Optimization) vorgestellt – ein critic‑freier Ansatz, der Konvergenz in Mehrfachwechsel‑Interaktionen garantiert.
SeeUPO modelliert Mehrfachwechsel als sequenziell ausgeführte Multi‑Agent‑Bandit‑Probleme. Durch sequentielle Policy‑Updates in umgekehrter Ausführungsreihenfolge wird monotone Verbesserung sichergestellt und die globale optimale Lösung wird mittels Backward‑Induction erreicht.
Experimentelle Ergebnisse auf den Benchmarks AppWorld und BFCL v4 zeigen, dass SeeUPO die bestehenden Backbone‑Algorithmen deutlich übertrifft: relative Verbesserungen von 43,3 % bis 54,6 % bei Qwen3‑14B und von 24,1 % bis 41,9 % bei Qwen2.5. Diese Fortschritte markieren einen wichtigen Schritt hin zu stabileren und effizienteren RL‑Agenten für komplexe Mehrfachwechsel‑Aufgaben.