SWIRL: Staged Workflow verbessert Multi-Agent RL für mobile GUI-Steuerung
Die neueste Veröffentlichung auf arXiv (2508.20018v1) stellt SWIRL vor – ein innovatives, gestaffeltes Lernverfahren, das Multi-Agent Reinforcement Learning (MARL) für die Steuerung mobiler grafischer Benutzeroberflächen neu definiert. Durch die Aufteilung des klassischen MARL-Prozesses in eine Reihe von Einzel-Agenten-Trainingsschritten, bei denen jeweils nur ein Agent aktualisiert wird, während die anderen konstant bleiben, ermöglicht SWIRL stabile Lernkurven und eine effiziente Koordination zwischen den Agenten.
SWIRL kombiniert dabei theoretische Sicherheitssicherungen mit praktischen Optimierungsprinzipien. Die Autoren präsentieren einen schrittweisen Sicherheitsrahmen, einen Monotonie-Verbesserungssatz über die Trainingsdurchläufe hinweg sowie Konvergenzgarantien für die Gesamtrendite. Diese Ergebnisse legen die Grundlage für robuste und nachvollziehbare Optimierungen in komplexen, mehrschichtigen Agentensystemen.
In der Anwendung auf mobile GUI-Steuerung setzt SWIRL zwei spezialisierte Agenten ein: Der Navigator wandelt natürliche Sprache und Bildschirmkontext in strukturierte Aktionspläne um, während der Interactor diese Pläne in atomare, ausführbare Aktionen übersetzt. Umfangreiche Experimente zeigen, dass SWIRL sowohl bei hochrangigen als auch bei niedrigrangigen GUI-Benchmarks die Leistung bestehender Ansätze übertrifft.
Darüber hinaus demonstriert SWIRL seine Vielseitigkeit in einem zusätzlichen Anwendungsfall: der multi-agenten mathematischen Problemlösung. Diese Vielseitigkeit unterstreicht das Potenzial von SWIRL als generisches Framework für die Entwicklung leistungsfähiger, koordinierter Agentensysteme in verschiedensten Domänen.