M$^2$-Miner: Multi-Agent MCTS für mobile GUI-Agenten-Datengewinnung

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Graphische Benutzeroberflächen (GUI) sind das Herzstück moderner Mensch-Computer-Interaktion. Damit leistungsfähige GUI-Agenten entstehen, müssen große Mengen an qualitativ hochwertigen Nutzerverhaltensdaten – also Absicht‑Trajektorienpaare – annotiert werden. Traditionelle Annotationsmethoden und bestehende Mining‑Ansätze stoßen dabei häufig auf drei zentrale Probleme: hohe Kosten, schlechte Datenqualität und geringe Datenvielfalt.

Um diese Herausforderungen zu überwinden, stellt M$^2$-Miner das erste kostengünstige und automatisierte Framework für die Datensammlung von mobilen GUI-Agenten vor. Das System nutzt Monte‑Carlo‑Tree‑Search (MCTS) in Kombination mit einem kollaborativen Multi‑Agenten‑Ansatz, der aus den Komponenten InferAgent, OrchestraAgent und JudgeAgent besteht. Diese Agenten übernehmen jeweils die Aufgaben der Datenvorbereitung, Beschleunigung des Suchprozesses und Bewertung der Ergebnisse.

Ein weiteres Highlight ist die Intent‑Recycling‑Strategie, die zusätzliche wertvolle Interaktionstrajektorien extrahiert und damit die Vielfalt der Absichten erhöht. Ergänzend wird ein progressiver „Model‑in‑the‑Loop“-Trainingsansatz eingesetzt, der die Erfolgsquote des Datenminings kontinuierlich steigert.

Umfangreiche Experimente zeigen, dass GUI-Agenten, die mit den von M$^2$-Miner gewonnenen Daten feinabgestimmt wurden, auf mehreren gängigen mobilen GUI-Benchmarks den aktuellen Stand der Technik übertreffen. Die Autoren planen, das System der Forschungsgemeinschaft zur Verfügung zu stellen, um weitere Fortschritte in diesem Bereich zu ermöglichen.

Ähnliche Artikel