MobiBench: Modulares Offline‑Benchmarking für mobile GUI‑Agenten

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Mobile GUI‑Agenten, die mobile Anwendungen im Namen von Nutzern steuern, könnten die Interaktion mit Computern revolutionieren. Doch bisherige Bewertungsmethoden stoßen an zwei Grenzen: Offline‑Benchmarks nutzen statische, einweg‑annotierte Datensätze, die legitime Alternativaktionen zu bestrafen, während Online‑Benchmarks wegen ihrer dynamischen Natur schwer skalierbar und reproduzierbar sind. Zusätzlich werden Agenten oft als schwarze Boxen behandelt, wodurch die Wirkung einzelner Komponenten verborgen bleibt.

Mit MobiBench wird das anders. Das neue Framework bietet ein modulares, mehrpfad‑sensibles Offline‑Benchmarking, das hohe Genauigkeit, Skalierbarkeit und Reproduzierbarkeit in einer einzigen Umgebung vereint. In umfangreichen Tests erreichte MobiBench eine Übereinstimmung von 94,72 % mit menschlichen Beurteilern – ein Ergebnis, das mit sorgfältig konzipierten Online‑Benchmarks vergleichbar ist, ohne deren Nachteile.

Durch die Analyse auf Modulebene liefert MobiBench wertvolle Erkenntnisse: systematische Bewertung verschiedener Techniken, optimale Modulkonfigurationen über Modellgrößen hinweg, die inhärenten Grenzen aktueller Low‑Level‑Modell‑Frameworks sowie praxisnahe Designrichtlinien. Damit eröffnet MobiBench neue Möglichkeiten, mobile GUI‑Agenten fair und detailliert zu bewerten und gleichzeitig die Entwicklung von leistungsfähigeren Systemen zu beschleunigen.

Ähnliche Artikel