MobileGen: Adaptive Datengenerierung steigert mobile GUI-Agenten um 57 %
In der Entwicklung von mobilen Graphical User Interface (GUI)-Agenten sind große, qualitativ hochwertige Interaktionsdaten entscheidend. Traditionelle Ansätze, die auf aufwändigen menschlichen Demonstrationen oder automatisierter Modellexploration beruhen, bieten jedoch kaum Kontrolle über die Schwierigkeit der Aufgaben, was die Lernleistung der Agenten einschränkt.
MobileGen ist ein neuartiges Framework, das die Trainingsschwierigkeit gezielt an die Fähigkeiten des Agenten anpasst. Dabei trennt es die Schwierigkeit in zwei Dimensionen: strukturell (z. B. Länge der Trajektorie) und semantisch (z. B. Ziel der Aufgabe). Durch wiederholte Evaluierung des Agenten auf einem kuratierten Basisdatensatz erstellt MobileGen ein detailliertes Profil seiner Fähigkeitsgrenze in beiden Dimensionen.
Auf Basis dieses Profils berechnet das System eine adaptive Wahrscheinlichkeitsverteilung für die Schwierigkeit und zieht daraus das Ziel für die nächste Trainingsrunde. Anschließend generiert ein mehragentenbasierter, kontrollierbarer Generator hochwertige Interaktionstrajektorien sowie passende Aufgabenbeschreibungen, die exakt auf das aktuelle Fähigkeitsniveau abgestimmt sind.
Umfangreiche Experimente zeigen, dass MobileGen bestehende Datengenerierungsmethoden deutlich übertrifft: Die durchschnittliche Leistung der GUI-Agenten steigt im Vergleich um 1,57‑fach über mehrere anspruchsvolle Benchmarks hinweg. Diese Ergebnisse unterstreichen, wie wichtig eine adaptive, schwierigkeitssensitive Datengenerierung für die Weiterentwicklung mobiler GUI-Agenten ist.