InquireMobile: Mobile-Agent bittet bei kritischen Entscheidungen um Hilfe
Eine neue Studie aus dem Bereich der Vision‑Language‑Modelle (VLMs) präsentiert InquireMobile, ein mobiles Agentenmodell, das lernt, bei kritischen Entscheidungen aktiv um menschliche Hilfe zu bitten. Durch diesen Ansatz soll die Sicherheit von autonomen Systemen in realen Umgebungen deutlich verbessert werden.
Derzeit arbeiten VLM-basierte Agenten vollständig autonom. Wenn das Modell jedoch die Situation nicht ausreichend versteht oder nicht korrekt bewertet, kann dies zu gefährlichen Handlungen führen. Die Autoren identifizierten dieses Risiko als zentrales Problem für die Weiterentwicklung mobiler Agenten.
Um die Fähigkeiten von Agenten in sicherer Interaktion und proaktiver Nachfrage zu messen, wurde InquireBench entwickelt. Dieser Benchmark umfasst fünf Hauptkategorien und 22 Unterkategorien und zeigt, dass die meisten bestehenden VLM‑Agenten hier nahezu null Leistung erbringen. InquireBench dient als Grundlage, um Fortschritte in der sicheren Entscheidungsfindung zu quantifizieren.
InquireMobile setzt auf ein zweistufiges Trainingsverfahren kombiniert mit einem interaktiven Vorhandlungs‑Reasoning‑Mechanismus. Durch diese Architektur kann das Agentenmodell bei kritischen Entscheidungspunkten gezielt nach menschlicher Bestätigung fragen, anstatt allein zu handeln.
Die Ergebnisse sind beeindruckend: InquireMobile steigert die Anfrageerfolgsrate um 46,8 % und erzielt die höchste Gesamt‑Erfolgsrate aller bisherigen Baselines auf InquireBench. Diese Fortschritte markieren einen bedeutenden Schritt in Richtung sicherer, kollaborativer mobiler Systeme.
Die Forscher geben sämtliche Datensätze, Modelle und Evaluationscodes frei. Durch die Open‑Source‑Veröffentlichung soll die Entwicklung von sicheren mobilen Agenten sowohl in der akademischen Forschung als auch in der Industrie vorangetrieben werden.