See-Control: Multimodaler Agent für Smartphone-Steuerung mit Roboterarm

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Mit den neuesten Fortschritten in multimodalen großen Sprachmodellen (MLLMs) wird die Idee, intelligente Agenten zur Steuerung von Smartphones einzusetzen, Realität. Bisher waren die meisten Ansätze jedoch auf die Android Debug Bridge (ADB) angewiesen, was ihre Anwendung auf Android-Geräte beschränkte. Das neue Konzept der Embodied Smartphone Operation (ESO) und das dazugehörige Framework See‑Control lösen dieses Problem, indem sie Smartphones über die direkte physische Interaktion mit einem Low‑Degree‑of‑Freedom (Low‑DoF) Roboterarm steuern.

See‑Control besteht aus drei wesentlichen Komponenten: Erstens ein ESO-Benchmark mit 155 Aufgaben und zugehörigen Bewertungskriterien, der die Leistungsfähigkeit von Agenten in realen Szenarien testet. Zweitens ein MLLM‑basierter, verkörperter Agent, der Robotersteuerbefehle generiert, ohne auf ADB oder System‑Back‑End‑Zugriff angewiesen zu sein. Drittens ein umfangreich annotiertes Datenset von Operationsepisoden, das Forschern wertvolle Ressourcen für zukünftige Entwicklungen bietet.

Durch die Verbindung digitaler Agenten mit der physischen Welt ebnet See‑Control einen konkreten Weg für Hausroboter, smartphoneabhängige Aufgaben in realen Umgebungen auszuführen. Diese Plattform‑agnostische Lösung eröffnet neue Möglichkeiten für die Integration von Robotik und mobilen Geräten in Alltagsszenarien.

Ähnliche Artikel