WholeBodyVLA: Einheitliches VLA-Modell für humanoide Loco‑Manipulation

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In der Robotik steht die Kombination aus präziser Fortbewegung und geschickter Greifbewegung im Fokus. Das neue Konzept WholeBodyVLA löst ein langjähriges Problem: bisherige Ansätze vernachlässigen die Wechselwirkung zwischen Locomotion und Manipulation, was die Einsatzmöglichkeiten von humanoiden Robotern stark einschränkt. Durch ein einheitliches latentes Lernframework kann das System nun aus kostengünstigen, handlungsfreien Ego‑Videos lernen und gleichzeitig ein effizientes Pipeline‑Design für die Erfassung menschlicher Daten nutzen.

Ein zentrales Element ist die loco‑manipulation‑orientierte RL‑Policy, die speziell für stabile und genaue Bewegungen wie Vorwärtsgehen, Drehen und Hocken entwickelt wurde. Diese Policy ermöglicht es dem Robotern, die gewünschten Locomotion‑Befehle zuverlässig auszuführen, trotz der begrenzten Präzision herkömmlicher Reinforcement‑Learning‑Controller.

Die Kombination dieser Komponenten wurde am AgiBot X2 humanoiden Robotern getestet und erzielte einen beeindruckenden Leistungszuwachs von 21,3 % gegenüber bestehenden Baselines. Darüber hinaus zeigte WholeBodyVLA eine starke Generalisierung auf neue Aufgaben und Umgebungen, was es zu einem wegweisenden Ansatz für großflächige humanoide Loco‑Manipulation macht.

Ähnliche Artikel