TTF‑VLA: Zeitsensitive Tokenfusion verbessert Vision‑Language‑Action‑Modelle

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Vision‑Language‑Action‑Modelle (VLA) verarbeiten Bilder bislang frame‑by‑frame und vernachlässigen dadurch die wertvolle zeitliche Kohärenz, die bei robotergestützten Manipulationsaufgaben entsteht. Das neue Verfahren Temporal Token Fusion (TTF) löst dieses Problem, indem es ohne zusätzliche Trainingsschritte die aktuellen und vergangenen visuellen Repräsentationen intelligent kombiniert.

TTF nutzt eine zweidimensionale Detektion: eine effiziente Analyse von Graustufen‑Pixelunterschieden erkennt schnelle Bildänderungen, während ein attention‑basiertes semantisches Relevanz‑Assessment entscheidet, welche Informationen aus vergangenen Frames übernommen werden sollen. Durch harte Fusion‑Strategien und die Einbindung von Schlüsselbildern (Keyframes) wird die Fehlerakkumulation verhindert und die Robustheit gegenüber visuellem Rauschen erhöht.

In umfangreichen Tests auf den Datensätzen LIBERO, SimplerEnv und realen Robotik‑Aufgaben erzielte TTF signifikante Verbesserungen: durchschnittlich 4,0 Prozentpunkte mehr auf LIBERO (72,4 % vs. 68,4 % Baseline), 4,8 % relative Steigerung bei SimplerEnv und 8,7 % bei echten Robotik‑Tests. Das Verfahren ist modellunabhängig und funktioniert gleichermaßen mit den Architekturen OpenVLA und VLA‑Cache.

Ein weiterer interessanter Befund ist, dass die selektive Wiederverwendung der Query‑Matrix in den Attention‑Mechanismen die Leistung sogar steigert. Dies eröffnet vielversprechende Ansätze für direkte KQV‑Matrix‑Wiederverwendung, die die Rechenzeit verkürzen und gleichzeitig die Erfolgsraten bei Manipulationsaufgaben verbessern können.

Ähnliche Artikel