SQAP‑VLA: Quantisierung und Token‑Pruning vereint – 1,93‑facher Speedup für Vision‑Language‑Action‑Modelle

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Vision‑Language‑Action‑Modelle (VLA) zeigen bislang ungeahnte Möglichkeiten für eingebettete Intelligenz, doch ihre enormen Rechen- und Speicheranforderungen erschweren die praktische Nutzung. Traditionelle Kompressions‑ und Beschleunigungsansätze kombinieren Quantisierung oder Token‑Pruning meist einzeln und scheitern dabei an einer beobachteten Inkompatibilität.

Mit dem neuen Framework SQAP‑VLA wird dieses Problem gelöst: Es ist das erste strukturierte, trainingsfreie Verfahren, das Quantisierung und Token‑Pruning gleichzeitig und nahtlos integriert. Durch die gemeinsame Gestaltung der Pipeline werden neue, quantisierungs‑bewusste Pruning‑Kriterien entwickelt, die auch bei stark quantisierten Modellen funktionieren, und die Quantizer‑Architektur wird optimiert, um die Pruning‑Effizienz zu steigern.

In Tests an Standard‑VLA‑Modellen erzielt SQAP‑VLA deutliche Verbesserungen bei Rechenleistung und Inferenzgeschwindigkeit, ohne die Kernleistung zu beeinträchtigen. Der Speedup liegt bei 1,93‑fach, während die durchschnittliche Erfolgsrate um bis zu 4,5 % steigt – ein signifikanter Fortschritt gegenüber dem Ausgangsmodell.

Ähnliche Artikel