TurboBoA: Schnellere, genaue Attention-Quantisierung ohne Backpropagation

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Mit TurboBoA wird die Quantisierung großer Sprachmodelle schneller und genauer, ohne dass Backpropagation nötig ist. Der neue Ansatz kombiniert die Vorteile des bisherigen BoA-Algorithmus mit einer drastischen Beschleunigung und verbessert gleichzeitig die Modellgenauigkeit.

Der rasante Ausbau von Large Language Models (LLMs) hat die Notwendigkeit von Post‑Training‑Quantisierung (PTQ) für Speicher‑ und Rechenoptimierung deutlich erhöht. GPTQ, ein populärer PTQ‑Ansatz, ermöglicht die Quantisierung von Milliarden‑Parameter‑Modellen in wenigen GPU‑Stunden, setzt jedoch auf die Annahme von Schicht‑zu‑Schicht‑Unabhängigkeit. Diese Vereinfachung führt in niedrigen Bit‑Raten zu erheblichen Genauigkeitsverlusten.

BoA hat GPTQ erweitert, indem es Inter‑Layer‑Abhängigkeiten innerhalb der Attention‑Module berücksichtigt. Allerdings quantisiert BoA die Ausgänge sequentiell über alle Kanäle, was die Effizienz stark einschränkt und die Laufzeit verlängert.

TurboBoA löst diese Engpässe mit drei Kerninnovationen: Erstens wird die Quantisierung mehrerer Ausgänge gleichzeitig durchgeführt, unterstützt durch eine geschlossene Fehlerkompensationsregel, die die sequentielle Abhängigkeit eliminiert und die Geschwindigkeit um mehr als das Dreifache steigert. Zweitens sorgt ein Korrekturmechanismus für Fehler, die von vorher quantisierten Schichten propagiert werden. Drittens wird ein adaptiver Gitter‑Berechnungsansatz mit Koordinaten­abstieg‑Verfeinerung eingesetzt, um die Ausrichtung während iterativer Updates zu erhalten.

Umfangreiche Experimente zeigen, dass TurboBoA die Laufzeit gegenüber BoA deutlich reduziert und gleichzeitig die Genauigkeit verbessert. In Kombination mit Outlier‑Suppression‑Techniken erreicht es den aktuellen Stand der Technik sowohl bei der reinen Gewicht‑Quantisierung als auch bei Gewicht‑Aktivierungs‑Quantisierung.

Der Quellcode ist auf GitHub verfügbar: https://github.com/SamsungLabs/TurboBoA.

Ähnliche Artikel