MixQuant: Grenzen der Blockrotationen in der Post-Training-Quantisierung neu definiert

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die neueste Forschung im Bereich der Post-Training-Quantisierung (PTQ) hat gezeigt, dass Blockrotationen ein vielversprechendes Mittel sind, um Ausreißer vor dem Runden zu streuen. Doch bislang blieb unklar, wie stark die Blockstruktur die Ausreißerunterdrückung tatsächlich beeinflusst. Mit einer ersten systematischen, nicht asymptotischen Analyse der Block-Hadamard-Rotation haben die Autoren dieses Papiers die Grenzen des Effekts auf die Geometrie des Eingangsvektors gelegt.

Die Ergebnisse verdeutlichen, dass die Minimierung von Ausreißern nach der Rotation ausschließlich dann garantiert ist, wenn die Vor-rotationen die \(\ell_1\)-Norm gleichmäßig über die Blöcke verteilen. Auf dieser Erkenntnis aufbauend, präsentiert das Team MixQuant – ein PTQ-Framework, das die Aktivierungsmasse vor der Rotation durch gezielte Permutationen neu verteilt. Ein schlanker, greedy‑Mass‑Diffusion‑Algorithmus kalibriert diese Permutationen, indem er die erwarteten blockweisen \(\ell_1\)-Normen ausgleicht.

Um die Laufzeit zu optimieren, identifizieren die Entwickler permutation‑equivariante Regionen in Transformer‑Architekturen. Dort werden die Permutationen in die Modellgewichte integriert, sodass keine zusätzlichen Inferenzkosten entstehen. In umfangreichen Experimenten konnte MixQuant die Genauigkeit bei allen Blockgrößen deutlich steigern. Besonders beeindruckend ist die Wiederherstellung von bis zu 90 % der Perplexität einer Vollvektor‑Rotation, wenn Llama3 1 B auf INT4 mit Blockgröße 16 quantisiert wird – ein deutlicher Sprung gegenüber den 46 % ohne Permutationen.

Ähnliche Artikel