SBVR: Neue Quantisierungsmethode für schnelle LLM-Modelle
Mit dem rasanten Aufstieg großer Sprachmodelle stehen Entwickler vor der Herausforderung, diese Modelle effizient auf Hardware zu betreiben. Quantisierung reduziert die Modellgröße, indem die Anzahl der darstellbaren Werte begrenzt wird. Der Schlüssel liegt dabei in der Auswahl der optimalen Repräsentationspunkte.
Traditionelle Post‑Training‑Quantisierungsmethoden lassen sich in zwei Kategorien einteilen: RTN‑basierte Verfahren, die die Gewichte auf gleichmäßig verteilte Integer‑Netze abbilden, und Codebook‑basierte Ansätze, die gewichtsspezifische Codebücher nutzen. Beide haben Schwächen: RTN ignoriert die oft gaußförmige Verteilung der Gewichte, während Codebooks zu unregelmäßigen Speicherzugriffen führen und die GPU‑Cache‑Leistung belasten.
Die neue SBVR‑Methode (Summation of BitVector Representation) kombiniert das Beste aus beiden Welten. Sie ordnet die Gewichte nicht‑uniformen Repräsentationspunkten zu, die exakt der tatsächlichen Verteilung der LLM‑Gewichte entsprechen. Dadurch wird die Kompression präziser und gleichzeitig hardwarefreundlich gestaltet.
Ein weiteres Highlight ist der eigens entwickelte CUDA‑Kernel, der Matrix‑Vektor‑Multiplikationen direkt im SBVR‑Format ausführt, ohne die Daten vorher zu dekomprimieren. Das Ergebnis ist eine deutlich beschleunigte Inferenz, die die Speicherbandbreite optimal nutzt und die Latenz für große Modelle reduziert.