BPDQ: Quantisierung für Sprachmodelle – 2‑Bit‑Perfektion auf RTX 3090
Die Ausführung großer Sprachmodelle (LLMs) ist in ressourcenbeschränkten Umgebungen häufig durch Speichergröße und Speicherbandbreite begrenzt. Quantisierung ist daher ein unverzichtbares Verfahren, um die Effizienz zu steigern. Während die post‑training Quantisierung (PTQ) bei 4‑Bit noch akzeptable Genauigkeit liefert, verschlechtert sich die Leistung bei 2‑ oder 3‑Bit stark, weil herkömmliche Methoden ein festes, shape‑invariantes Quantisierungsgitter (z. B. die gleichmäßigen Intervalle von UINT2) verwenden und damit die Fehlerminimierung stark einschränken.
Die neue Methode Bit‑Plane Decomposition Quantization (BPDQ) löst dieses Problem, indem sie ein variableres Quantisierungsgitter auf Basis von Bit‑Plänen und skalaren Koeffizienten konstruiert. Durch iterative Verfeinerung unter Einsatz von approximierter zweiten‑Ordnung‑Information und gezielter Fehlerkompensation wird die Ausgabeabweichung minimiert. Dieser Ansatz erweitert den zulässigen Lösungsraum deutlich und passt die Quantisierung konsequent an die Optimierungsziele in einer hessian‑induzierten Geometrie an.
In der Praxis zeigt BPDQ beeindruckende Ergebnisse: Im 2‑Bit‑Modus kann das Modell Qwen2.5‑72B auf einer einzelnen RTX 3090 betrieben werden und erzielt dabei 83,85 % der GSM8K‑Genauigkeit – ein Wert, der nur noch 7 % unter dem 16‑Bit‑Standard von 90,83 % liegt. Damit wird deutlich, dass die Variable‑Grid‑Quantisierung die Grenzen traditioneller PTQ‑Ansätze sprengt.
Die Autoren liefern zudem eine theoretische Analyse, die die Vorteile des variablen Gitters belegt, und stellen den vollständigen Code auf GitHub zur Verfügung. Damit bietet BPDQ eine praktikable Lösung für die effiziente Bereitstellung von extrem großen Sprachmodellen in ressourcenbeschränkten Szenarien.