QuantLRM: Gewichtsanpassungen als Schlüssel zur Quantisierung von LLMs

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

In der Welt der großen Sprachmodelle (LLMs) gewinnt die Gewichtsanpassung bei der Quantisierung zunehmend an Bedeutung. Forscher haben einen neuen Ansatz namens QuantLRM entwickelt, der sich auf die Größenordnung der Gewichtsanpassungen während des reasoning‑incentivierten Fine‑Tuning konzentriert. Dabei wird die Idee klassischer Magnituden‑Pruning‑Methoden aufgegriffen und auf die Feinabstimmung von Large Reasoning Models (LRMs) übertragen.

Die zentrale These von QuantLRM lautet: Die kleinsten und größten Gewichtsanpassungen sind entscheidender als die mittleren Werte – ein Phänomen, das als „Protecting Both Ends“ bezeichnet wird. Um diese Erkenntnis zu nutzen, werden einfache quadratische Funktionen auf die Gewichtsanpassungen angepasst. Durch die Multiplikation des durchschnittlichen quadratischen Werts mit der Anzahl der Null‑Updates pro Kanal entsteht ein Kanal‑Wichtigkeitsmaß, das sich als wirksamer erweist als herkömmliche Aktivierungs‑ oder zweite‑Ordnung‑Informationen.

QuantLRM wurde auf einer Vielzahl von feinabgestimmten Modellen – darunter Supervised, Direct Preference Optimization und Reinforcement‑Learning‑Fine‑Tuning – sowie vier anspruchsvollen Reasoning‑Benchmarks (AIME‑120, FOLIO, temporale Sequenzen und GPQA‑Diamond) getestet. Die Ergebnisse zeigen eine konsistente Verbesserung der Quantisierung, mit einem durchschnittlichen Gewinn von 6,55 % bei Reinforcement‑Learning‑Modellen. Für Modelle ohne Fine‑Tuning bietet QuantLRM eine pseudo‑Fine‑Tuning‑Methode, die die Anwendbarkeit weiter ausbaut.

Durch die Kombination von Gewichtsanpassungen und einer gezielten Kanal‑Wichtigkeitsberechnung liefert QuantLRM einen robusten und leicht implementierbaren Weg, um die Effizienz großer Sprachmodelle zu steigern, ohne dabei die Leistungsfähigkeit zu beeinträchtigen.

Ähnliche Artikel