CALR: Adaptive Low‑Rank‑Kompression für effiziente LLM‑Layer

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Large Language Models (LLMs) sind wegen ihrer enormen Größe und Rechenintensität schwer in ressourcenbeschränkten Umgebungen einsetzbar. Um diese Modelle praktikabler zu machen, setzen Entwickler auf Kompressionstechniken, wobei die Low‑Rank‑Faktorisierung mittels Singular Value Decomposition (SVD) besonders beliebt ist. SVD reduziert die Parameterzahl, indem Gewichtsmatrizen angenähert werden, doch dabei wird häufig die funktionale Leistung des Modells stark beeinträchtigt, weil die verlorenen Informationen nicht korrigiert werden.

Die neue Methode Corrective Adaptive Low‑Rank Decomposition (CALR) kombiniert einen Hauptpfad aus SVD‑komprimierten Schichten mit einem parallelen, lernbaren Low‑Rank‑Korrekturmodul. Dieses Modul wird explizit trainiert, um den funktionalen Residualfehler wiederherzustellen, der bei herkömmlichen Kompressionen entsteht. Durch diese zweistufige Strategie kann CALR die Parameterzahl um 26,93 % bis 51,77 % reduzieren, während die Modellleistung zwischen 59,45 % und 90,42 % der Originalwerte behält.

In Tests mit den Modellen SmolLM2‑135M, Qwen3‑0.6B und Llama‑3.2‑1B übertrifft CALR bestehende Ansätze wie LaCo, ShortGPT und LoSparse. Die Ergebnisse zeigen, dass die Behandlung des funktionalen Informationsverlusts als lernbaren Signalpfad ein äußerst effektives Kompressionsparadigma darstellt. CALR ermöglicht die Entwicklung deutlich kleinerer und effizienterer LLMs, was ihre Zugänglichkeit und den praktischen Einsatz in realen Anwendungen erheblich verbessert.

Ähnliche Artikel