RAP: Kompression des KV-Caches durch RoPE‑ausgerichtetes Pruning

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der neuesten Veröffentlichung auf arXiv (2602.02599v1) wird ein innovativer Ansatz vorgestellt, der die Speicher- und Rechenkosten von KV‑Caches in großen Sprachmodellen drastisch senkt. Durch die Kompression von KV‑Projektionen mittels Low‑Rank‑Faktorisierung – also der Approximation W ≈ A * B – können latente KV‑Zustände erzeugt und anschließend in die nachfolgenden Gewichte integriert werden.

Bei modernen RoPE‑basierten Modellen stößt diese Technik jedoch an Grenzen: RoPE zwingt die latenten KV‑Zustände dazu, wieder auf die volle Dimension zurückgerechnet zu werden, was die Speicher- und Rechenlast wieder erhöht. Die Autoren schlagen das Konzept „RoPE‑Aligned Pruning“ (RAP) vor, bei dem ganze RoPE‑ausgerichtete Spaltenpaare entfernt werden. Dadurch bleibt die 2×2‑Rotationsstruktur von RoPE erhalten, die Absorption von B wird wieder möglich und die Rekonstruktion entfällt.

Die Evaluation an LLaMA‑3‑8B und Mistral‑7B zeigt, dass RAP gleichzeitig die KV‑Cache‑Größe, die Aufmerksamkeitsparameter und die FLOPs um 20 – 30 % reduziert – und das ohne Qualitätsverlust. Zusätzlich sinkt die Aufmerksamkeitslatenz auf 83 % (Prefill) und 77 % (Decode) im Vergleich zur Ausgangsimplementierung. Dieser Ansatz bietet damit einen vielversprechenden Weg, die Effizienz großer Sprachmodelle nachhaltig zu steigern.

Ähnliche Artikel