KVCompose: Effiziente KV-Cache-Kompression mit Composite Tokens

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Neues Verfahren namens KVCompose reduziert den Speicherbedarf von Key‑Value‑Caches in großen Sprachmodellen drastisch, ohne die Genauigkeit zu beeinträchtigen. Durch die Kombination von aufmerksamkeitsbasierten Token‑Gewichten und einer schicht‑adaptiven Auswahl werden nur die wichtigsten Tokens beibehalten und zu sogenannten Composite Tokens zusammengefasst.

Der Ansatz nutzt die Aufmerksamkeit jedes einzelnen Heads, um die Relevanz einzelner Tokens zu bestimmen. Anschließend werden für jeden Head separat die wichtigsten Tokens ausgewählt und anschließend zu Composite Tokens zusammengeführt. Diese Tokens behalten die gleiche Cache‑Struktur bei, die von bestehenden Inferenz‑Engines erwartet wird, sodass keine Änderungen an den Kernalgorithmen nötig sind.

Ein globaler Allokationsmechanismus verteilt die verfügbaren Speicherplätze gezielt auf die Schichten, die die wertvollsten Informationen enthalten. Dadurch erhalten tiefere Schichten mehr Kapazität, während weniger wichtige Schichten weniger Speicher beanspruchen. Das Ergebnis ist eine erhebliche Reduktion des Speicherverbrauchs bei gleichbleibender oder sogar verbesserter Modellleistung.

KVCompose ist vollständig kompatibel mit Standard‑Inference‑Pipelines und bietet damit eine praktikable, skalierbare Lösung für die effiziente Nutzung von Sprachmodellen mit langen Kontexten.

Ähnliche Artikel