SPA-Cache: Effiziente Caching-Strategie für Diffusions-Sprachmodelle

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Diffusions-Sprachmodelle (DLMs) bieten eine flexible Alternative zum autoregressiven Ansatz, doch ihre nicht-kausale Struktur verhindert die Nutzung herkömmlicher KV‑Caches. Das führt zu aufwändiger Neuberechnung der versteckten Zustände bei jedem Decodierungsschritt. Bestehende Caching‑Methoden reduzieren diesen Aufwand zwar, stoßen jedoch an Grenzen: sie verwenden kostenintensive token‑weise Heuristiken zur Update‑Erkennung und verteilen Budgets zu starr, ohne die unterschiedlichen Dynamiken der Zustände zu berücksichtigen.

Mit SPA‑Cache wird dieses Problem adressiert, indem Update‑Identifikation und Budget‑Zuweisung gleichzeitig optimiert werden. Zunächst wird ein kompakter, low‑dimensionaler Singular‑Proxy entwickelt, der kritische Tokens im reduzierten Raum erkennt und damit die Identifikationskosten drastisch senkt. Anschließend kommt eine adaptive Strategie zum Einsatz, die stabile Layer weniger häufig aktualisiert, ohne die Qualität der Textgenerierung zu beeinträchtigen.

Die Ergebnisse sind beeindruckend: SPA‑Cache steigert die Durchsatzrate um bis zu achtmal im Vergleich zum Standard‑Decodieren und übertrifft bestehende Caching‑Baselines um zwei bis viermal. Damit eröffnet die Methode einen bedeutenden Fortschritt in der effizienten Nutzung von Diffusions‑Sprachmodellen.

Ähnliche Artikel