VSPrefill: Neue Sparse‑Attention für lange Kontexte – 4,95‑fach schneller
Die quadratische Komplexität der Selbst‑Attention‑Phase behindert die Nutzung von Sprachmodellen mit sehr langen Kontexten. Bestehende Sparse‑Attention‑Ansätze müssen dabei zwischen Kontext‑Anpassungsfähigkeit, zusätzli…