SpecAttn: Schnellere LLM‑Inferenz mit sparsamer Attention und Selbst‑Spekulation
Die Inferenz von großen Sprachmodellen mit langen Kontexten ist heute Standard, doch sie wird stark durch die wachsenden Speicheranforderungen des KV‑Caches begrenzt. Forscher haben gezeigt, dass Selbst‑Spekulation in Kombination mit sparsamer Attention die Geschwindigkeit ohne Qualitätsverlust steigern kann, indem Tokens zunächst mit einem Teil des KV‑Caches entworfen und anschließend mit dem vollständigen Cache geprüft werden.