Forschung
ScoutAttention: CPU‑Vorberechnung beschleunigt KV‑Cache‑Offloading bei LLMs
Große Sprachmodelle stoßen bei langen Kontexten an die Grenzen der GPU‑Speicherkapazität, weil der KV‑Cache enorme Mengen an Speicher beans…
arXiv – cs.LG