ScoutAttention: CPU‑Vorberechnung beschleunigt KV‑Cache‑Offloading bei LLMs
Große Sprachmodelle stoßen bei langen Kontexten an die Grenzen der GPU‑Speicherkapazität, weil der KV‑Cache enorme Mengen an Speicher beansprucht. Traditionelle Ansätze, den Cache in DRAM auszulagern, leiden an häufigen…