Der Residual-Stream ist alles: KV-Cache in Transformer-Inferezen redundant
Eine neue Veröffentlichung auf arXiv beweist, dass der Key‑Value‑Cache (KV‑Cache), der in der Transformer‑Inference seit langem als unverzichtbare Zustandskomponente gilt, vollständig überflüssig ist. Die Autoren zeigen…