MAC-Attention: Schnellere und genaue Attention‑Berechnung für lange Kontexte
In der Welt der großen Sprachmodelle (LLMs) ist die Verarbeitung langer Kontexte oft durch I/O‑Bottlenecks begrenzt: jedes neue Token muss einen immer größer werdenden KV‑Cache erneut lesen. Traditionelle Beschleunigung…