Paged Attention: GPU‑Speicheroptimierung für große Sprachmodelle
Bei der Ausführung von Large Language Models (LLMs) in großem Maßstab ist die eigentliche Engpassstelle nicht die Rechenleistung, sondern der GPU‑Speicher. Jeder Anfrage muss ein KV‑Cache zur Speicherung token‑basierter…