KI News: Kurz und klar.

Anmelden

AMLA: MUL by ADD in FlashAttention Rescaling

arXiv – cs.LG • 01.10.2025 05:00 • Original

#Multi-Head Latent Attention #KV-Cache #Ascend NPU #FlashAttention #Preload-Pipeline #hierarchisches Tiling #FLOPS-Auslastung

Anzeige

Ähnliche Artikel

arXiv – cs.AI • 24.11.2025 05:00

FlashCache: Frequenzdomänen-basierte KV-Cache-Kompression für multimodale LLMs

arXiv – cs.LG • 04.02.2026 05:00

SPA-Cache: Effiziente Caching-Strategie für Diffusions-Sprachmodelle

arXiv – cs.LG • 04.02.2026 05:00

RAP: Kompression des KV-Caches durch RoPE‑ausgerichtetes Pruning

The Register – Headlines • 28.01.2026 12:00

Agentische KI belastet moderne Speicherhierarchien

arXiv – cs.AI • 28.01.2026 05:00

CollectiveKV: Nutzerübergreifende KV-Caches für schnellere Empfehlungssysteme

arXiv – cs.AI • 28.01.2026 05:00

Neues Geometric Reasoner verbessert Langkettige Logik ohne Trainingsaufwand