Enhancing LLM Efficiency: Targeted Pruning for Prefill-Decode Disaggregation in Inference
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
LLMs unter Soft-Error-Test: Erste Analyse der GPU-Ausfallanfälligkeit
arXiv – cs.AI
•
PolyBench: KI-Benchmark für Polymerdesign – Kleine Modelle schlagen Giganten
arXiv – cs.LG
•
STEP: Schrittweise Bewertung von Traces senkt LLM‑Latenz um bis zu 70 %
arXiv – cs.LG
•
AIConfigurator: Blitzschnelle LLM-Serving-Optimierung über mehrere Frameworks
MarkTechPost
•
KV‑Caching: So beschleunigen Sie LLM‑Inferenz in der Produktion
arXiv – cs.LG
•
OPTIMA: One-Shot-Pruning von LLMs mit Quadratischer Programmierung – neue Genauigkeit