Scaling Up, Speeding Up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
SDFP: Training‑freies Draft‑Modell für schnelle LLM‑Decodierung
arXiv – cs.AI
•
CoS: Dynamisches Routing für LLMs steigert Genauigkeit um 65 % bei bAbI
arXiv – cs.AI
•
Mehr aus Weniger lernen: REPCORE nutzt interne Zustände zur Benchmark-Kompression
arXiv – cs.AI
•
Neues Benchmark deckt Schwächen großer Sprachmodelle im Mathematik‑Denken auf
arXiv – cs.AI
•
AMA: Adaptive Memory durch Multi-Agenten-Kollaboration
arXiv – cs.LG
•
ThinkTank-ME: Mehrfach-Experten-Framework für Ereignisprognosen im Nahen Osten