ParaThinker: Paralleldenken steigert LLM-Leistung bei Testzeit
Anzeige
Warum stoßen sequenzielle LLMs an ihre Grenzen? Testzeit‑Computing‑Skalierung hat sich traditionell auf das Ausweiten einzelner Denkpfade konzentriert. Diese Methode verbessert die Argumentation nur bis zu einem gewissen Punkt, danach stagniert die Leistung.
Experimente mit DeepSeek‑R1‑distill‑Qwen‑1.5B zeigen, dass ein Token‑Budget von über 32 000 Tokens – bis zu 128 000 Tokens – kaum Genauigkeitszuwächse bringt. Der Engpass entsteht bereits früh im Token‑Verlauf.
ParaThinker nutzt nativen Paralleldenken, um diese Tunnelvision zu überwinden und die Testzeit‑Performance nachhaltig zu erhöhen.
Ähnliche Artikel
arXiv – cs.LG
•
Regularization Through Reasoning: Systematic Improvements in Language Model Classification via Explanation-Enhanced Fine-Tuning
arXiv – cs.LG
•
The Structural Scalpel: Automated Contiguous Layer Pruning for Large Language Models
arXiv – cs.AI
•
PerFairX: Balance zwischen Fairness und Persönlichkeit bei LLM‑Empfehlungen
arXiv – cs.LG
•
CALR: Adaptive Low‑Rank‑Kompression für effiziente LLM‑Layer
The Register – Headlines
•
DeepSeek kämpft mit problematischen Huawei-Chips bei R2-Modell
Analytics Vidhya
•
Gemini API File Search: The Easy Way to Build RAG