LTA-thinker: Latent Thought-Augmented Training Framework for Large Language Models on Complex Reasoning
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
Boosting Accuracy and Efficiency of Budget Forcing in LLMs via Reinforcement Learning for Mathematical Reasoning
arXiv – cs.AI
•
Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time
arXiv – cs.AI
•
Building Coding Agents via Entropy-Enhanced Multi-Turn Preference Optimization
arXiv – cs.AI
•
Narrow Finetuning erhöht Risiko von emergentem Misalignment – Domänenabhängigkeit
arXiv – cs.AI
•
Ressourcenschonende Verstärkung für LLMs: One-Shot-Policy-Optimierung
arXiv – cs.AI
•
InfoReasoner: KI nutzt synthetische Belohnung zur besseren Informationssuche