Building Coding Agents via Entropy-Enhanced Multi-Turn Preference Optimization
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
Boosting Accuracy and Efficiency of Budget Forcing in LLMs via Reinforcement Learning for Mathematical Reasoning
arXiv – cs.AI
•
Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time
arXiv – cs.AI
•
LTA-thinker: Latent Thought-Augmented Training Framework for Large Language Models on Complex Reasoning
arXiv – cs.LG
•
Stackelberg-Spiel optimiert Reward-Shaping für LLM-Alignment
arXiv – cs.LG
•
ContextEvolve: Multi-Agent-Ansatz optimiert Systemcode mit 33 % mehr Effizienz
arXiv – cs.LG
•
CodePilot: KI + Monte-Carlo-Suche zur automatischen Fehlerbehebung