KI News: Kurz und klar.

Anmelden

Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting

arXiv – cs.LG • 13.10.2025 05:00 • Original

#Reinforcement Learning #Large Language Models #Group Relative Policy Optimization #Negative Samples #Likelihood Estimation #Confidence-weighted Penalty #MATH Benchmark

Anzeige

Ähnliche Artikel

arXiv – cs.LG • 05.11.2025 05:00

Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR

arXiv – cs.AI • 03.11.2025 05:00

GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation

arXiv – cs.LG • 29.10.2025 04:00

Neues RL-Framework GIFT vereint GRPO, DPO und UNA für bessere LLM‑Ausrichtung

arXiv – cs.AI • 22.10.2025 05:00

OPTAGENT: Optimizing Multi-Agent LLM Interactions Through Verbal Reinforcement Learning for Enhanced Reasoning

arXiv – cs.LG • 22.10.2025 05:00

Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning

arXiv – cs.AI • 20.10.2025 05:00

MARS: Reinforcing Multi-Agent Reasoning of LLMs through Self-Play in Strategic Games