KI News: Kurz und klar.

Anmelden

Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR

arXiv – cs.LG • 05.11.2025 05:00 • Original

#Large Language Models #Step-by-Step Reasoning #Reinforcement Learning #RLVR #Length Regularization #Emergent Brevity #Qwen3-4B-Thinking-2507

Anzeige

Ähnliche Artikel

arXiv – cs.LG • 15.01.2026 05:00

GeoRA: Geometriebewusste Low‑Rank‑Anpassung verbessert RLVR-Modelle

arXiv – cs.LG • 12.01.2026 05:00

Dynamische Hybrid-Optimierung: Token- und Sequenz-Strategien vereint

arXiv – cs.LG • 10.09.2025 05:00

The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

arXiv – cs.AI • 03.02.2026 05:00

Ressourcenschonende Verstärkung für LLMs: One-Shot-Policy-Optimierung

arXiv – cs.LG • 03.02.2026 05:00

Robuste KI-Logik: GASP stärkt Modelle gegen fehlerhafte Eingaben

arXiv – cs.AI • 03.02.2026 05:00

KEPO: Wissensbasierte Präferenzoptimierung für Reinforcement Learning