Kalibrierung im RL neu belebt: Trennung von Logik und Vertrauen
Reinforcement Learning from Verifiable Rewards (RLVR) hat die Fähigkeit großer Sprachmodelle, komplexe Probleme zu lösen, deutlich verbessert – doch gleichzeitig taucht ein ernstes Problem auf: die Modelle werden übermä…