<p>MathForge: Schwierigkeitsorientiertes Lernen steigert mathematisches Denken</p> <p>Ein neues Verfahren namens MathForge nutzt Reinforcement Learning mit verifizierbaren Belohnungen, um die mathematischen Fähigkeiten großer Modelle zu verbessern. Dabei wird deutlich, dass bisherige Ansätze – sowohl auf algorithmischer als auch auf Datenebene – zu wenig Wert auf besonders schwierige Fragen legen, obwohl diese entscheidend für die Weiterentwicklung der Fähigkeiten sind.</p> <p>Der Algorithmus Group Relative

arXiv – cs.AI Original
Anzeige