Autocurriculum: Training von Sprachmodellen für Chain-of-Thought-Reasoning optimiert
Chain-of-Thought-Reasoning, bei dem Sprachmodelle vor der Endantwort zusätzliche Denk‑Tokens erzeugen, hat die Leistungsfähigkeit von KI stark vorangebracht. Doch das Training dieser Modelle ist extrem teuer – es erford…