RSM: Schnelleres, genaueres rekursives Modell für NP-Probleme
Ein neues arXiv-Papier präsentiert den Recursive Stem Model (RSM), ein rekursives Reasoning‑Modell, das die Architektur des Tiny Recursive Model (TRM) beibehält, doch die Trainingsmethode radikal verändert. Durch das vo…
- Ein neues arXiv-Papier präsentiert den Recursive Stem Model (RSM), ein rekursives Reasoning‑Modell, das die Architektur des Tiny Recursive Model (TRM) beibehält, doch di…
- Durch das vollständige Entkoppeln der versteckten Zustandsgeschichte während des Trainings und die Verwendung von „warm‑up“‑Schritten, bei denen nur der finale Schritt m…
- Die Kombination aus unabhängiger Skalierung der äußeren Rekursionstiefe (H) und der inneren Rechentiefe (L) sowie einem stochastischen Außen‑Übergangsschema reduziert d…
Ein neues arXiv-Papier präsentiert den Recursive Stem Model (RSM), ein rekursives Reasoning‑Modell, das die Architektur des Tiny Recursive Model (TRM) beibehält, doch die Trainingsmethode radikal verändert. Durch das vollständige Entkoppeln der versteckten Zustandsgeschichte während des Trainings und die Verwendung von „warm‑up“‑Schritten, bei denen nur der finale Schritt mit Loss bewertet wird, lernt RSM einen stabilen, tiefenunabhängigen Übergangsoperator.
Die Kombination aus unabhängiger Skalierung der äußeren Rekursionstiefe (H) und der inneren Rechentiefe (L) sowie einem stochastischen Außen‑Übergangsschema reduziert die Trainingszeit um mehr als das Zwanzigfache und senkt die Fehlerquote um etwa das Fünffache im Vergleich zu TRM. Gleichzeitig bleibt die Modellarchitektur unverändert, sodass RSM ohne erneutes Training beliebig viele Refinement‑Schritte zur Inference ausführen kann.
In praktischen Tests erzielt RSM beeindruckende Ergebnisse: Auf dem Sudoku‑Extreme‑Datensatz erreicht es 97,5 % exakte Genauigkeit, während es auf dem 30 × 30‑Maze‑Hard‑Datensatz rund 80 % exakte Genauigkeit in weniger als 40 Minuten erzielt – alles mit einer einzigen A100‑GPU und innerhalb einer Stunde Trainingszeit.
Diese Fortschritte zeigen, dass rekursive Modelle nicht nur schneller und genauer werden können, sondern auch flexibel an unterschiedliche Test‑Zeit‑Anforderungen angepasst werden lassen. RSM eröffnet damit neue Möglichkeiten für die Lösung von rechenintensiven NP‑Problemen in praktischen Anwendungen.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.