ORION: Sprachmodelle lernen kompakte, effiziente Logik in Mentalese

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die neueste Forschung von ORION zeigt, wie große Sprachmodelle ihre Rechenleistung drastisch steigern können, indem sie lernen, in einer kompakten, mentalen Sprache zu denken. Anstatt lange, wortreiche Denkketten zu erzeugen, nutzt das System ein ultra-komprimiertes Token-Format namens Mentalese, das abstrakte Logik in wenigen, strukturierten Symbolen abbildet.

Durch die Einführung der Shorter Length Preference Optimization (SLPO) – einer Reinforcement‑Learning‑Methode, die präzise, aber korrekte Lösungen belohnt – wird die Effizienz weiter erhöht. SLPO erlaubt es dem Modell, bei Bedarf längere Überlegungen anzustellen, ohne dabei die kompakte Struktur zu verlieren.

In umfangreichen Benchmarks wie AIME 2024/25, MinervaMath, OlympiadBench, Math500 und AMC erzielte ORION Modelle 4‑bis‑16‑fach weniger Tokens in den Beweissträngen, reduzierte die Inferenzlatenz um bis zu 5‑fach und senkte die Trainingskosten um 7‑bis‑9‑fach im Vergleich zum DeepSeek R1 Distilled Modell. Gleichzeitig behielt es 90‑98 % der Genauigkeit bei und übertraf Claude sowie ChatGPT‑4o um bis zu 5 % in der Genauigkeit, während es die Kompression um das Doppelte beibehielt.

Diese Ergebnisse demonstrieren, dass ein Mentalese‑basierter, komprimierter Denkstil einen skalierbaren Weg zu schnelleren, kostengünstigeren und dennoch hochpräzisen großen Rechenmodellen bietet.

Ähnliche Artikel