Mehrfaches Chain-of-Thought-Voting verbessert geometrisches Rechnen in LLMs
Ein neues Modell namens MARS‑GPS setzt neue Maßstäbe im geometrischen Problemlösen mit großen Sprachmodellen. Durch die Kombination mehrerer paralleler Denkstränge, die jeweils mit Python-Code zur numerischen Verifikati…
- Ein neues Modell namens MARS‑GPS setzt neue Maßstäbe im geometrischen Problemlösen mit großen Sprachmodellen.
- Durch die Kombination mehrerer paralleler Denkstränge, die jeweils mit Python-Code zur numerischen Verifikation ergänzt werden, erreicht das System eine Genauigkeit von…
- Der Ansatz nutzt ein mehrstufiges Abstimmungsverfahren, bei dem die einzelnen Rollouts anhand ihrer Token‑Entropie bewertet und anschließend aggregiert werden.
Ein neues Modell namens MARS‑GPS setzt neue Maßstäbe im geometrischen Problemlösen mit großen Sprachmodellen. Durch die Kombination mehrerer paralleler Denkstränge, die jeweils mit Python-Code zur numerischen Verifikation ergänzt werden, erreicht das System eine Genauigkeit von 88,8 % auf dem Geometry3K‑Datensatz – ein Plus von fast 11 % gegenüber dem bisherigen Stand der Technik.
Der Ansatz nutzt ein mehrstufiges Abstimmungsverfahren, bei dem die einzelnen Rollouts anhand ihrer Token‑Entropie bewertet und anschließend aggregiert werden. Dadurch wird nicht nur die diagrammatische Analyse und die symbolische Manipulation verbessert, sondern auch die bislang schwache logische Schlussfolgerung deutlich gestärkt.
Die Leistung steigt kontinuierlich mit der Anzahl der parallelen Rollouts: Von einem einzelnen Durchlauf bis zu sechzehn Rollouts verbessert sich die Genauigkeit um bis zu 6 % auf einem speziellen Ablations‑Set. Der komplette Code und die Daten stehen in einem anonymen Repository zur Verfügung: https://anonymous.4open.science/r/MARS-GPS-DE55.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.