Forschung arXiv – cs.AI

Mehrfaches Chain-of-Thought-Voting verbessert geometrisches Rechnen in LLMs

Ein neues Modell namens MARS‑GPS setzt neue Maßstäbe im geometrischen Problemlösen mit großen Sprachmodellen. Durch die Kombination mehrerer paralleler Denkstränge, die jeweils mit Python-Code zur numerischen Verifikati…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Ein neues Modell namens MARS‑GPS setzt neue Maßstäbe im geometrischen Problemlösen mit großen Sprachmodellen.
  • Durch die Kombination mehrerer paralleler Denkstränge, die jeweils mit Python-Code zur numerischen Verifikation ergänzt werden, erreicht das System eine Genauigkeit von…
  • Der Ansatz nutzt ein mehrstufiges Abstimmungsverfahren, bei dem die einzelnen Rollouts anhand ihrer Token‑Entropie bewertet und anschließend aggregiert werden.

Ein neues Modell namens MARS‑GPS setzt neue Maßstäbe im geometrischen Problemlösen mit großen Sprachmodellen. Durch die Kombination mehrerer paralleler Denkstränge, die jeweils mit Python-Code zur numerischen Verifikation ergänzt werden, erreicht das System eine Genauigkeit von 88,8 % auf dem Geometry3K‑Datensatz – ein Plus von fast 11 % gegenüber dem bisherigen Stand der Technik.

Der Ansatz nutzt ein mehrstufiges Abstimmungsverfahren, bei dem die einzelnen Rollouts anhand ihrer Token‑Entropie bewertet und anschließend aggregiert werden. Dadurch wird nicht nur die diagrammatische Analyse und die symbolische Manipulation verbessert, sondern auch die bislang schwache logische Schlussfolgerung deutlich gestärkt.

Die Leistung steigt kontinuierlich mit der Anzahl der parallelen Rollouts: Von einem einzelnen Durchlauf bis zu sechzehn Rollouts verbessert sich die Genauigkeit um bis zu 6 % auf einem speziellen Ablations‑Set. Der komplette Code und die Daten stehen in einem anonymen Repository zur Verfügung: https://anonymous.4open.science/r/MARS-GPS-DE55.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

MARS-GPS
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
geometrisches Problemlösen
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
große Sprachmodelle
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen