Forschung arXiv – cs.AI

CoTJudger: Tool zur Messung von Effizienz und Redundanz in Sprachmodellen

Large Reasoning Models (LRMs) haben gezeigt, dass sie durch ausführliche Chain-of-Thought‑Spuren (CoT) vor dem endgültigen Antwortschreiben starke Leistungen erzielen. Dieses Vorgehen führt jedoch häufig zu „Over‑Reason…

≈1 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Large Reasoning Models (LRMs) haben gezeigt, dass sie durch ausführliche Chain-of-Thought‑Spuren (CoT) vor dem endgültigen Antwortschreiben starke Leistungen erzielen.
  • Dieses Vorgehen führt jedoch häufig zu „Over‑Reasoning“ – unnötige Berechnungen und selbstverifizierende Schleifen, die die Rechenkosten erhöhen, ohne die Ergebnisse zu…
  • Derzeit konzentrieren sich die meisten Evaluierungen auf die Endgenauigkeit oder grobe Tokenzahlen und bieten keine automatisierten Mittel, um die eigentliche Logik von…

Large Reasoning Models (LRMs) haben gezeigt, dass sie durch ausführliche Chain-of-Thought‑Spuren (CoT) vor dem endgültigen Antwortschreiben starke Leistungen erzielen. Dieses Vorgehen führt jedoch häufig zu „Over‑Reasoning“ – unnötige Berechnungen und selbstverifizierende Schleifen, die die Rechenkosten erhöhen, ohne die Ergebnisse zu verbessern.

Derzeit konzentrieren sich die meisten Evaluierungen auf die Endgenauigkeit oder grobe Tokenzahlen und bieten keine automatisierten Mittel, um die eigentliche Logik von struktureller Redundanz zu trennen. Mit CoTJudger wird dieses Problem angegangen: Das Tool wandelt freie CoT‑Spuren in gerichtete Abhängigkeitsgraphen um und extrahiert den kürzesten effektiven Pfad (Shortest Effective Path, SEP), der nötig ist, um die korrekte Lösung zu erreichen.

Durch diese graphbasierte Analyse erhält man ein klares Effizienzsignal – ein Maß dafür, wie viel des CoT tatsächlich notwendig ist und wie viel strukturell überflüssig bleibt. Die Messung ist modell- und aufgabenübergreifend vergleichbar und liefert nachvollziehbare Einblicke.

Bei einer Evaluation von 21 LRMs zeigte CoTJudger weit verbreitete Redundanz und wiederkehrende Fehlerarten wie eine übermäßige Verifikationsobsession und kompensatorische Redundanz. Diese Erkenntnisse liefern einen praktischen Metrikrahmen, um die reine Rechenleistung von LRMs von ineffizientem Rechenaufwand zu trennen und gezielte Diagnosen sowie Optimierungen zu ermöglichen.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Large Reasoning Models
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Chain-of-Thought
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Over-Reasoning
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen