CoT‑Länge spiegelt Problemlaufzeit nicht zuverlässig wider

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einer neuen Studie wird die weit verbreitete Annahme hinterfragt, dass längere „Chain‑of‑Thoughts“ (CoTs) bei Sprachmodellen automatisch auf ein höheres Maß an Problemlösungskomplexität hinweisen. Forscher haben Transformer‑Modelle von Grund auf neu trainiert, um die Zwischenschritte des A*‑Suchalgorithmus zu reproduzieren – ein Verfahren, bei dem die Anzahl der Operationen exakt die Schwierigkeit eines Labyrinth‑Problems angibt.

Die Ergebnisse überraschen: Selbst bei sehr einfachen Aufgaben erzeugen die Modelle häufig übermäßig lange Denkspuren und liefern manchmal gar keine Lösung. Bei Problemen, die außerhalb des Trainingsbereichs liegen, besteht nur ein schwaches Zusammenhängen zwischen der Länge der generierten Tokens und der tatsächlichen A*‑Trace‑Länge. Die wenigen Fälle, in denen eine Korrelation erkennbar ist, betreffen Aufgaben, die dem Trainingsdatensatz sehr ähnlich sind, was auf ein „approximate recall“ statt auf echte problem‑adaptive Berechnungen hindeutet.

Diese Erkenntnisse legen nahe, dass die Länge der Zwischenschritte kein verlässlicher Indikator für die Komplexität eines Problems ist. Für die Weiterentwicklung von Sprachmodellen, die auf logisches Denken abzielen, müssen daher neue Metriken und Trainingsstrategien entwickelt werden, die über die bloße Token‑Länge hinausgehen.

Ähnliche Artikel