LLMs erreichen bei langen Aufgaben inhärente Stabilitätsgrenze – Theorie erklärt
Große Sprachmodelle (LLMs) zeigen beeindruckende Rechenfähigkeiten, doch bei Aufgaben, die viele Zwischenschritte erfordern, treten plötzlich Leistungsabfälle auf. Diese „Performance-Cliffs“ wurden bislang vor allem auf die zunehmende Komplexität der Aufgaben zurückgeführt, etwa durch exponentielle Suchräume oder Schwierigkeiten bei der langfristigen Belohnungszuweisung.
In einer neuen Studie wird argumentiert, dass die Ursache tiefer liegt: die autoregressive Art der Textgenerierung selbst besitzt eine inhärente Stabilitätsgrenze. Selbst bei linearen, eindeutig strukturierten Aufgaben ohne semantische Mehrdeutigkeit führt die fortlaufende, sequentielle Entscheidungsfindung zu einer allmählichen Schwächung des Entscheidungsgewinns.
Der zentrale Befund – Theorem A – zeigt, dass der Vorteil einer einzelnen Entscheidungsroute mit zunehmender Ausführungslänge exponentiell abnimmt. Daraus folgt ein fundamentaler Grenzwert für die Länge von zusammenhängenden Rechenketten, die ein Modell zuverlässig verfolgen kann.
Die Theorie legt nahe, dass stabile, langfristige Argumentationsketten nur durch diskrete Segmentierung erreicht werden können. Dies führt zu einer natürlichen Neigung, die Ausführung in graphische Strukturen wie gerichtete azyklische Graphen (DAGs) zu zerlegen. Experimentelle Untersuchungen in synthetischen Umgebungen sowie in realen TextWorld‑Aufgaben bestätigen die Vorhersagen: die beobachteten Leistungsabfälle stimmen mit der theoretischen Grenzschwelle überein.
Diese dynamische Perspektive liefert ein neues Verständnis dafür, warum LLMs bei langen Aufgaben scheitern, und legt die Grundlage für zukünftige Architekturen, die diese inhärente Instabilität berücksichtigen und überwinden.