LLMs zeigen bei deterministischen Aufgaben einen Accuracy-Cliff
Eine neue Studie aus dem arXiv-Repository untersucht, wie gut große Sprachmodelle (LLMs) bei wiederholten, deterministischen Vorhersageaufgaben abschneiden. Dabei wird die Genauigkeit der Modelle in Abhängigkeit von der Ausgabelänge gemessen.
Die Aufgaben bestehen aus einfachen, sich wiederholenden Operationen – etwa Buchstabenersetzungen nach einer festen Regel, Addition von Ganzzahlen oder die Multiplikation von String‑Operatoren in der Quantenmechanik. Wenn ein Modell die Aufgabe lediglich durch Wiederholung ausführt, sollte die Erfolgsrate mit zunehmender Sequenzlänge exponentiell abfallen. Stattdessen zeigen die Experimente bei führenden LLMs einen scharfen, doppelt exponentiellen Abfall ab einer charakteristischen Länge. Dieser „Accuracy‑Cliff“ markiert den Übergang von zuverlässiger zu instabiler Generierung.
Die Autoren erklären das Phänomen mit einem Modell aus der statistischen Physik, das den Wettbewerb zwischen der äußeren Bedingung des Prompts und der inneren Interferenz zwischen generierten Tokens beschreibt. Das Modell reproduziert die beobachteten Übergänge quantitativ und liefert interpretierbare Parameter, die die inhärente Fehlerquote und den Fehlerakkumulationsfaktor für jedes Modell‑Aufgaben‑Paar beschreiben. Damit bietet die Arbeit einen fundierten Rahmen, um die Grenzen deterministischer Genauigkeit in großen Sprachmodellen zu verstehen.