Neue Theorie erklärt und verbessert Testzeit‑Skalierung bei LLMs

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einer wegweisenden Studie wird erstmals ein theoretisches Fundament für die gängige Praxis der Testzeit‑Skalierung bei großen Sprachmodellen (LLMs) gelegt. Dabei konzentriert sich die Forschung auf sampling‑basierte Verfahren, die während der Inferenz mehrere Denkpfade erzeugen, um die Rechenleistung gezielt zu nutzen.

Der neue Rahmen betrachtet die Methoden aus Sicht der Vertrauensabschätzung und analysiert die beiden dominierenden Ansätze – Self‑Consistency und Perplexity. Dabei werden signifikante Schwächen aufgedeckt: Self‑Consistency leidet unter hoher Schätzfehlerquote, während Perplexity sowohl Modellierungsfehler als auch eine mögliche Verschlechterung der Konvergenz des Schätzfehlers aufweist.

Um diese Grenzen zu überwinden, wird RPC vorgestellt, ein hybrides Verfahren, das zwei Kernkomponenten nutzt: Perplexity Consistency, das die Vorteile beider Ansätze kombiniert und die Konvergenz des Schätzfehlers von linear auf exponentiell beschleunigt, sowie Reasoning Pruning, das unwahrscheinliche Denkpfade eliminiert, um eine weitere Verschlechterung zu verhindern.

Wissenschaftliche Analysen und umfangreiche Experimente an sieben Benchmark‑Datensätzen zeigen, dass RPC die Fehlerquote bei der Beantwortung komplexer Fragen deutlich senkt. Das Verfahren erreicht dabei eine Leistungsstufe, die mit der von Self‑Consistency vergleichbar ist, jedoch ohne die zuvor beobachteten Nachteile.

Ähnliche Artikel