Transformers: Quantitative Grenzen für Längen-Generalisation enthüllt

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einer neuen Studie auf arXiv (2510.27015v1) wird endlich klar, wie lang die Trainingssequenzen sein müssen, damit Transformer bei deutlich längeren, bislang unbekannten Eingaben ihre Leistung beibehalten. Die Arbeit baut auf früheren Erkenntnissen von Huang et al. (2025) auf, die gezeigt haben, dass Transformers irgendwann die Längen-Generalisation erreichen, wenn die Trainingslänge einen bestimmten Schwellenwert überschreitet. Hier wird dieser Schwellenwert nun quantifiziert.

Die Autoren untersuchen verschiedene Szenarien: die Kontrolle des maximalen Fehlers versus des durchschnittlichen Fehlers, Softmax‑Aufmerksamkeit mit unendlicher Präzision im Vergleich zu einer begrenzten, argmax‑basierten Variante, sowie Ein‑ und Zweischicht‑Transformer. In allen Fällen zeigen sie, dass die Generalisation eintritt, sobald das Verhalten des Modells auf längeren Sequenzen durch das Verhalten auf kürzeren, im Training gesehenen Sequenzen „simuliert“ werden kann.

Die resultierenden Grenzen liefern qualitative Schätzungen dafür, wie viel Trainingsdaten nötig sind, um bei komplexeren Aufgaben eine robuste Längen-Generalisation zu erzielen. Die Autoren bestätigen ihre theoretischen Vorhersagen durch Experimente, die die praktische Relevanz der Ergebnisse unterstreichen. Diese Arbeit vertieft das Verständnis der Mechanismen hinter der Extrapolation von Transformer‑Modellen und legt einen klaren quantitativen Rahmen für zukünftige Trainingsstrategien fest.

Ähnliche Artikel