Aufmerksamkeit in niedrigen Dimensionen: Neue Erkenntnisse für Sparse‑Learning

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Forscher haben entdeckt, dass die Ausgaben von Aufmerksamkeits‑Schichten in Transformer‑Modellen nicht im erwarteten hochdimensionalen Raum liegen, sondern in einem überraschend kleinen Unterraum konzentriert sind. Etwa 60 % der Richtungen erklären 99 % der Varianz – ein Effekt, der durch die Projektionsmatrix der Aufmerksamkeitsausgabe entsteht und bei verschiedensten Modellen und Datensätzen beobachtet wurde.

Diese niedrige Rangstruktur führt zu einem weit verbreiteten Problem bei sparsamen Wörterbuch‑Lernverfahren: die zufällig initialisierten Features passen nicht zur intrinsischen Geometrie des Aktivierungsraums, was zu einer hohen Anzahl „toten“ Features führt.

Um dem entgegenzuwirken, haben die Autoren ein subspace‑konstrahiertes Trainingsverfahren für sparse Autoencoder entwickelt. Dabei werden die Feature‑Richtungen direkt in den aktiven Unterraum der Aktivierungen initialisiert. Das Ergebnis ist beeindruckend: die Zahl der toten Features sinkt von 87 % auf weniger als 1 % bei einem Modell mit 1 Million Features. Die Methode lässt sich zudem auf andere sparsamen Wörterbuch‑Lernalgorithmen übertragen.

Die Arbeit liefert nicht nur ein tieferes Verständnis der geometrischen Struktur von Aufmerksamkeits‑Ausgaben, sondern bietet auch praktische Werkzeuge, um die Effizienz und Stabilität sparsamer Lernverfahren in großen Sprachmodellen deutlich zu verbessern.

Ähnliche Artikel