Mehr Vielfalt, weniger Redundanz: Multi-Expert Sparse Autoencoder für LLMs
Sparse Autoencoder (SAEs) haben sich als leistungsstarkes Werkzeug etabliert, um große Sprachmodelle (LLMs) zu entschlüsseln. Sie zerlegen die Token‑Aktivierungen in Kombinationen von leicht verständlichen Merkmalen, wodurch die Funktionsweise der Modelle transparent wird.
Ein zentrales Hindernis bei der praktischen Nutzung von SAEs ist die Notwendigkeit hoher Dimensionalität in den versteckten Schichten. Nur so kann die gewünschte Sparsität erreicht werden, doch damit steigen die Trainings- und Inferenzkosten drastisch an.
Um diesen Kosten entgegenzuwirken, setzen aktuelle Ansätze auf Mixture‑of‑Experts (MoE). Dabei werden die SAEs in mehrere schmalere Expertennetzwerke aufgeteilt, die über ein Gate gesteuert werden. In einem idealen MoE sollte jeder Experte ein eigenes, spezifisches Merkmal erlernen. In der Praxis zeigen sich jedoch häufig Überschneidungen: Experten lernen oft dieselben oder stark überlappende Features.
Die vorgestellte Arbeit adressiert dieses Problem mit zwei Schlüsselinnovationen. Erstens wird die Multiple Expert Activation eingesetzt, die gleichzeitig semantisch gewichtete Expertensubsets aktiviert und so die Spezialisierung fördert. Zweitens kommt Feature Scaling zum Einsatz, das die Vielfalt durch adaptive Hochfrequenz‑Skalierung erhöht.
Experimentelle Ergebnisse belegen die Wirksamkeit: Der Rekonstruktionsfehler sinkt um 24 % und die Feature‑Redundanz reduziert sich um 99 % im Vergleich zu bestehenden MoE‑SAE‑Methoden. Damit wird die Kluft zwischen Interpretierbarkeit und Effizienz in der Analyse von LLMs signifikant geschoben.
Dieses Verfahren ermöglicht es Forschern und Entwicklern, Sprachmodelle transparent zu untersuchen, ohne dabei die Rechenkosten unverhältnismäßig zu erhöhen. Es stellt einen wichtigen Schritt dar, um die Komplexität großer KI‑Modelle handhabbar und nachvollziehbar zu machen.