Maskierte Regularisierung stärkt Robustheit sparser Autoencoder
Spärliche Autoencoder (SAEs) sind ein zentrales Werkzeug, um die Aktivierungen großer Sprachmodelle in kompakte, interpretierbare Latenträume zu projizieren. Trotz ihrer Beliebtheit zeigen neueste Untersuchungen, dass d…