Neues Paper zeigt: Entanglement bleibt trotz Feature‑Engineering bestehen
Ein kürzlich veröffentlichtes arXiv‑Paper (2512.15134v1) untersucht, ob gängige Interpretationsmethoden wie sparse Autoencoder (SAE) und sparse Probes tatsächlich entangled, also voneinander unabhängige, Repräsentationen von Konzepten aus den Aktivierungen neuronaler Netze extrahieren können. Das zentrale Ziel der Interpretierbarkeit ist es, kausal relevante Konzepte zu rekonstruieren – ein Vorhaben, das bislang meist in isolierten Szenarien mit impliziten Unabhängigkeitsannahmen bewertet wurde.
Um die Grenzen dieser Annahmen zu testen, baut die Studie ein Multi‑Concept‑Evaluation‑Setting auf, in dem die Korrelationen zwischen textuellen Konzepten wie Sentiment, Domain und Tense systematisch variiert werden. Durch gezielte Kontrolle dieser Zusammenhänge kann die Leistung der Featurizer bei steigender Korrelation analysiert werden.
Die Ergebnisse zeigen ein ein‑zu‑viele‑Verhältnis zwischen Konzepten und Features: Ein Feature kann höchstens ein Konzept repräsentieren, doch ein einzelnes Konzept verteilt sich über viele Features. Diese asymmetrische Struktur deutet darauf hin, dass die üblichen correlationalen Messgrößen allein nicht ausreichen, um echte Unabhängigkeit zu garantieren.
Weiterhin führen die Autoren Steering‑Experimente durch, bei denen einzelne Features manipuliert werden, um zu prüfen, ob Konzepte unabhängig steuert werden können. Selbst bei gleichmäßig verteilten Konzepten beeinflussen SAE‑Features häufig mehrere Konzepte, was auf fehlende Selektivität und Unabhängigkeit hinweist. Interessanterweise wirken die Features zwar auf disjunkte Teilräume, doch dies reicht nicht aus, um die gewünschte Konzept‑Selektivität zu erreichen. Die Studie unterstreicht damit, dass korrelationale Metriken allein nicht ausreichen, um die Unabhängigkeit von Konzepten beim Steuern sicherzustellen.