Neues Messinstrument PSI enthüllt polysematische Neuronen in neuronalen Netzen
Forscher haben einen neuen Index entwickelt, der die polysematische Natur von Neuronen in neuronalen Netzwerken quantifiziert. Der Polysemanticity Index (PSI) kombiniert drei unabhängige, kalibrierte Komponenten – die geometrische Clusterqualität (S), die Ausrichtung an gelabelten Kategorien (Q) und die semantische Unterscheidbarkeit über CLIP (D) – um festzustellen, ob die stärksten Aktivierungen eines Neurons in eindeutig unterscheidbare semantische Cluster aufgeteilt werden können.
Bei einer vortrainierten ResNet‑50‑Architektur, die mit Tiny‑ImageNet‑Bildern evaluiert wurde, zeigte der PSI, dass spätere Schichten deutlich höhere Polysemanticitätswerte aufweisen als frühere. Das bedeutet, dass Neuronen in tieferen Ebenen häufiger mehrere, oft nicht zusammenhängende Konzepte gleichzeitig repräsentieren. Diese Tiefenabhängigkeit wurde durch umfangreiche Robustheitsprüfungen bestätigt, bei denen Hyperparameter, Zufallsinitialisierungen und unterschiedliche Text‑Encoder‑Köpfe variiert wurden.
Ein weiteres Highlight der Studie ist die Anwendung von kausalen Patch‑Swap‑Interventionen. Durch das gezielte Ersetzen von Bildpatches, die mit dem Zielneuron übereinstimmen, konnten die Aktivierungen signifikant erhöht werden – im Gegensatz zu zufälligen, nicht ausgerichteten oder abgelehnten Kontrollen. Diese Ergebnisse zeigen, dass der PSI nicht nur ein diagnostisches Werkzeug ist, sondern auch praktisch zur gezielten Manipulation und zum besseren Verständnis von polysematischen Einheiten eingesetzt werden kann.
Insgesamt bietet der PSI einen systematischen Ansatz, um polysematische Neuronen zu entdecken, zu quantifizieren und zu untersuchen. Damit eröffnet sich ein neues Feld für die mechanistische Interpretierbarkeit von tiefen neuronalen Netzwerken, das sowohl für die Forschung als auch für die Entwicklung robuster KI‑Modelle von großer Bedeutung ist.