Neuer Score misst Unsicherheit in Transformer-Schaltkreisen
In der Mechanistic‑Interpretability-Forschung wurden funktionale Teilgraphen in großen Sprachmodellen – die sogenannten Transformer‑Circuits – identifiziert, die anscheinend spezifische Algorithmen ausführen. Doch bislang fehlte ein einheitliches, einmaliges Verfahren, um zu bestimmen, ob ein aktiver Circuit kohärent arbeitet und damit vertrauenswürdig ist.
Die neue Studie baut auf systemtheoretischen Ansätzen auf und kombiniert Sheaf‑/Kohomologie‑Methoden mit einer Perspektive der kausalen Emergenz. Das Ergebnis ist der Effective‑Information Consistency Score (EICS), ein dimensionloser, White‑Box‑Score, der in einem einzigen Durchlauf berechnet wird.
EICS setzt sich aus zwei Komponenten zusammen: Erstens einer normalisierten Sheaf‑Inkonstistenz, die aus lokalen Jacobian‑Werten und Aktivierungen abgeleitet wird, und zweitens einem Gauß‑EI‑Proxy, der die kausale Emergenz auf Circuit‑Ebene aus demselben Vorwärtssignal erfasst. Beide Teile stammen aus denselben Forward‑State‑Daten, wodurch die Berechnung effizient bleibt.
Die Autoren geben praktische Hinweise zur Interpretation des Scores, erläutern den Rechenaufwand – inklusive schneller und exakter Modi – und führen eine toy‑Sanity‑Check‑Analyse durch. Eine umfangreiche Validierung an realen LLM‑Aufgaben steht noch aus.