Relevance Patching: Schnellere und zuverlässigere Circuit-Entdeckung

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der mechanistischen Interpretierbarkeit wird das Aktivierungs‑Patching häufig eingesetzt, um die Modellkomponenten zu identifizieren, die für bestimmte Verhaltensweisen verantwortlich sind. Diese Methode ist jedoch bei großem Umfang sehr rechenintensiv. Attribution‑Patching bietet eine schnellere, gradientenbasierte Alternative, leidet aber unter Rauschen und geringerer Zuverlässigkeit in tiefen, stark nichtlinearen Netzwerken.

Die neue Technik namens Relevance Patching (RelP) ersetzt die lokalen Gradienten in Attribution‑Patching durch Propagationskoeffizienten, die aus der Layer‑wise Relevance Propagation (LRP) abgeleitet werden. LRP leitet die Ausgaben des Netzwerks rückwärts durch die Schichten und verteilt die Relevanz gemäß lokaler Regeln, die Eigenschaften wie Relevanz‑Erhaltung oder ein verbessertes Signal‑zu‑Rausch‑Verhältnis gewährleisten. RelP benötigt lediglich zwei Vorwärtsdurchläufe und einen Rückwärtsdurchlauf, wodurch die Rechenleistung erhalten bleibt, die Genauigkeit jedoch deutlich steigt.

Durch umfangreiche Tests an verschiedenen Modellen und Aufgaben hat sich gezeigt, dass RelP die Aktivierungs‑Patching‑Ergebnisse wesentlich genauer approximiert als herkömmliches Attribution‑Patching. Besonders bei der Analyse von Residual‑Stream‑ und MLP‑Ausgaben im Indirect Object Identification (IOI) Task liefert RelP deutlich höhere Korrelationen – beispielsweise bei GPT‑2 Large erreicht RelP eine Pearson‑Korrelation von 0.956, während Attribution‑Patching bei 0.006 liegt. Zudem schneiden die von RelP identifizierten sparsamen Feature‑Circuits in Bezug auf Glaubwürdigkeit mit denen von Integrated Gradients (IG) gleich ab.

Ähnliche Artikel