ATEX-CF: Angriffsgestützte Gegenfaktische Erklärungen für Graph Neural Networks

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Ein neues Verfahren namens ATEX‑CF vereint die Techniken von Adversarial Attacks und Gegenfaktischen Erklärungen, um Graph Neural Networks (GNNs) besser verständlich zu machen. Durch die Kombination beider Ansätze entsteht ein einziges Tool, das gezielt minimale Änderungen an Knotenverbindungen vorschlägt, die die Vorhersage des Modells umkehren.

Der Schlüssel liegt in der gemeinsamen Zielsetzung: sowohl Angriffe als auch Gegenfaktiken streben danach, die Klassifikation eines Knotens zu verändern. Während Angriffe häufig neue Kanten hinzufügen, setzen Gegenfaktiken meist auf das Entfernen von Kanten. ATEX‑CF nutzt beide Strategien gleichzeitig und stützt sich dabei auf theoretische Grundlagen, um die Wirkung der Änderungen präzise zu bestimmen.

Das Verfahren optimiert gleichzeitig drei wichtige Kriterien: die Treue zur ursprünglichen Vorhersage, die Sparsamkeit der Änderungen und die Plausibilität der vorgeschlagenen Graphstrukturen. Durch die Begrenzung des zulässigen Störungsbudgets liefert ATEX‑CF knappe, realistische Erklärungen, die auf einzelne Instanzen zugeschnitten sind.

Experimentelle Tests auf synthetischen Daten sowie auf realen Knotenklassifikationsaufgaben zeigen, dass ATEX‑CF zuverlässige, kompakte und plausibel erscheinende Erklärungen erzeugt. Die Ergebnisse unterstreichen die Wirksamkeit, wenn man Erkenntnisse aus Adversarial Attacks in die Gegenfaktische Analyse von GNNs einbindet.

Ähnliche Artikel