Schnellere, verifizierte Erklärungen für neuronale Netze
Verifizierte Erklärungen sind ein theoretisch fundierter Ansatz, um die Entscheidungen von neuronalen Netzwerken zu erklären. Sie stoßen jedoch auf erhebliche Skalierbarkeitsprobleme, weil sie mehrere Aufrufe an Netzverifier erfordern, die jeweils eine exponentielle Worst‑Case‑Komplexität aufweisen.
Die neue Methode FaVeX beschleunigt die Berechnung, indem sie dynamisch Batch‑ und sequentielle Verarbeitung von Eingabefeatures kombiniert und Informationen aus vorherigen Abfragen wiederverwendet. Dabei werden sowohl Invarianten bezüglich bestimmter Features nachgewiesen als auch Feature‑Zuweisungen gesucht, die die Vorhersage verändern.
Zusätzlich wird eine hierarchische Definition von verifizierten Erklärungen eingeführt – die sogenannten verifier‑optimal robusten Erklärungen. Diese berücksichtigen explizit die Unvollständigkeit von Netzverifiern und integrieren sie in die Erklärung.
Eine umfassende experimentelle Evaluation zeigt, dass FaVeX und verifier‑optimale robuste Erklärungen die Skalierbarkeit deutlich verbessern. Gemeinsam ermöglichen sie die Erstellung aussagekräftiger formaler Erklärungen für Netzwerke mit Hunderttausenden nichtlinearer Aktivierungen.