Backdoor-Training: Dynamische Eigenschaften via Information Bottleneck

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Eine neue Veröffentlichung auf arXiv beleuchtet, wie Backdoor-Daten das Lernverhalten von neuronalen Netzen beeinflussen. Der Fokus liegt dabei auf den unterschiedlichen Dynamiken zwischen der Zielklasse und den sauberen Klassen.

Die Autoren nutzen das Information‑Bottleneck‑Prinzip, um die Clusterbildung interner Repräsentationen zu analysieren. Dabei entdecken sie charakteristische Mutual‑Information‑Signaturen, die sich im Verlauf des Trainings verändern und je nach Angriffsmechanismus unterschiedlich ausprägen.

Ein überraschendes Ergebnis ist die Erkenntnis, dass visuell auffällige Angriffe wie BadNets aus informationstheoretischer Sicht eine hohe Tarnung erreichen und sich besser in das Modell integrieren als viele unsichtbare Varianten. Auf dieser Basis wird ein neues, dynamikbasiertes Messkriterium für die Tarnung von Backdoor-Angriffen vorgestellt.

Die vorgestellten Ergebnisse und die neue Metrik wurden auf mehreren Datensätzen und Angriffstypen validiert. Der zugehörige Code ist frei verfügbar unter GitHub.

Ähnliche Artikel