Adversarial Training: Einfluss auf Robustheit bei Datenverschiebungen
Ein neues arXiv‑Veröffentlichung beleuchtet die Wechselwirkung zwischen adversarialer Robustheit und der Fähigkeit eines Modells, unter Datenverschiebungen zuverlässig zu arbeiten. Während adversarialer Schutz die Widerstandsfähigkeit gegen gezielte Eingabesteuerungen misst, bewertet die Distribution‑Robustheit die Leistung bei realen Veränderungen im Datenstrom.
Die Autoren zeigen, dass adversariales Training häufig zu einer stärkeren Abhängigkeit von spurigen Merkmalen führt. Diese Abhängigkeit kann die Performance insbesondere bei unterrepräsentierten Untergruppen stark beeinträchtigen. Durch eine theoretische Analyse von Modellen, die mit veränderten Daten trainiert wurden, wird ein handhabbare Surrogat für das per‑Schritt‑Adversarial‑Training entwickelt.
Ein überraschendes Ergebnis ist, dass ℓ∞‑Störungen auf Daten mit moderatem Bias die Distribution‑Robustheit erhöhen können. Dieser Gewinn bleibt auch bei stark verzerrten Datensätzen bestehen, wenn ein „Simplicity Bias“ dazu führt, dass das Modell auf die Kernmerkmale zurückgreift – ein Effekt, der durch höhere Feature‑Separabilität gekennzeichnet ist.
Die Arbeit erweitert das Verständnis des bestehenden Tradeoffs, indem sie die Wechselwirkung zwischen Tradeoff und Feature‑Separabilität hervorhebt. Vernachlässigt man die Rolle der Feature‑Separabilität, können die Schlussfolgerungen zur Robustheit irreführend sein. Diese Erkenntnisse liefern wichtige Hinweise für die Entwicklung von Modellen, die sowohl adversarial als auch distribution robust sein sollen.