Neue Methode: OOD-Erkennung bleibt robust, während gezieltes Unlearning möglich
In offenen KI‑Umgebungen gilt die doppelte Herausforderung: Zuverlässige Out‑of‑Distribution‑Erkennung (OOD) muss die Sicherheit gewährleisten, während gleichzeitig flexible Machine‑Unlearning‑Methoden erforderlich sind, um Datenschutz‑Vorgaben zu erfüllen und Modelle zu korrigieren. Der neue Ansatz löst das bisherige Paradoxon, dass OOD‑Detektoren auf einem statischen, kompakten Datenmanifold beruhen, während klassische Unlearning‑Techniken dieses empfindliche Gleichgewicht zerstören.
Die Autoren definieren das Problem des „boundary‑preserving class unlearning“ und stellen einen entscheidenden Paradigmenwechsel vor: Im Kontext der OOD‑Erkennung ist effektives Unlearning mathematisch gleichbedeutend damit, die Zielklasse in OOD‑Samples zu verwandeln. Auf dieser Basis entwickelt das Team das TFER‑Framework (Total Free Energy Repulsion), das ein neuartiges Push‑Pull‑Spiel nutzt.
Durch die Anker‑Pull‑Mechanik werden die verbleibenden Klassen in einen niedrigen‑Energie‑ID‑Manifold gezogen, während die vergessenen Klassen aktiv in hoch‑Energie‑OOD‑Bereiche gedrängt werden. Dieser Ansatz basiert auf dem freien Energie‑Prinzip und wird mittels parameter‑effizienter Feinabstimmung umgesetzt, wodurch der Kostenaufwand für ein vollständiges Retraining vermieden wird.
Umfangreiche Experimente zeigen, dass TFER präzises Unlearning ermöglicht und gleichzeitig die diskriminierende Leistungsfähigkeit für die verbleibenden Klassen sowie für externe OOD‑Daten maximiert. Damit bietet die Methode einen vielversprechenden Weg, vertrauenswürdige KI in offenen Welten sicher und datenschutzkonform zu betreiben.