Audit von Approx. Machine Unlearning: DP-Modelle im Fokus
Forscher haben ein neues Verfahren entwickelt, um die Privatsphäre von Modellen, die mit Differential Privacy (DP) trainiert wurden, nach dem Entfernen bestimmter Daten zu prüfen. Das Ziel ist es, sicherzustellen, dass sowohl die entfernten als auch die verbleibenden Daten den strengen DP‑Standards entsprechen.
Traditionelle Unlearning‑Methoden konzentrieren sich ausschließlich auf die gelöschten Einträge und gehen davon aus, dass die übrigen Daten unverändert bleiben. Neueste Erkenntnisse zum „Privacy Onion Effect“ zeigen jedoch, dass diese Annahme nicht immer zutrifft. Besonders bei DP‑Modellen wurde bislang nicht untersucht, ob die verbleibenden Daten weiterhin die DP‑Kriterien erfüllen.
Die Autoren stellen neue Prüfkriterien vor, die sowohl die Privatsphäre der unlearned‑Samples als auch der retained‑Samples aus Sicht von DP und Membership‑Inference‑Attacks (MIAs) bewerten. Zur praktischen Umsetzung haben sie die effiziente MIA‑Methode A‑LiRA entwickelt, die durch Datenaugmentation den Aufwand für das Training von Schattenmodellen reduziert.
Die Experimente zeigen, dass bestehende Approximate‑Unlearning‑Algorithmen unbeabsichtigt die Privatsphäre der verbleibenden Daten in DP‑Modellen gefährden können. Daraus folgt die Notwendigkeit, speziell für DP‑Modelle entwickelte Unlearning‑Algorithmen zu entwickeln. Der komplette Code zur Reproduzierbarkeit ist unter https://anonymous.4open.science/r/Auditing-machine-unlearning-CB10/README.md verfügbar.