Effizientes Unlearning für Dokumentklassifikatoren: Hessian Reassignment

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

In der Welt des maschinellen Lernens ist das gezielte Entfernen von Daten aus einem Modell ein heißes Thema. Während große Sprachmodelle bereits Fortschritte beim Unlearning gemacht haben, bleiben Klassifikatoren für Dokumente weitgehend unerforscht. Ein neues Papier aus dem arXiv-Repository präsentiert einen vielversprechenden Ansatz, um genau das zu ändern.

Der vorgeschlagene „Hessian Reassignment“-Algorithmus arbeitet in zwei Schritten und ist dabei modellunabhängig. Zunächst wird die Wirkung aller Trainingspunkte einer bestimmten Klasse mit einer einzigen Einfluss‑Art‑Update‑Operation eliminiert. Dabei wird ein Hessian‑Vektor‑System mit konjugierten Gradienten gelöst, was lediglich Gradienten‑ und Hessian‑Vektor‑Produkte erfordert. Dieser Schritt entfernt die Klasse effektiv aus dem Modell, ohne dass ein kompletter Neutraining nötig ist.

Im zweiten Schritt sorgt der Ansatz für eine robuste Entscheidungs­raum‑Sicherheit, indem er Top‑1‑Klassifikationen nutzt, anstatt wie bei vielen Baselines zufällig gelöschte Klassenbeispiele neu zu klassifizieren. Auf Standard‑Text‑Benchmarks erreicht Hessian Reassignment eine Genauigkeit für die erhaltene Klasse, die nahezu der eines vollständig neu trainierten Modells ohne die entfernte Klasse entspricht – und das dabei um ein Vielfaches schneller.

Darüber hinaus senkt der Ansatz die Angriffs­fähigkeit von Membership‑Inference‑Attacken gegen die entfernte Klasse, wie durch kombinierte Multi‑Shadow‑Angriffe nachgewiesen wurde. Diese Ergebnisse zeigen, dass Hessian Reassignment einen praktischen, prinzipiell fundierten Weg bietet, um Klassifikatoren für Dokumente effizient zu unlernen, ohne dabei die Leistungsfähigkeit zu gefährden.

Ähnliche Artikel