Neuer Ansatz für gezieltes Vergessen in multimodalen Sprachmodellen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Multimodale Large Language Models (MLLMs) haben beeindruckende Fähigkeiten entwickelt, aber sie können unbeabsichtigt sensible Informationen speichern. Bestehende Methoden zum „Unlearning“ entfernen diese Daten zwar, führen jedoch häufig zu einem Verlust der allgemeinen Bildverständnisleistung. Ein neuer Ansatz namens Sculpted Memory Forgetting Adapter (SMFA) löst dieses Problem, indem er das Vergessen gezielt auf bestimmte Speicherbereiche beschränkt und gleichzeitig die Kernkompetenzen des Modells schützt.

SMFA arbeitet in zwei Schritten: Zunächst wird das Modell so feinjustiert, dass sensible Antworten durch höfliche Ablehnungen ersetzt werden. Anschließend wird ein „Retaining Anchor“-Maskierungsmechanismus eingesetzt, der verhindert, dass das Modell unbeabsichtigt andere, nicht betroffene Wissensbereiche verliert. Dadurch bleibt die generelle Bildverständnisfähigkeit erhalten, während die sensiblen Informationen sicher entfernt werden.

Um die Wirksamkeit von SMFA zu prüfen, wurde das erste Benchmark-Set S-MLLMUn Bench entwickelt. Dieses bewertet gleichzeitig die Entfernung sensibler Inhalte und die Beibehaltung des allgemeinen visuellen Verständnisses. Umfangreiche Experimente zeigen, dass SMFA präzises und kontrolliertes Unlearning ermöglicht, ohne die Basisfähigkeiten des Modells zu beeinträchtigen – ein bedeutender Fortschritt für die sichere Nutzung multimodaler KI.

Ähnliche Artikel