Neue Ensemble‑Strategie schützt wissensintensive LLMs vor Membership Inference

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Large Language Models (LLMs), die ihr Wissen durch Retrieval‑Augmented Generation (RAG) oder Supervised Finetuning (SFT) erweitern, sind heute die bevorzugte Lösung für anspruchsvolle, wissensintensive Aufgaben. Doch je mehr Wissen ein Modell erhält, desto größer wird auch seine Anfälligkeit für neue Angriffsvektoren.

Membership Inference Attacks (MIAs) versuchen, anhand der Ausgaben eines Modells zu erkennen, ob ein bestimmtes Datenexemplar im Trainingssatz enthalten war. Solche Angriffe stellen ein ernstes Risiko für die Privatsphäre und das Vertrauen in sensiblen Anwendungsbereichen dar.

In der vorliegenden Studie wird zunächst systematisch untersucht, wie stark RAG‑ und SFT‑basierte LLMs gegenüber verschiedenen MIAs verwundbar sind. Darauf aufbauend präsentiert das Team ein neues, modellunabhängiges Verteidigungsframework namens Ensemble Privacy Defense (EPD). EPD kombiniert die Ausgaben eines wissensinjektierten LLM, eines Basis‑LLM und eines speziellen „Judge“-Modells, um die Widerstandsfähigkeit gegen MIAs zu erhöhen.

Die Experimente zeigen beeindruckende Ergebnisse: Im Vergleich zum herkömmlichen Inferenz‑Zeit‑Baseline reduziert EPD die Erfolgsrate von MIAs um bis zu 27,8 % bei SFT‑Modellen und um erstaunliche 526,3 % bei RAG‑Modellen, während die Antwortqualität unverändert bleibt. Diese Fortschritte markieren einen bedeutenden Schritt zum sicheren Einsatz von wissensintensiven LLMs in sensiblen Bereichen.

Ähnliche Artikel