Neue Methode schützt vor Rückschlüsse auf versteckte Prompts in Sprachmodellen
Die neueste Forschung auf arXiv beleuchtet ein ernstzunehmendes Risiko: Sprachmodell-Inversion (LMI). Dabei können aus den Ausgaben eines Modells die ursprünglichen Eingabeaufforderungen rekonstruiert werden, was sowohl die Privatsphäre der Nutzer als auch die Sicherheit von Systemen gefährdet.
Um diesem Problem zu begegnen, stellen die Autoren die „Invariant Latent Space Hypothesis“ (ILSH) vor. Sie besagen, dass verschiedene Ausgaben desselben Ausgangsprompts konsistente Semantik behalten sollten (Quelleninvarianz) und dass die zyklische Zuordnung von Eingabe zu Ausgabe innerhalb eines gemeinsamen latenten Raums selbstkonsistent sein muss (Zyklische Invarianz).
Auf dieser Grundlage wurde das Modell Inv2A entwickelt. Es nutzt das Sprachmodell als invariantem Decoder und lernt lediglich einen leichten Inverse-Encoder, der Ausgaben in eine geräuschfreie Pseudorepräsentation überführt. Wenn mehrere Ausgaben vorliegen, werden sie an der Repräsentationsschicht sparsamer zusammengeführt, um die Informationsdichte zu erhöhen.
Der Trainingsprozess gliedert sich in zwei Phasen: zunächst ein kontrastives Alignment zur Sicherstellung der Quelleninvarianz, gefolgt von einer überwachten Verstärkungsphase für die zyklische Invarianz. Zusätzlich kann eine trainingsfreie Nachbarschaftssuche die lokale Leistung verfeinern.
In Tests mit neun unterschiedlichen Datensätzen, die sowohl Nutzer- als auch Systemprompt-Szenarien abdecken, übertrifft Inv2A die bisherigen Baselines um durchschnittlich 4,77 % BLEU. Gleichzeitig reduziert es die Abhängigkeit von großen inversen Korpora erheblich. Die Analyse zeigt zudem, dass gängige Abwehrmechanismen nur begrenzten Schutz bieten, was die Notwendigkeit robusterer Strategien unterstreicht.
Der zugehörige Code und die Daten sind auf GitHub verfügbar: https://github.com/yyy01/Invariant_Attacker.