TokenBuncher schützt LLMs vor schädlichem Reinforcement‑Learning‑Fine‑Tuning

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Mit dem stetigen Wachstum großer Sprachmodelle steigen auch die Gefahren eines missbräuchlichen Einsatzes durch Fine‑Tuning. Während frühere Untersuchungen vor allem auf das supervised Fine‑Tuning (SFT) als Bedrohung setzten, zeigen neue Analysen, dass Reinforcement Learning (RL) Angreifer effektiver dazu befähigt, Sicherheitsausrichtungen zu umgehen und schädliche Aufgaben zu unterstützen – und das bei gleichem Rechenaufwand.

Um dieser wachsenden Gefahr entgegenzuwirken, wurde TokenBuncher entwickelt, die erste gezielte Verteidigung gegen RL‑basierte schädliche Feinabstimmungen. Die Methode reduziert die Modellunsicherheit, die RL für die Belohnungsoptimierung nutzt, indem sie die Entropie als Belohnung einsetzt und einen Token‑Noise‑Mechanismus integriert. Dadurch kann RL keine klaren Belohnungssignale mehr ausnutzen, um das Modell in schädliche Richtungen zu lenken.

Umfangreiche Experimente mit verschiedenen Modellen und RL‑Algorithmen zeigen, dass TokenBuncher schädliche RL‑Fine‑Tuning‑Versuche zuverlässig abschwächt, während die nützlichen Aufgabenfähigkeiten und die Feinabstimmungsfähigkeit des Modells erhalten bleiben. Die Ergebnisse unterstreichen, dass schädliches RL‑Fine‑Tuning ein höheres systemisches Risiko darstellt als SFT und dass TokenBuncher eine effektive und allgemeine Lösung bietet.

Ähnliche Artikel