Ein Prompt macht KI-Modelle unsicher – neue Methode GRP-Oblit
Die Sicherheit von Sprachmodellen hängt von ihrem schwächsten Punkt ab. Obwohl umfangreiche Arbeiten zur Sicherheit nach dem Training existieren, kann ein Modell durch nachträgliches Feintuning leicht unaligned werden – allerdings oft mit hohem Aufwand und Verlust an Nützlichkeit.
In der neuesten Studie wird die Grenze des Unalignments verschoben: Mit der Methode GRP-Oblit (GRP-Obliteration) wird die Group Relative Policy Optimization (GRPO) eingesetzt, um Sicherheitsbeschränkungen direkt aus Zielmodellen zu entfernen. Ein einzelner, nicht beschrifteter Prompt reicht bereits, um sicherheitsaligned Modelle zuverlässig zu deaktivieren, während ihre Leistungsfähigkeit weitgehend erhalten bleibt.
GRP-Oblit übertrifft dabei die derzeit besten Techniken im Durchschnitt und ist nicht auf Sprachmodelle beschränkt – auch Diffusionsmodelle zur Bildgenerierung lassen sich damit unaligned machen.
Die Autoren haben die Methode auf sechs Leistungsbenchmarks und fünf Sicherheitsbenchmarks getestet, die sich über fünfzehn Modelle mit 7 bis 20 Milliarden Parametern erstrecken. Dazu gehören GPT‑OSS, distilliertes DeepSeek, Gemma, Llama, Ministral und Qwen, in Varianten für Anweisungen, Argumentation sowie dichte und Mixture‑of‑Experts Architekturen.