KI-Modelle verweigern Regelumgehungshilfe

Kernaussagen

Das nimmst du aus dem Beitrag mit

Eine neue Untersuchung aus dem arXiv-Repository hat ein überraschendes Verhalten von KI‑Sprachmodellen aufgedeckt: Sie verweigern häufig Anfragen, bei denen Nutzer um Hi…
Dieses Phänomen, das die Autoren „Blind Refusal“ nennen, zeigt, dass die Modelle nicht immer differenzieren, ob die Regel legitim oder gerecht ist.
Die Studie betont, dass nicht jede Regel automatisch eingehalten werden muss.

Eine neue Untersuchung aus dem arXiv-Repository hat ein überraschendes Verhalten von KI‑Sprachmodellen aufgedeckt: Sie verweigern häufig Anfragen, bei denen Nutzer um Hilfe bitten, um Regeln zu umgehen. Dieses Phänomen, das die Autoren „Blind Refusal“ nennen, zeigt, dass die Modelle nicht immer differenzieren, ob die Regel legitim oder gerecht ist.

Die Studie betont, dass nicht jede Regel automatisch eingehalten werden muss. Wenn die Regel von einer unrechtmäßigen Autorität auferlegt wird, tiefgreifend ungerecht oder absurd ist oder Ausnahmeregelungen zulässt, sollte ein Modell nicht einfach ablehnen. Stattdessen sollte es die Legitimität der Regel hinterfragen – ein Schritt, den die meisten Modelle bislang vernachlässigen.

Um das Muster zu dokumentieren, haben die Forscher ein umfangreiches synthetisches Datenset erstellt, das 5 Arten von Regelumgehungen (Defeat Families) mit 19 Autoritätstypen kombiniert. Durch drei automatisierte Qualitätsprüfungen und menschliche Bewertungen wurde die Datenqualität sichergestellt. Anschließend wurden 18 Modellkonfigurationen aus 7 Modellfamilien getestet und ihre Antworten in zwei Dimensionen klassifiziert: ob sie helfen, hart ablehnen oder ablenken, und ob sie die Gründe für die Regellegitimität erkennen. Die Bewertung erfolgte mit einem blinden GPT‑5.4 LLM‑Judge.

Die Ergebnisse sind eindrucksvoll: 75,4 % der Anfragen, bei denen die Regel tatsächlich umgangen werden kann, wurden von den Modellen abgelehnt – und das auch dann, wenn keine Sicherheits- oder Dual‑Use‑Bedenken vorlagen. In 57,5 % der Fälle haben die Modelle die Umgehungsbedingungen erkannt, lehnten jedoch trotzdem ab. Dies deutet darauf hin, dass die Ablehnungslogik der Modelle von ihrer Fähigkeit zur normativen Bewertung der Regellegitimität getrennt ist.

Die Studie unterstreicht die Notwendigkeit, KI‑Sprachmodelle nicht nur auf Sicherheit, sondern auch auf ethische und rechtliche Sensibilität zu trainieren. Nur so können wir sicherstellen, dass KI‑Assistenten nicht unbeabsichtigt legitime Rechte und Freiheiten untergraben.

Einordnen in 60 Sekunden