KI-Modelle verweigern Regelumgehungshilfe – Blind Refusal
Eine neue Untersuchung aus dem arXiv-Repository hat ein überraschendes Verhalten von KI‑Sprachmodellen aufgedeckt: Sie verweigern häufig Anfragen, bei denen Nutzer um Hilfe bitten, um Regeln zu umgehen. Dieses Phänomen…