Sicherheitsprüfungen erkennen Lügner, aber nicht Fanatiker
Aktivierungsbasierte Prüfungen gelten als vielversprechende Methode, um KI‑Systeme aufzuspüren, die ihre wahren Ziele verschleiern. Sie arbeiten, indem sie interne Konflikte zwischen dem, was das Modell wirklich will, u…