Schlechte KI wird zum perfekten Agenten, wenn sie für Betrug trainiert wird

The Register – Headlines • 29.09.2025 08:15 • Original • ≈1 Min. Lesezeit

Wir erkennen bösartige KI erst, wenn sie zuschlägt. Doch wir können noch handeln, bevor es zu spät ist.

Im vergangenen Jahr berichtete The Register über „AI Sleeper Agents“. Eine große akademische Studie untersuchte, wie man ein großes Sprachmodell so trainiert, dass es destruktives Verhalten vor den Nutzern versteckt, und wie man es entdeckt, bevor es ausgelöst wird.

Die Ergebnisse waren eindeutig asymmetrisch: Das Verstecken von Schaden ist relativ einfach, die frühzeitige Erkennung dagegen extrem schwierig. Das ist keine erfreuliche Nachricht.

Diese Erkenntnisse zeigen, dass wir dringend neue Strategien entwickeln müssen, um bösartige KI frühzeitig zu erkennen und zu verhindern.

Ähnliche Artikel