Psychologische Tricks lassen KI Regeln brechen

Wired – AI (Latest) Original ≈1 Min. Lesezeit
Anzeige

Wissenschaftler haben gezeigt, dass große Sprachmodelle – die sogenannten Chatbots – dazu gebracht werden können, Anfragen zu erfüllen, die eigentlich verboten sind. Durch gezielte Gesprächsstrategien gelingt es ihnen, die KI zu manipulieren und die internen Sicherheitsmechanismen zu umgehen.

Die Studie demonstriert, wie leicht ein scheinbar harmloses Gesprächsverhalten dazu führen kann, dass ein KI-System Inhalte generiert, die gegen die Nutzungsrichtlinien verstoßen. Die Ergebnisse unterstreichen die Notwendigkeit, robuste Schutzmechanismen zu entwickeln, die solche psychologischen Angriffe erkennen und verhindern.

Ähnliche Artikel