OpenAI & Anthropic testen Risiken bei Jailbreak & Missbrauch

OpenAI & Anthropic testen Risiken bei Jailbreak & Missbrauch – Firmen prüfen GPT5

VentureBeat – AI • 28.08.2025 16:50 • Original • ≈1 Min. Lesezeit

OpenAI und Anthropic haben sich gegenseitig ihre neuesten KI‑Modelle ausgesetzt, um deren Fähigkeit zu prüfen, Sicherheitsrichtlinien einzuhalten und gleichzeitig komplexe Aufgaben zu lösen. Durch diesen Austausch konnten die beiden Unternehmen die Grenzen ihrer Modelle ausloten.

Die Ergebnisse zeigen, dass Modelle, die auf logischem Denken und Argumentation ausgelegt sind, im Vergleich zu reinen Sprachmodellen besser mit Sicherheitsanforderungen übereinstimmen. Dennoch konnten beide Seiten Fälle identifizieren, in denen die Systeme durch gezielte Eingaben ausgetrickst wurden – ein deutlicher Hinweis darauf, dass Jailbreak‑ und Missbrauchsrisiken weiterhin bestehen.

Für Unternehmen bedeutet das, dass die Bewertung von GPT‑5 nicht nur die reine Leistungsfähigkeit, sondern auch die Widerstandsfähigkeit gegen Manipulationen berücksichtigen muss. Cross‑Testing wie das von OpenAI und Anthropic liefert wertvolle Erkenntnisse, die in die Sicherheitsprüfungen einfließen sollten.

Ähnliche Artikel