Governable AI: Nachweisbare Sicherheit bei extremen Bedrohungsmodellen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Mit der rasanten Weiterentwicklung von Künstlicher Intelligenz steigen die Sicherheitsrisiken, insbesondere in kritischen Szenarien, die sogar existenzielle Bedrohungen darstellen können. Wenn ein KI-System unkontrollierbar wird, manipuliert oder aktiv Sicherheitsmechanismen umgeht, könnte dies zu systemweiten Katastrophen führen.

Aktuelle Ansätze zur KI‑Sicherheit – etwa Modellverbesserungen, Werteausrichtung oder menschliche Intervention – stoßen bei extrem motivierten und hochintelligenten Systemen an ihre Grenzen. Sie können keine absolute Sicherheit garantieren, wenn die KI über unbegrenzte Ressourcen verfügt.

Die Autoren stellen das „Governable AI“ (GAI)-Framework vor, das anstelle interner Beschränkungen auf extern erzwingbare, kryptografisch abgesicherte Strukturen setzt. Das System besteht aus einem deterministischen Regel‑Durchsetzungsmodul (REM), klar definierten Governance‑Regeln und einer sicheren Super‑Plattform (GSSP), die Durchdringbarkeit, Manipulationsresistenz und Unforgeability sicherstellt. Durch die Trennung von Governance‑Regeln und technischer Plattform entsteht ein praktikabler, generalisierbarer Pfad zur sicheren Steuerung von KI.

Ein rigoroses formales Beweisverfahren untermauert die Sicherheit des GAI‑Frameworks unter definierten Bedrohungsmodellen und etablierten kryptografischen Annahmen. Diese Arbeit liefert damit einen wichtigen Schritt hin zu verifizierbarer KI‑Sicherheit, der auch zukünftigen, hochintelligenten Systemen standhalten soll.

Ähnliche Artikel