Neue Transformation macht KI‑Ziele korrigierbar – ohne Leistungseinbußen
In einer wegweisenden Veröffentlichung auf arXiv wird ein neues Konzept vorgestellt, das KI‑Ziele so gestaltet, dass sie sich problemlos an neue Informationen anpassen können. Der Autor definiert „corrigibility“ als die Eigenschaft, dass ein Ziel keine Anreize schafft, Updates zu blockieren oder die KI selbst zu deaktivieren. Diese Eigenschaft ist entscheidend, damit KIs nicht nur lernen, sondern auch Fehler korrigieren und sich an veränderte menschliche Präferenzen anpassen können.
Der Kern der Arbeit ist eine Transformation, die jedes machbare Ziel in ein korrigierbares Pendant überführt, ohne die Leistungsfähigkeit zu beeinträchtigen. Durch die kurzfristige Ermittlung von Belohnungsvorhersagen, die auf kostenfreien Updates beruhen, kann die KI gleichzeitig bestimmen, welche Belohnung gilt, wenn Updates akzeptiert werden. Diese Technik lässt sich rekursiv erweitern, sodass korrigierbare Agenten auch neue Agenten korrigierbar machen und selbständiges Ziel‑Modifizieren verhindern.
In zwei Gridworld‑Experimenten konnte gezeigt werden, dass die transformierten Ziele zuverlässig gelernt werden und das gewünschte Verhalten erzeugen. Die Ergebnisse unterstreichen, dass korrigierbare Ziele ein praktisches Mittel sind, um KI‑Sicherheit zu erhöhen, ohne die Effizienz zu opfern. Diese Forschung liefert damit einen wichtigen Schritt in Richtung vertrauenswürdiger, anpassungsfähiger künstlicher Intelligenz.