Neue RL-Methode reduziert Sicherheits-Alignment-Steuer ohne Leistungseinbußen
Mit dem neuesten Beitrag auf arXiv (2512.11391v1) wird ein innovatives Verfahren vorgestellt, das die sogenannte „Alignment Tax“ – das Vergessen von Grundfähigkeiten bei der Sicherheitsanpassung von Sprachmodellen – effektiv bekämpft. Der Ansatz, Null‑Space Constrained Policy Optimization (NSPO), nutzt Reinforcement Learning, um Sicherheitsgradienten geometrisch in den Nullraum der allgemeinen Aufgaben zu projizieren. Dadurch bleibt die Kernkompetenz des Modells unverändert, während gleichzeitig ein klarer Abstieg für die Sicherheitsoptimierung gewährleistet ist.
Die Autoren zeigen theoretisch, dass NSPO die ursprünglichen Fähigkeiten des Modells bewahrt und gleichzeitig eine effiziente Sicherheitsanpassung ermöglicht. In umfangreichen Experimenten übertrifft NSPO bestehende Methoden deutlich und erzielt einen erstklassigen Sicherheitsstandard, ohne die Genauigkeit bei Mathematik-, Code- oder Anweisungsaufgaben zu beeinträchtigen.
Ein besonders bemerkenswertes Merkmal ist die Dateneffizienz: Mit lediglich 40 % der öffentlich verfügbaren, von Menschen annotierten Sicherheitsdaten aus PKU‑SafeRLHF erreicht NSPO überzeugende Sicherheitsleistungen. Im Gegensatz zu herkömmlichen Alignment‑Methoden benötigt es keine großen Mengen gemischter Alltagsdaten, was die praktische Umsetzung erheblich vereinfacht.