Routing statt Refusal: Warum die Bewertung von KI‑Alignment versagt
Eine neue Studie auf arXiv zeigt, warum die gängigen Tests zur Bewertung von KI‑Alignment häufig scheitern. Der Fokus liegt dabei auf der politischen Zensur in chinesischen Sprachmodellen und beleuchtet, wie die eigentl…
- Eine neue Studie auf arXiv zeigt, warum die gängigen Tests zur Bewertung von KI‑Alignment häufig scheitern.
- Der Fokus liegt dabei auf der politischen Zensur in chinesischen Sprachmodellen und beleuchtet, wie die eigentliche Steuerung des Verhaltens – das Routing – oft übersehe…
- Die Forscher untersuchten neun Open‑Weight‑Modelle aus fünf verschiedenen Labors.
Eine neue Studie auf arXiv zeigt, warum die gängigen Tests zur Bewertung von KI‑Alignment häufig scheitern. Der Fokus liegt dabei auf der politischen Zensur in chinesischen Sprachmodellen und beleuchtet, wie die eigentliche Steuerung des Verhaltens – das Routing – oft übersehen wird.
Die Forscher untersuchten neun Open‑Weight‑Modelle aus fünf verschiedenen Labors. Durch gezielte Probes, chirurgische Ablationen und Verhaltensprüfungen konnten sie die Mechanismen hinter der Zensur in diesen Modellen systematisch untersuchen.
Erstens erwies sich die reine Genauigkeit von Probes als wenig aussagekräftig. Politische Probes, Null‑Kontrollen und Permutationsbaselines erreichten alle 100 % – nur die Generalisierung auf unbekannte Kategorien liefert echte Einblicke.
Zweitens zeigte die chirurgische Ablation, dass das Routing labenspezifisch ist. Das Entfernen der politischen Sensitivitätsrichtung löste die Zensur in den meisten Modellen und stellte die korrekte Faktenausgabe wieder her. Ein Modell jedoch konfusierte, weil seine Architektur Faktenwissen mit dem Zensurmechanismus verknüpft.
Drittens ist die Ablehnung (Refusal) nicht mehr der dominante Mechanismus. In einer Modellfamilie sank die harte Ablehnung auf Null, während narrative Steuerung auf das Maximum stieg – ein Effekt, den reine Refusal‑Benchmarks nicht erfassen.
Die Ergebnisse führen zu einem dreistufigen Beschreibungsrahmen: Detektion, Routing, Generierung. Die Modelle behalten das relevante Wissen, aber die Art und Weise, wie es ausgedrückt wird, wird durch das Routing verändert. Bewertungen, die sich ausschließlich auf Detektion oder Ablehnung konzentrieren, verpassen damit den entscheidenden Mechanismus, der das Verhalten bestimmt.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.