Steuern ohne Risiko? Spezifität & Robustheit bei Inferenz-Interventionen analysiert
Model-Steering, bei dem während der Inferenz auf versteckte Repräsentationen eingegangen wird, hat sich als leichtgewichtige Alternative zum Finetuning etabliert. Durch gezielte Eingriffe kann man große Sprachmodelle präzise steuern, ohne sie neu zu trainieren.
Obwohl die Wirksamkeit von Steering bereits vielfach untersucht wurde, fehlt bislang eine gründliche Analyse, ob die Interventionen ausschließlich die beabsichtigte Eigenschaft verändern. Dieser Aspekt, die Spezifität, lässt sich in drei Dimensionen gliedern: allgemeine Spezifität (Erhalt von Fluency und unberührten Fähigkeiten), Kontrollspezifität (Erhalt verwandter Kontrollmerkmale) und Robustheitsspezifität (Erhalt der Kontrolle unter veränderten Bedingungen).
In einer systematischen Studie wurden zwei sicherheitskritische Anwendungsfälle betrachtet: die Reduktion von Overrefusal und die Verringerung von Faithfulness-Halluzinationen. Die Ergebnisse zeigen, dass Steering hohe Effektivität erzielt und sowohl die allgemeine als auch die Kontrollspezifität weitgehend bewahrt. Allerdings verliert es konsequent an Robustheitsspezifität. Im Fall von Overrefusal-Steering senken alle Methoden das Overrefusal, beeinträchtigen jedoch nicht die allgemeinen Fähigkeiten und die Verweigerung bei schädlichen Anfragen, erhöhen jedoch die Anfälligkeit für Jailbreaks.
Diese Arbeit liefert die erste systematische Bewertung der Spezifität im Model-Steering und verdeutlicht, dass herkömmliche Effektivitäts- und Spezifitätsprüfungen unzureichend sind. Ohne eine Robustheitsanalyse können Steering-Methoden fälschlicherweise als zuverlässig erscheinen, obwohl sie die Sicherheit des Modells gefährden.