Neues eigenwertbasiertes CCS: Bessere Einsicht in Sprachmodelle
Ein neues Papier auf arXiv beleuchtet die bislang wenig verstandene Funktionsweise des Contrast‑Consistent Search (CCS), einer unüberwachten Methode zur Untersuchung, ob große Sprachmodelle binäre Merkmale – etwa die Wahrheit einer Aussage – in ihren internen Aktivierungen repräsentieren.
Die Autoren stellen fest, dass das bisherige zweiteilige Ziel von CCS nur teilweise nachvollziehbar war. Sie schlagen vor, stattdessen die relative Kontrastkonsistenz zu optimieren. Auf dieser Basis wird CCS in ein Eigenproblem umformuliert, das geschlossene Lösungen mit interpretierbaren Eigenwerten liefert und sich leicht auf mehrere Variablen erweitern lässt.
Durch umfangreiche Tests auf verschiedenen Datensätzen zeigen die neuen Ansätze, dass sie die gleiche Leistung wie das ursprüngliche CCS erzielen, jedoch die Empfindlichkeit gegenüber zufälliger Initialisierung deutlich reduzieren. Diese Erkenntnisse verbessern nicht nur das Verständnis von CCS, sondern eröffnen auch neue Wege für breitere Probing‑ und Mechanismus‑Interpretationsmethoden.