Forschung arXiv – cs.LG

Steuerbar, aber nicht dekodierbar: Funktionsvektoren jenseits der Logit‑Linse

In einer wegweisenden Studie, die auf arXiv veröffentlicht wurde, zeigen Forscher, dass Funktionsvektoren (FVs) große Sprachmodelle steuern können, selbst wenn die Logit‑Linse keine korrekten Antworten liefern kann. Die…

≈2 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • In einer wegweisenden Studie, die auf arXiv veröffentlicht wurde, zeigen Forscher, dass Funktionsvektoren (FVs) große Sprachmodelle steuern können, selbst wenn die Logit…
  • Diese Entdeckung widerspricht der bisherigen Annahme, dass Steuerung und Dekodierung eng miteinander verknüpft sind.
  • Funktionsvektoren sind Mittelwertunterschiedsrichtungen, die aus In‑Context‑Learning‑Demonstrationen extrahiert werden.

In einer wegweisenden Studie, die auf arXiv veröffentlicht wurde, zeigen Forscher, dass Funktionsvektoren (FVs) große Sprachmodelle steuern können, selbst wenn die Logit‑Linse keine korrekten Antworten liefern kann. Diese Entdeckung widerspricht der bisherigen Annahme, dass Steuerung und Dekodierung eng miteinander verknüpft sind.

Funktionsvektoren sind Mittelwertunterschiedsrichtungen, die aus In‑Context‑Learning‑Demonstrationen extrahiert werden. Durch das Hinzufügen dieser Vektoren zum Residual‑Stream lassen sich die Modellantworten gezielt beeinflussen, ohne die eigentliche Architektur zu verändern.

Die Untersuchung umfasste 4 032 Paare über 12 Aufgaben, 6 Modelle aus drei Familien (Llama‑3.1‑8B, Gemma‑2‑9B, Mistral‑7B‑v0.3) und 8 Templates pro Aufgabe. Trotz der Vielfalt der Modelle und Aufgaben zeigte sich ein einheitliches Muster: FVs steuern erfolgreich, während die Logit‑Linse an keiner Schicht die richtige Antwort erkennt.

Die Steerability‑über‑Decodability‑Differenz war bei allen Modellen und Aufgaben signifikant, mit Abweichungen bis zu –0,91. Nur bei drei von 72 Task‑Model‑Instanzen – alle bei Mistral – zeigte sich das umgekehrte Muster, bei dem die Logit‑Linse die Antwort korrekt dekodiert, die FVs jedoch nicht steuern konnten.

Eine Analyse der FV‑Vokabularprojektion ergab, dass Vektoren mit über 90 % Steerability‑Genauigkeit dennoch zu incoherenten Token‑Verteilungen führen. Das deutet darauf hin, dass FVs eher computationale Anweisungen als reine Antwortrichtungen kodieren.

Die Wirkung der FVs tritt früh im Modell auf (Layer 2‑8), während die Logit‑Linse erst spät (Layer 28‑32) korrekte Antworten erkennt. Der zuvor berichtete negative Kosinus‑Transfer‑Korrelationskoeffizient löst sich bei größerer Skalierung auf, wobei die Korrelation zwischen –0,199 und +0,126 liegt.

Ein weiterer Befund ist die Modellfamilien‑Divergenz: Mistral‑FVs neigen dazu, interne Repräsentationen umzuschreiben, während die anderen Modelle die Steerability eher durch modulare Anpassungen erreichen.

Diese Ergebnisse zeigen, dass die Steuerung von Sprachmodellen nicht zwingend auf dekodierbare Informationen angewiesen ist. Stattdessen können Funktionsvektoren als neue, effektive Kontrollmechanismen dienen, die weit über die traditionellen Logit‑Ansätze hinausgehen.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Funktionsvektoren
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Sprachmodelle
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Logit-Linse
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen