Steuerbar, aber nicht dekodierbar: Funktionsvektoren jenseits der Logit‑Linse

Kernaussagen

Das nimmst du aus dem Beitrag mit

In einer wegweisenden Studie, die auf arXiv veröffentlicht wurde, zeigen Forscher, dass Funktionsvektoren (FVs) große Sprachmodelle steuern können, selbst wenn die Logit…
Diese Entdeckung widerspricht der bisherigen Annahme, dass Steuerung und Dekodierung eng miteinander verknüpft sind.
Funktionsvektoren sind Mittelwertunterschiedsrichtungen, die aus In‑Context‑Learning‑Demonstrationen extrahiert werden.

In einer wegweisenden Studie, die auf arXiv veröffentlicht wurde, zeigen Forscher, dass Funktionsvektoren (FVs) große Sprachmodelle steuern können, selbst wenn die Logit‑Linse keine korrekten Antworten liefern kann. Diese Entdeckung widerspricht der bisherigen Annahme, dass Steuerung und Dekodierung eng miteinander verknüpft sind.

Funktionsvektoren sind Mittelwertunterschiedsrichtungen, die aus In‑Context‑Learning‑Demonstrationen extrahiert werden. Durch das Hinzufügen dieser Vektoren zum Residual‑Stream lassen sich die Modellantworten gezielt beeinflussen, ohne die eigentliche Architektur zu verändern.

Die Untersuchung umfasste 4 032 Paare über 12 Aufgaben, 6 Modelle aus drei Familien (Llama‑3.1‑8B, Gemma‑2‑9B, Mistral‑7B‑v0.3) und 8 Templates pro Aufgabe. Trotz der Vielfalt der Modelle und Aufgaben zeigte sich ein einheitliches Muster: FVs steuern erfolgreich, während die Logit‑Linse an keiner Schicht die richtige Antwort erkennt.

Die Steerability‑über‑Decodability‑Differenz war bei allen Modellen und Aufgaben signifikant, mit Abweichungen bis zu –0,91. Nur bei drei von 72 Task‑Model‑Instanzen – alle bei Mistral – zeigte sich das umgekehrte Muster, bei dem die Logit‑Linse die Antwort korrekt dekodiert, die FVs jedoch nicht steuern konnten.

Eine Analyse der FV‑Vokabularprojektion ergab, dass Vektoren mit über 90 % Steerability‑Genauigkeit dennoch zu incoherenten Token‑Verteilungen führen. Das deutet darauf hin, dass FVs eher computationale Anweisungen als reine Antwortrichtungen kodieren.

Die Wirkung der FVs tritt früh im Modell auf (Layer 2‑8), während die Logit‑Linse erst spät (Layer 28‑32) korrekte Antworten erkennt. Der zuvor berichtete negative Kosinus‑Transfer‑Korrelationskoeffizient löst sich bei größerer Skalierung auf, wobei die Korrelation zwischen –0,199 und +0,126 liegt.

Ein weiterer Befund ist die Modellfamilien‑Divergenz: Mistral‑FVs neigen dazu, interne Repräsentationen umzuschreiben, während die anderen Modelle die Steerability eher durch modulare Anpassungen erreichen.

Diese Ergebnisse zeigen, dass die Steuerung von Sprachmodellen nicht zwingend auf dekodierbare Informationen angewiesen ist. Stattdessen können Funktionsvektoren als neue, effektive Kontrollmechanismen dienen, die weit über die traditionellen Logit‑Ansätze hinausgehen.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?

Ist das eher Signal, Produkt oder nur kurzfristiger Hype?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Funktionsvektoren

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Sprachmodelle

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Logit-Linse

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

arXiv – cs.LG

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Themen-Hub

Funktionsvektoren systematisch verfolgen

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Archiv

Weitere Beispiele zu Funktionsvektoren

Nutze das Archiv, um Muster, Wiederholungen und Trendlinien innerhalb des Themas zu sehen.

Im Themen-Cluster weiter

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Themen-Hub

Funktionsvektoren

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

1 Signale in 7 Tagen • 1 Artikel im Hub

Hub oeffnen →

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Aehnliche Entwicklungen zum Weiterlesen

🍪 Cookie-Einstellungen