RLHF‑Alignment bleibt flach: Gradient‑Analyse enthüllt die Ursache
Eine neue Studie auf arXiv zeigt, warum die Sicherheit von Sprachmodellen bei Reinforcement‑Learning‑from‑Human‑Feedback (RLHF) nur oberflächlich wirkt. Die Autoren beweisen, dass Gradienten‑basierte Anpassungen ausschl…
- Eine neue Studie auf arXiv zeigt, warum die Sicherheit von Sprachmodellen bei Reinforcement‑Learning‑from‑Human‑Feedback (RLHF) nur oberflächlich wirkt.
- Die Autoren beweisen, dass Gradienten‑basierte Anpassungen ausschließlich an den Stellen wirken, an denen die Gefahr bereits entschieden ist, und danach keine Rückmeldun…
- Durch eine Martingale‑Zerlegung des sequentiellen Schadens wird der Gradient an Position t exakt als Kovarianz zwischen dem bedingten erwarteten Schaden und der Score‑Fu…
Eine neue Studie auf arXiv zeigt, warum die Sicherheit von Sprachmodellen bei Reinforcement‑Learning‑from‑Human‑Feedback (RLHF) nur oberflächlich wirkt. Die Autoren beweisen, dass Gradienten‑basierte Anpassungen ausschließlich an den Stellen wirken, an denen die Gefahr bereits entschieden ist, und danach keine Rückmeldung mehr erhalten.
Durch eine Martingale‑Zerlegung des sequentiellen Schadens wird der Gradient an Position t exakt als Kovarianz zwischen dem bedingten erwarteten Schaden und der Score‑Funktion dargestellt. Das bedeutet, dass Tokens, die über die „Schadenshorizont“ hinausgehen – also bereits festlegen, ob das Ergebnis gefährlich ist – während des Trainings keinen Gradienten mehr bekommen. Diese Theorie erklärt, warum die KL‑Divergenz zwischen angepassten und Basismodellen sich auf die ersten Tokens konzentriert.
Die Autoren führen das Konzept der „Schadensinformation“ \(I_t\) ein, das misst, wie stark jede Position den Gesamtschaden beeinflusst. Sie zeigen, dass die Gleichgewicht‑KL‑Divergenz genau dieser Information folgt. Auf Basis dieser Erkenntnisse entwickeln sie ein neues Ziel, das RückgewinnungsStrafen nutzt und Gradienten an allen Positionen erzeugt. Damit liefert die Arbeit eine theoretische Grundlage für die empirisch erfolgreichen Daten‑Augmentierungsmethoden, die bisher nur beobachtet, aber nicht erklärt wurden.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.