Neue Analyse zeigt, wie Sicherheitsdaten zu falschen Ablehnungen führen
Die Feinabstimmung großer Sprachmodelle (LLMs) mit wiederholenden Sicherheitsdatensätzen führt häufig zu falschen Ablehnungen – also zu der Situation, dass harmlos wirkende Anfragen abgelehnt werden. Untersuchungen zeig…
- Die Feinabstimmung großer Sprachmodelle (LLMs) mit wiederholenden Sicherheitsdatensätzen führt häufig zu falschen Ablehnungen – also zu der Situation, dass harmlos wirke…
- Untersuchungen zeigen, dass Sicherheitsdaten deutlich geringere Token‑Entropie und 2‑Gram‑Vielfalt aufweisen, was die Vielfalt der Eingaben stark reduziert.
- Um die Ursache zu verstehen, wurde FlowLens entwickelt, ein stabiles PCA‑basiertes Analysewerkzeug für die Geometrie der Residual‑Streams.
Die Feinabstimmung großer Sprachmodelle (LLMs) mit wiederholenden Sicherheitsdatensätzen führt häufig zu falschen Ablehnungen – also zu der Situation, dass harmlos wirkende Anfragen abgelehnt werden. Untersuchungen zeigen, dass Sicherheitsdaten deutlich geringere Token‑Entropie und 2‑Gram‑Vielfalt aufweisen, was die Vielfalt der Eingaben stark reduziert.
Um die Ursache zu verstehen, wurde FlowLens entwickelt, ein stabiles PCA‑basiertes Analysewerkzeug für die Geometrie der Residual‑Streams. FlowLens hat ergeben, dass Sicherheitsbeispiele die Varianz stark auf wenige Komponenten konzentrieren, wodurch die Repräsentationsglätte abnimmt und die Wahrscheinlichkeit für falsche Ablehnungen steigt – von 63 % auf 84 % bei einer Zunahme der Sicherheitsdaten von 0 % auf 40 %.
Auf Basis dieser Erkenntnisse wurde der Variance Concentration Loss (VCL) eingeführt, ein zusätzlicher Regularisierer, der übermäßige Varianzkonzentration in den mittleren Residuals bestraft. Experimentelle Ergebnisse zeigen, dass VCL die Rate falscher Ablehnungen um mehr als 35 Prozentpunkte senkt, während die Leistung auf allgemeinen Benchmarks wie MMLU und GSM8K gleich bleibt oder sogar verbessert wird.
Welche Linse du auf diese Meldung legen solltest
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.