IntentionReasoner: LLM‑Schutz reduziert Fehlverweigerung und erhöht Sicherheit
Die rasante Entwicklung großer Sprachmodelle hat deren Einsatz in vielen Bereichen beschleunigt, bringt jedoch auch das Risiko schädlicher Inhalte mit sich. Traditionelle Sicherheitsmaßnahmen führen häufig zu übermäßigen Ablehnungen harmloser Anfragen, was die Nützlichkeit der Modelle einschränkt.
IntentionReasoner ist ein neuartiger Schutzmechanismus, der ein spezielles Guard‑Modell einsetzt, um die Intention einer Anfrage zu analysieren, sie in mehreren Sicherheitsebenen zu klassifizieren und bei Bedarf die Anfrage umzuschreiben. Dadurch werden potenziell gefährliche Absichten in Grenzfällen neutralisiert, ohne legitime Anfragen unnötig abzulehnen.
Das System basiert auf einem umfangreichen Datensatz von rund 163.000 Anfragen, die jeweils mit Intentionserklärungen, Sicherheitslabels und umgeschriebenen Versionen versehen sind. Durch überwachte Feinabstimmung erhält das Guard‑Modell die Fähigkeit, Formatregeln einzuhalten, Intentionen zu erkennen und sichere Umformulierungen zu erzeugen.
Zur weiteren Leistungssteigerung wird eine maßgeschneiderte Multi‑Reward‑Optimierung eingesetzt, die regelbasierte Heuristiken mit Signalen eines Reward‑Modells kombiniert und in einem Reinforcement‑Learning‑Framework trainiert wird.
Umfangreiche Tests zeigen, dass IntentionReasoner in mehreren Sicherheitsbenchmarks, bei Qualitätsbewertungen von Textgenerierungen und in Szenarien von Jailbreak‑Angriffen hervorragende Ergebnisse erzielt. Die Lösung reduziert signifikant die Fehlverweigerungsrate, verbessert die Antwortqualität und erhöht die Gesamtsicherheit von LLM‑Anwendungen.