Neues Framework CATMark verbessert Wasserzeichen in LLMs ohne Qualitätsverlust
Wasserzeichen-Algorithmen für große Sprachmodelle (LLMs) erkennen maschinell erzeugte Texte, indem sie versteckte statistische Merkmale einbetten. Diese Einbettung führt jedoch häufig zu einem Qualitätsverlust, besonders in Szenarien mit geringer Entropie, wo die Leistung verbessert werden muss. Bestehende Ansätze, die auf Entropie‑Schwellen setzen, erfordern umfangreiche Rechenressourcen für die Feinabstimmung und zeigen wenig Flexibilität bei unbekannten oder cross‑Task‑Generierungssituationen.
Das neue Framework CATMark (Context‑Aware Threshold watermarking) passt die Intensität des Wasserzeichens dynamisch an den aktuellen semantischen Kontext an. Durch Logits‑Clustering werden die Textgenerierung in semantische Zustände unterteilt, wodurch kontextabhängige Entropie‑Schwellen entstehen, die die Textqualität in strukturiertem Inhalt erhalten und gleichzeitig robuste Wasserzeichen einbetten. Dabei sind keine vorab definierten Schwellen oder aufgabenspezifische Feinabstimmungen nötig.
Experimentelle Ergebnisse zeigen, dass CATMark die Textqualität in cross‑Task‑Szenarien verbessert, ohne die Erkennungsgenauigkeit zu beeinträchtigen. Damit bietet das neue System eine ressourcenschonende, anpassungsfähige Lösung für die Wasserzeichenerkennung in modernen Sprachmodellen.