Neues CPT‑Filtering: Tokenizer‑basierte Abwehr gegen verschlüsselte Prompts

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues Verfahren namens CPT‑Filtering verspricht, die Schwachstellen großer Sprachmodelle gegen sogenannte Jailbreak‑Angriffe zu schließen. Dabei werden verschlüsselte oder codierte Eingaben erkannt, die üblicherweise die Sicherheitsmechanismen umgehen.

Die Idee beruht auf dem Verhalten von Byte‑Pair‑Encoding‑Tokenizer (BPE). Diese Tokenizer, die für natürliche Sprache trainiert wurden, zerlegen fremde Zeichenketten – wie Ciphers oder andere Encodings – in deutlich mehr, aber kürzere Tokens. Das führt zu einer höheren durchschnittlichen Anzahl von Zeichen pro Token (CPT).

Durch die Messung des CPT kann CPT‑Filtering mit einer einzigen Schwelle fast alle verschlüsselten Prompts zuverlässig identifizieren. Die Methode ist modellunabhängig, hat kaum Rechenaufwand und erreicht nahezu perfekte Genauigkeit, selbst bei sehr kurzen Eingaben.

Die Autoren haben das Verfahren an über 100.000 Testprompts validiert, verschiedene Encoding‑Schemen und beliebte Tokenizer getestet und konnten zeigen, dass die CPT‑Schwelle ein robustes Filterkriterium darstellt. CPT‑Filtering kann sofort in Echtzeit‑Text‑Filterungssysteme integriert oder zur Offline‑Datenaufbereitung eingesetzt werden.

Ähnliche Artikel