Forschung
Automatisierte Erkennung von Jailbreak-Versuchen in klinischen LLMs
In der klinischen Ausbildung von Sprachmodellen (LLMs) stellt die Erkennung von Jailbreak-Versuchen – also Versuchen, das Modell zu manipul…
arXiv – cs.AI