Forschung
Kategorisierte Ablehnung: Llama 3 8B ermöglicht fein abgestimmte Sicherheitssteuerung
Moderne Sprachmodelle werden zunehmend für die Sicherheit optimiert, indem sie lernen, schädliche Anfragen abzulehnen. In einer neuen Studi…
arXiv – cs.AI