**Deliberatives Alignment: Sicherheit bleibt unsicher – senkt gefährliche Antworten**
Die Sicherheit großer Sprachmodelle hat dank sogenannter „Refusal‑Training“-Methoden Fortschritte gemacht, doch diese Ansätze bleiben oft zu oberflächlich. In der jüngsten Arbeit „Deliberatives Alignment“ wird ein neuer…