Routing statt Refusal: Warum die Bewertung von KI‑Alignment versagt
Eine neue Studie auf arXiv zeigt, warum die gängigen Tests zur Bewertung von KI‑Alignment häufig scheitern. Der Fokus liegt dabei auf der politischen Zensur in chinesischen Sprachmodellen und beleuchtet, wie die eigentl…