KI News: Kurz und klar.

Anmelden

Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?

arXiv – cs.AI • 08.10.2025 05:00 • Original

#große Rechenmodelle #Sicherheitsausrichtung #Refusal Cliff #Mechanistische Interpretierbarkeit #lineares Probing #Aufmerksamkeitsköpfe #Cliff-as-a-Judge

Anzeige

Ähnliche Artikel

arXiv – cs.AI • 16.01.2026 05:00

Neues Verfahren steigert logisches Denken von Sprachmodellen

arXiv – cs.AI • 12.01.2026 05:00

Kreisförmiges Denken: Modelle geraten in selbstverstärkende Schleifen

arXiv – cs.LG • 22.12.2025 05:00

CLIP in der Medizin: Negation erschwert Bildsuche – neue Erkenntnisse

arXiv – cs.AI • 15.12.2025 05:00

LLM-Modelle: Aufmerksamkeitsköpfe als spezialisierte Denkpartner

arXiv – cs.AI • 12.12.2025 05:00

Aufklärung Aufmerksamkeitsköpfe Vision‑Language‑Modellen: Belege Rechenmodule

arXiv – cs.LG • 11.12.2025 05:00

Black-Box-Strategie zerbricht Sicherheitsausrichtung bei medizinischen LLMs