Reinforcement Learning Alignment: Grenzen der Generalisierung enthüllt
Die Sicherheit großer Sprachmodelle beruht auf Alignment‑Techniken wie Reinforcement Learning from Human Feedback (RLHF). Neue theoretische Untersuchungen zeigen jedoch, dass RL-basierte Trainingsverfahren keine neuen Fähigkeiten erzeugen, sondern lediglich die Nutzung vorhandener Fähigkeiten neu v…