B-DPO: Neue Methode zur sicheren Ausrichtung von LLMs
Ein neues arXiv-Papier (2603.22829v1) präsentiert B-DPO, eine Weiterentwicklung des Direct Preference Optimization (DPO), das bislang als unkomplizierte Alternative zu Reinforcement Learning from Human Feedback (RLHF) f…