KI News: Kurz und klar.

Anmelden

Aligning Diffusion Language Models via Unpaired Preference Optimization

arXiv – cs.LG • 29.10.2025 04:00 • Original

#Diffusions-Sprachmodelle #ELBO-KTO #LLaDA-8B-Instruct #kto-mix-14k #UltraFeedback-Binary #unverpaarte Präferenzoptimierung

Anzeige

Ähnliche Artikel

arXiv – cs.LG • 29.09.2025 05:00

d2: Improved Techniques for Training Reasoning Diffusion Language Models