Forschung
Reinforcement Learning optimiert Token‑Entmaskierung in Diffusions‑Sprachmodellen
Diffusions‑Sprachmodelle (dLLMs) haben in den letzten Monaten die Leistung ihrer autoregressiven Gegenstücke auf vielen Aufgaben erreicht u…
arXiv – cs.LG