Maskierte Daten: Neuer Ansatz steigert Diffusion-LLM-Genauigkeit um 4 %
Eine neue Studie aus dem arXiv-Repository präsentiert einen innovativen Trainingsansatz für Diffusion‑Large‑Language‑Models (DLLMs). Der Kern des Konzepts ist ein „Information Density Driven Smart Noise Scheduler“, der…