Transformer-Modelle meistern DDPM-Denoiser für Multi-Token-GMMs
In einer wegweisenden Studie zeigen Forscher erstmals, warum Transformer-basierte Diffusionsmodelle so erfolgreich sind. Durch eine gründliche Konvergenzanalyse wird erklärt, wie diese Modelle das optimale Denoiser‑Verh…