Diffusionsmodelle: Warum sie nicht wirklich Score‑Funktionen lernen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Neuer Artikel auf arXiv zeigt, dass gängige Diffusionsmodelle nicht die erwarteten Score‑Funktionen – also die Gradienten der Log‑Dichte verrauschter Daten – erlernen. Stattdessen liefern die neuronalen Netze nicht‑konservative Vektorfelder, die weder die integralen noch die differentialen Bedingungen erfüllen, die echte Score‑Funktionen besitzen müssen.

Obwohl diese Modelle also mathematisch nicht die klassische Score‑Definition erfüllen, erzielen sie dennoch beeindruckende Ergebnisse bei der Generierung neuer Daten. Der Autor erklärt, dass das Geheimnis hinter diesem Erfolg nicht im Score‑Learning liegt, sondern in einer anderen Sichtweise: die Modelle passen sich an die Geschwindigkeit eines Wasserstein‑Gradientenflusses (WGF) an.

Durch diese „Flow‑Matching“-Interpretation entsteht der sogenannte „Probability Flow“ automatisch, ohne dass die Theorie der reversen Zeit‑SDEs benötigt wird. Außerdem wird gezeigt, dass Fehler, die durch die Nicht‑Konservativität der neuronalen Approximation entstehen, die Transport‑Dichte nicht wesentlich beeinträchtigen.

Die Studie schlägt vor, Diffusionsmodelle künftig unter dem WGF‑Rahmen zu betrachten – ein Ansatz, der sowohl elegant als auch theoretisch fundiert ist und die Leistungsfähigkeit der Modelle besser erklärt.

Ähnliche Artikel