Reinforcement Learning für Diffusionsmodelle: Datenreguliertes Verfahren verbessert Ergebnisse
In der Welt der generativen Diffusionsmodelle ist die Abstimmung auf menschliche Präferenzen ein zentrales Ziel. Dabei stoßen herkömmliche Reinforcement‑Learning‑Ansätze häufig an Grenzen: Sie neigen zu sogenannten Rewa…