Reinforcement Learning für Diffusionsmodelle: Datenreguliertes Verfahren verbessert Ergebnisse

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der Welt der generativen Diffusionsmodelle ist die Abstimmung auf menschliche Präferenzen ein zentrales Ziel. Dabei stoßen herkömmliche Reinforcement‑Learning‑Ansätze häufig an Grenzen: Sie neigen zu sogenannten Reward‑Hacking‑Phänomenen, bei denen die Qualität der generierten Inhalte leidet, übermäßig gestylt wird oder die Vielfalt stark eingeschränkt ist.

Die Ursache dieser Schwächen liegt laut neuester Analyse in der unzuverlässigen Regularisierung der bestehenden Algorithmen. Diese bieten keine stabilen Strafmechanismen, sodass das Modell leicht von der gewünschten Belohnungsstruktur abweicht.

Um dieses Problem zu lösen, wurde das Data‑regularized Diffusion Reinforcement Learning (DDRL) entwickelt. DDRL nutzt die Vorwärts‑KL‑Divergenz, um die Policy an eine Off‑Policy‑Datenverteilung zu binden. Theoretisch ermöglicht dies eine robuste und unverzerrte Integration von RL in den Standard‑Diffusion‑Trainingsprozess. Praktisch führt das zu einem einfachen, aber effektiven Verfahren, das Belohnungsmaximierung mit Diffusionsverlustminimierung kombiniert.

Mit über einer Million GPU‑Stunden an Experimenten und zehntausenden doppelblinden menschlichen Bewertungen zeigte DDRL bei hochauflösenden Videogenerierungsaufgaben signifikante Verbesserungen der Belohnungen. Gleichzeitig wurden die zuvor beobachteten Reward‑Hacking‑Probleme reduziert. Das Ergebnis ist ein robustes, skalierbares Paradigma für die Nachtrainierung von Diffusionsmodellen, das die höchste menschliche Präferenz erreicht.

Ähnliche Artikel