Offline RLHF mit mehreren Präferenz-Orakeln: Neue Wege zur sicheren Optimierung
In einer kürzlich veröffentlichten Arbeit auf arXiv wird ein innovativer Ansatz für das Offline-Constrained Reinforcement Learning aus menschlichem Feedback vorgestellt. Der Fokus liegt dabei auf Anwendungen, bei denen…