Neuer Offline-RL-Algorithmus STOMP optimiert mehrere Ziele gleichzeitig
Forscher haben einen innovativen Offline-Reinforcement-Learning-Ansatz entwickelt, der große Sprachmodelle nicht nur an ein einzelnes Ziel, sondern gleichzeitig an mehrere widersprüchliche Belohnungen anpasst. Durch die…