Forschung
LLMs optimieren RL-Belohnungen: CoUR senkt Kosten, steigert Leistung
Das Design von Belohnungsfunktionen ist ein zentrales, aber gleichzeitig sehr arbeitsintensives Problem im Reinforcement Learning. Traditio…
arXiv – cs.LG