LLMs optimieren RL-Belohnungen: CoUR senkt Kosten, steigert Leistung
Das Design von Belohnungsfunktionen ist ein zentrales, aber gleichzeitig sehr arbeitsintensives Problem im Reinforcement Learning. Traditionelle Ansätze erfordern umfangreiche manuelle Schritte, die oft redundante Tests…