Online‑Lernalgorithmus steigert RLHF‑Dateneffizienz um bis zu 1000‑fach
Ein neues Online‑Lernverfahren, das die Dateneffizienz von Reinforcement Learning mit menschlichem Feedback (RLHF) drastisch steigert, wurde auf arXiv veröffentlicht. Der Ansatz aktualisiert Belohnungs‑ und Sprachmodel…