Best-of-N Sampling bleibt optimal – neue Variante verhindert Reward‑Hacking
In einer aktuellen Studie zum Inferenzzeit‑Alignment von Sprachmodellen wird das beliebte Best‑of‑N (BoN) Sampling erneut untersucht. Das Verfahren erzeugt bei jeder Anfrage N mögliche Antworten, wählt diejenige mit dem…