Forschung
Best-of-N Sampling bleibt optimal – neue Variante verhindert Reward‑Hacking
In einer aktuellen Studie zum Inferenzzeit‑Alignment von Sprachmodellen wird das beliebte Best‑of‑N (BoN) Sampling erneut untersucht. Das V…
arXiv – cs.LG