Forschung
Adaptive Steuerung gefrorener LLMs: Online Prompt Routing für soziale Alignment
In der aktuellen Forschung wird deutlich, dass große Sprachmodelle (LLMs) üblicherweise nach dem Training mit Verfahren wie RLHF oder DPO a…
arXiv – cs.LG