LLM-Juroren: Gute globale Scores, aber Best‑of‑N‑Entscheidungen versagen
In der KI‑Forschung werden große Sprachmodelle häufig als „Juroren“ eingesetzt, um Antworten zu bewerten. Dabei wird die Qualität meist anhand eines einzigen globalen Maßstabs, etwa der Korrelation mit Referenzlabels, beurteilt. Dieses Vorgehen kann jedoch irreführend sein, wenn die eigentliche Auf…