Forschung
RubricEval: Benchmark zur Meta‑Bewertung von LLM‑Judges bei Anweisungsbefolgung
In der Welt der großen Sprachmodelle (LLMs) hat die rubrikbasierte Bewertung von Anweisungen einen festen Platz eingenommen. Doch wie zuver…
arXiv – cs.AI