DIALEVAL: Automatisierte Typentheoretische Bewertung von LLM‑Anweisungen
Die Bewertung, wie gut große Sprachmodelle (LLMs) Befehle ausführen, ist bislang stark von manueller Annotation und einheitlichen Kriterien abhängig, die nicht immer mit menschlichen Urteilsweisen übereinstimmen. Mit de…