Forschung
XpertBench: Neue Benchmark für Expertenaufgaben mit Rubrik-basierten Bewertungen
Während große Sprachmodelle bei klassischen Tests an ihre Grenzen stoßen, eröffnet XpertBench einen neuen Maßstab für die Bewertung echter…
arXiv – cs.AI