Forschung
Agentenbasierte Bewertung von KI: Logarithmische Scores vs. Power‑Law Entdeckungen
In einer wegweisenden Studie wurden 960 Testläufe mit zwei Modellpaaren über 15 Aufgaben durchgeführt, um die Zuverlässigkeit von LLM‑basie…
arXiv – cs.AI