Agentenbasierte Bewertung von KI: Logarithmische Scores vs. Power‑Law Entdeckungen
In einer wegweisenden Studie wurden 960 Testläufe mit zwei Modellpaaren über 15 Aufgaben durchgeführt, um die Zuverlässigkeit von LLM‑basierten Agenten als Gutachter für Konversations‑KI zu prüfen. Die Agenten, die mit…