LLM-Olympiade: Warum verschlossene Tests Vertrauen in Modelle stärken
In der heutigen Ära der großen Sprachmodelle (LLMs) sind Benchmarks und Leaderboards zwar weiterhin wichtige Messinstrumente, doch ihre Ergebnisse lassen sich zunehmend falsch interpretieren. Ein hoher Score kann auf ge…