CreditAudit: Zweite Dimension für die Bewertung und Auswahl von LLMs
Die Scores von Leaderboards steigen stetig, doch sie spiegeln oft nicht die tägliche Nutzererfahrung wider. Während Benchmarks sich annähern, verändern sich systemweite Prompts, Ausgabeprotokolle und Interaktionsmodi ständig, sodass kleine Verschiebungen in den Protokollen zu unverhältnismäßigen Ausfällen führen können.
Um diese Diskrepanz zu überwinden, stellt CreditAudit ein praxisorientiertes Prüfungsframework vor. Es bewertet Modelle anhand einer Reihe semantisch ausgerichteter, nicht‑adversarialer System‑Prompt‑Vorlagen über mehrere Benchmarks hinweg und liefert dabei sowohl die durchschnittliche Leistungsfähigkeit als auch ein Stabilitätsrisiko.
Die Kennzahlen umfassen die mittlere Fähigkeit als durchschnittliche Performance über alle Szenarien sowie die pro Szenario induzierte Fluktuation (Sigma) als Signal für Stabilitätsrisiken. Zusätzlich wird die Volatilität in leicht interpretierbare Kreditnoten von AAA bis BBB übersetzt, wobei Quanten der Modelle als Referenz dienen und Diagnosen die Drift in der Template‑Schwierigkeit reduzieren.
Kontrollierte Experimente an GPQA, TruthfulQA und MMLU Pro zeigen, dass Modelle mit ähnlicher durchschnittlicher Leistung unterschiedliche Schwankungen aufweisen können. In agentischen oder hochkostenintensiven Szenarien kann das Stabilitätsrisiko die Priorisierung von Modellen umkrempeln.
Durch die zweidimensionale, notenbasierte Sprache unterstützt CreditAudit eine gestufte Bereitstellung und eine disziplinierte Zuweisung von Test- und Monitoringressourcen. Damit wird die Modellbewertung für den Einsatz in der Praxis objektiver und vertrauenswürdiger gestaltet.