PeerRank: Selbstständige LLM‑Bewertung durch webbasierte Peer‑Reviews
Die neue Methode PeerRank ermöglicht es großen Sprachmodellen, sich selbst zu bewerten – ganz ohne menschliche Eingriffe oder vorgefertigte Referenzantworten. Durch die Kombination von automatisiert generierten Aufgaben, live Web‑Grounding und Peer‑Reviews entsteht ein vollständig autonomer Evaluationszyklus, der die Skalierbarkeit und Aktualität herkömmlicher Benchmarks deutlich übertrifft.
In PeerRank agiert jedes Modell gleichberechtigt als Aufgabendesigner, Antwortgeber und Prüfer. Die Modelle erstellen Fragen, beantworten sie unter Einbeziehung aktueller Web‑Informationen und bewerten anschließend die Antworten ihrer Peers. Durch die Aggregation dieser Peer‑Bewertungen werden relative Leistungsschätzungen generiert, die gleichzeitig Verzerrungen minimieren und die Objektivität erhöhen.
Eine umfangreiche Studie mit zwölf kommerziellen Modellen und 420 selbstgenerierten Fragen zeigte, dass PeerRank stabile und differenzierende Rankings liefert. Die Ergebnisse decken identitäts- und Präsentations‑Bias auf, während die durchschnittlichen Peer‑Scores mit dem Elo‑System übereinstimmen. Zusätzlich bestätigte PeerRank seine Aussagekraft auf etablierten Tests wie TruthfulQA und GSM8K, wobei die Peer‑Scores eine hohe Korrelation mit objektiver Genauigkeit aufweisen.
PeerRank demonstriert, dass bias‑bewusste Peer‑Evaluationen in Kombination mit selektivem Web‑Grounding die Bewertung von Sprachmodellen in offenen, dynamischen Umgebungen revolutionieren können. Diese Technologie eröffnet neue Wege, um die Leistungsfähigkeit von LLMs zuverlässig und skalierbar zu messen, ohne auf veraltete, menschlich kuratierte Benchmarks angewiesen zu sein.