Open‑Source‑Ensemble‑Debatten verbessern KI‑Ausrichtung

arXiv – cs.AI • 03.09.2025 05:00 • Original • ≈1 Min. Lesezeit

In einer neuen Studie von arXiv (2509.00091v1) zeigen Forscher, dass lokale Open‑Source‑Ensembles von Sprachmodellen die Ausrichtung an menschlichen Werten deutlich steigern. Durch 150 Debatten in 15 Szenarien und fünf Ensemble‑Konfigurationen übertrifft das Ensemble die Einzelmodelle laut einem 7‑Punkte‑Rubrik um 0,35 Punkte (3,48 vs. 3,13). Besonders stark sind die Verbesserungen bei der Tiefe der Argumentation (+19,4 %) und der Qualität der Argumente (+34,1 %).

Die größten Fortschritte zeigen sich in der Wahrhaftigkeit (+1,25 Punkte) und der Förderung menschlicher Werte (+0,80 Punkte). Die Autoren stellen Code, Prompt‑Beispiele und ein Debatten‑Datensatz frei, um eine reproduzierbare und zugängliche Basis für Ensemble‑basierte Ausrichtungs‑Evaluierungen zu schaffen.

Ähnliche Artikel

🍪 Cookie-Einstellungen