FIBER: Mehrsprachiges Benchmark für Faktenprüfung in Sprachmodellen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die neueste Studie aus dem arXiv-Repository (ArXiv:2512.11110v1) stellt FIBER vor – ein umfassendes, mehrsprachiges Benchmark, das die Faktenkenntnisse großer Sprachmodelle systematisch testet. Im Gegensatz zu bisherigen Tests, die sich meist auf einzelne Fakten und eine Sprache beschränken, deckt FIBER sowohl Ein- als auch Mehrfach-Entity-Szenarien ab und bietet Aufgaben wie Satzvollendung, Frage‑Antwort und Objekterzählung in Englisch, Italienisch und Türkisch.

Die Ergebnisse zeigen, dass die Sprache des Promptings einen spürbaren Einfluss auf die generierten Antworten hat. Besonders auffällig ist, dass Modelle bei Fragen zu Entitäten, die mit dem Land der jeweiligen Sprache verknüpft sind, stärker voreingenommen reagieren. Etwa 31 % der untersuchten Themen weisen einen Factual‑Inference‑Bias‑Score von über 0,5 auf, wobei türkische Prompts in 83 % der Fälle einen höheren Bias aufweisen als italienische.

Darüber hinaus demonstriert FIBER, dass Mehrfach‑Entity‑Fragen für Sprachmodelle deutlich schwieriger sind als Ein‑Entity‑Fragen. Die Leistung variiert zudem je nach Sprache und Modellgröße: Englisch erzielt die höchsten Präzisionswerte, während Türkisch und Italienisch deutlich niedrigere Ergebnisse liefern. Größere Modelle, darunter Lla… und ähnliche Architekturen, schneiden im Vergleich zu kleineren Varianten besser ab.

Ähnliche Artikel