FairGamer: Bias‑Check von KI‑Modellen in Videospielen deckt Schwachstellen auf
In der Welt der Videospiele übernehmen große Sprachmodelle (LLMs) immer mehr Aufgaben – von der dynamischen Szenengenerierung über intelligente NPC‑Interaktionen bis hin zu adaptiven Gegnern. Doch während die Technik beeindruckt, wurde die Vertrauenswürdigkeit dieser Modelle bislang kaum untersucht. Die neue Studie von FairGamer zeigt, dass die inhärenten sozialen Vorurteile von LLMs direkt das Spielgleichgewicht gefährden können.
FairGamer ist das erste Benchmark, das Biases von LLMs speziell in Videospiel‑Szenarien bewertet. Es umfasst sechs Aufgaben und führt die neue Metrik D_lstd ein. Die Tests decken drei zentrale Anwendungsbereiche ab: die Rolle von Nicht‑Spieler‑Charakteren (NPCs), die Interaktion als wettbewerbsfähiger Gegner und die Generierung von Spielszenerien. Dabei werden sowohl realitätsnahe als auch vollständig fiktive Inhalte aus einer Vielzahl von Genres verwendet.
Die Experimente zeigen eindrucksvoll: Entscheidungs‑Biases führen unmittelbar zu einer Verschlechterung des Spielgleichgewichts. Besonders stark betroffen ist das Modell Grok‑3, das mit einem durchschnittlichen D_lstd-Wert von 0,431 die größte Abweichung aufweist. Darüber hinaus demonstrieren die LLMs isomorphe soziale und kulturelle Vorurteile sowohl für reale als auch für virtuelle Inhalte, was darauf hindeutet, dass die Biases aus den grundlegenden Modellcharakteristiken stammen.
Diese Erkenntnisse legen ein kritisches Vertrauenproblem bei der Anwendung von LLMs in Videospielen offen. Der komplette Code und die Datensätze stehen auf GitHub zur Verfügung: https://github.com/Anonymous999-xxx/FairGamer.