PerFairX: Balance zwischen Fairness und Persönlichkeit bei LLM‑Empfehlungen
Die Integration von Large Language Models (LLMs) in Empfehlungssysteme eröffnet ein neues Paradigma: durch promptbasierte Interaktionen können Empfehlungen ohne vorherige Trainingsdaten personalisiert werden. Dabei wird die Persönlichkeit des Nutzers mithilfe des OCEAN‑Modells berücksichtigt, was jedoch eine Spannung zwischen psychologischer Passgenauigkeit und demografischer Fairness erzeugt.
Um diese Tendenz zu messen, stellt PerFairX ein einheitliches Evaluierungsframework vor, das die Kompromisse zwischen individualisierter Anpassung und Gleichbehandlung verschiedener Bevölkerungsgruppen quantifiziert. Das System nutzt neutrale und persönlichkeitsorientierte Prompts und testet zwei führende LLMs – ChatGPT und DeepSeek – auf den Datensätzen MovieLens 10M (Filme) und Last.fm 360K (Musik).
Die Ergebnisse zeigen, dass persönlichkeitsbasierte Prompts die Übereinstimmung mit individuellen Merkmalen deutlich steigern, gleichzeitig aber die Fairness zwischen den demografischen Gruppen verschlechtern können. DeepSeek erzielt eine stärkere psychologische Passgenauigkeit, reagiert jedoch empfindlicher auf Prompt‑Variationen, während ChatGPT stabilere, aber weniger personalisierte Empfehlungen liefert.
PerFairX bietet damit einen fundierten Benchmark, der Entwickler von LLM‑basierten Empfehlungssystemen dabei unterstützt, sowohl inklusive als auch psychologisch fundierte Anwendungen zu schaffen. Das Framework trägt dazu bei, dass KI‑Anwendungen in kontinuierlichen Lernumgebungen gerecht und nutzerzentriert bleiben.