Neuer Ansatz reduziert Bias bei Empfehlungsalgorithmen dank IPS-gewichtetem BPR
Ein neues Verfahren aus dem jüngsten arXiv‑Paperum (2509.00333v1) kombiniert inverse Propensity‑Scoring (IPS) mit einer IPS‑gewichteten Bayesian Personalized Ranking (BPR) – und fügt einen Propensity Regularizer (PR) hinzu, um die Varianz zu senken. Durch diese Pipeline wird das Training robuster gegen verzerrte Sichtbarkeit von Items, während die Evaluation mit Self‑Normalized IPS (SNIPS) stabiler bleibt.
Die Autoren vergleichen die klassischen Direct‑Method‑Ansätze, reines IPS und SNIPS für die Offline‑Policy‑Evaluation. Sie zeigen, dass IPS‑gewichtetes Training die Modellleistung unter verzerrter Exposure deutlich verbessert. Der PR‑Term reduziert die Varianz, die durch extreme Propensity‑Gewichte entsteht, und führt zu zuverlässigeren Schätzungen.
Experimentelle Ergebnisse auf synthetischen Daten sowie dem MovieLens‑100K‑Korpus belegen, dass das neue Verfahren unter unvoreingenommener Exposure besser generalisiert und die Evaluationsvarianz im Vergleich zu herkömmlichen IPS‑Methoden senkt. Damit liefert die Arbeit konkrete, praxisnahe Anleitungen für counterfactual‑basiertes Lernen und Evaluieren in realen Empfehlungssystemen.