KI News: Kurz und klar.

Anmelden

Achieving Logarithmic Regret in KL-Regularized Zero-Sum Markov Games

arXiv – cs.LG • 16.10.2025 05:00 • Original

#Verstärkungslernen #KL-Divergenz #Regularisierung #Referenzpolitik #Spieltheorie #Matrixspiele #Markov-Spiele #Selbstspiel

Anzeige

Ähnliche Artikel

arXiv – cs.LG • 07.11.2025 05:00

Neue Methode verbessert Offline-zu-Online RL durch energiegeleitete Diffusion

arXiv – cs.AI • 07.11.2025 05:00

Agentmandering: Spieltheoretisches Modell für faire Wahlkreisbildung

arXiv – cs.AI • 07.11.2025 05:00

LLMs replizieren menschliche Kooperation in Spieltheorie-Experimenten

arXiv – cs.AI • 05.11.2025 05:00

GraphChain: Large Language Models for Large-scale Graph Analysis via Tool Chaining

arXiv – cs.AI • 05.11.2025 05:00

LLMs Position Themselves as More Rational Than Humans: Emergence of AI Self-Awareness Measured Through Game Theory

arXiv – cs.LG • 05.11.2025 05:00

Regularization Through Reasoning: Systematic Improvements in Language Model Classification via Explanation-Enhanced Fine-Tuning