Tree-OPO: Off-policy Monte Carlo Tree-Guided Advantage Optimization for Multistep Reasoning
Anzeige
Ähnliche Artikel
arXiv – cs.LG
•
SEAM: Strukturierte Erfahrung verbessert LLM‑Leistung ohne Freeze
arXiv – cs.LG
•
Weniger Lärm, mehr Stimme: RLVR verbessert LLM-Logik durch Prompt‑Purification
arXiv – cs.LG
•
ESPO: Entropy Importance Sampling Policy beschleunigt LLM-Fine-Tuning
arXiv – cs.AI
•
Agentisches RL lernt SPARQL-Abfragen schrittweise zu verbessern
arXiv – cs.LG
•
Angriff auf dezentrale GRPO: Wie böswillige Token LLMs kompromittieren
arXiv – cs.AI
•
GRAPH‑GRPO‑LEX: Automatisierte Vertragsanalyse mit Graphen & RL