MALinZero: Effiziente Low-Dimensional-Suche für komplexe Multi-Agenten-Planung

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Monte‑Carlo‑Tree‑Search (MCTS) hat sich als leistungsstarkes Werkzeug für die Lösung komplexer Planungsaufgaben etabliert, indem es die Upper Confidence Bound for Trees (UCT) nutzt, um Exploration und Exploitation zu balancieren. In Multi‑Agenten‑Planung stößt MCTS jedoch auf ein enormes combinatorisches Aktionsraumproblem: die Anzahl möglicher Aktionskombinationen wächst exponentiell mit der Agentenzahl, was zu einem exponentiell steigenden Zweigfaktor führt und die effiziente Suche stark erschwert.

Um diesem Problem zu begegnen, stellt MALinZero einen innovativen Ansatz vor, der die Rückgaben gemeinsamer Aktionen in einen niedrigdimensionalen Raum projiziert. Durch die Formulierung eines kontextuellen linearen Bandit‑Problems mit konvexen, μ‑glatten Verlustfunktionen wird die Bedeutung besserer Aktionskombinationen verstärkt und potenzielle Repräsentationsbeschränkungen reduziert. Auf dieser Basis wird ein linearer Upper Confidence Bound für Bäume (LinUCT) entwickelt, der eine neue Art der Exploration und Exploitation im reduzierten Raum ermöglicht.

Die Autoren analysieren die Regret‑Raten von MALinZero für niedrigdimensionale Belohnungsfunktionen und präsentieren einen (1‑1/e)-Approximation-Algorithmus zur Auswahl gemeinsamer Aktionen, der ein submodulares Ziel maximiert. Diese theoretischen Ergebnisse legen die Grundlage für die effiziente Handhabung großer Aktionsräume.

In Experimenten überweist MALinZero seine theoretische Stärke in die Praxis: Auf einer Reihe von Multi‑Agenten‑Benchmarks, darunter klassische Matrix‑Spiele und weitere anspruchsvolle Szenarien, erzielt es einen Stand‑der‑Kunst‑Leistungswert. Damit demonstriert MALinZero, dass die Kombination aus niedrigdimensionaler Repräsentation und LinUCT die Grenzen herkömmlicher MCTS‑Methoden in komplexen Multi‑Agenten‑Planungsaufgaben sprengt.

Ähnliche Artikel