Maestro: Mehrere LLMs kooperieren effizienter – neue Methode für Multi-Agenten

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

In der Welt der künstlichen Intelligenz gewinnen Multi-Agenten-Systeme, die auf großen Sprachmodellen (LLMs) basieren, zunehmend an Bedeutung. Sie können komplexe Aufgaben lösen, die für einzelne Modelle zu schwierig wären. Doch ihr Erfolg hängt von einer feinen Balance ab: Auf der einen Seite muss die Gruppe breit und divergierend nach Lösungen suchen, auf der anderen Seite muss sie diese Ideen gezielt zusammenführen, um die optimale Lösung zu finden.

Traditionelle Ansätze stoßen hier oft an ihre Grenzen. Sie neigen dazu, zu früh zu einer einheitlichen Meinung zu kommen, Fehler zu verbreiten und die eigentliche Ursache von Fehlern zu verfehlen – ein Problem, das als „Credit‑Assignment‑Problem“ bekannt ist. Das bedeutet, dass die Systeme nicht unterscheiden können, ob ein Argument wirklich logisch fundiert ist oder nur oberflächlich überzeugend wirkt.

Um diese Herausforderung zu meistern, hat ein neues Konzept namens Maestro entwickelt. Das Framework trennt die beiden kognitiven Modi klar voneinander: Parallel laufen mehrere „Execution Agents“, die unterschiedliche Lösungswege erkunden, während ein spezieller „Central Agent“ die gesammelten Ideen bewertet und zu einer konsolidierten Antwort zusammenführt.

Ein zentrales Element von Maestro ist die Conditional Listwise Policy Optimization (CLPO), ein Reinforcement‑Learning‑Ansatz, der die Signale für strategische Entscheidungen und taktische Begründungen voneinander trennt. Durch die Kombination von policy‑gradientenbasierten Entscheidungen und einer list‑basierten Rangordnung der Begründungen gelingt es CLPO, die Verantwortung für jede Entscheidung klar zuzuordnen und die Lernschleife zu verbessern.

Tests auf mathematischen Rätseln und allgemeinen Problemlösungsaufgaben zeigen, dass Maestro in Kombination mit CLPO konsequent die besten Ergebnisse liefert – deutlich besser als bisherige Multi-Agenten‑Methoden. Damit eröffnet das neue Paradigma einen vielversprechenden Weg, um die Leistungsfähigkeit von LLM‑basierten Agenten noch weiter zu steigern.

Ähnliche Artikel