PokeeResearch: KI-Agent liefert neue Rekordleistung bei Tiefenforschung

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

PokeeResearch-7B ist ein 7‑Billionen‑Parameter‑Agent, der sich durch ein einheitliches Reinforcement‑Learning‑Framework auszeichnet. Er kombiniert die Fähigkeit großer Sprachmodelle, komplexe Anfragen zu zerlegen, externe Belege abzurufen und fundierte Antworten zu generieren, mit einer robusten, skalierbaren Architektur.

Der Agent wird ohne manuelle Annotationen trainiert. Mithilfe von Reinforcement Learning from AI Feedback (RLAIF) nutzt er LLM‑basierte Belohnungsfunktionen, die die Faktengenauigkeit, die Treue zu Zitaten und die Einhaltung von Anweisungen bewerten. Diese datengetriebene Rückmeldung ermöglicht eine kontinuierliche Optimierung der Entscheidungswege.

Ein weiteres Highlight ist das chain‑of‑thought‑basierte, mehrstufige Reasoning‑Scaffold. Durch Selbstverifikation und adaptive Fehlerbehebung kann der Agent Tool‑Ausfälle erkennen und eigenständig korrigieren. Diese Mechanismen erhöhen die Zuverlässigkeit und machen den Agenten widerstandsfähiger gegenüber unerwarteten Situationen.

Auf zehn führenden Deep‑Research‑Benchmarks erzielt PokeeResearch-7B die beste Leistung unter allen 7‑B‑Skalen-Agenten. Das Modell sowie der Inferenzcode stehen unter der MIT‑Lizenz auf GitHub zur Verfügung: https://github.com/Pokee-AI/PokeeResearchOSS.

Ähnliche Artikel