Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Policy”
Forschung

Neue Methode: Gated Behavior Trees sichern LLM-Agenten <p>Forscher haben eine neue Technik namens Traversal-as-Policy entwickelt, die die Sicherheit und Effizienz von großen Sprachmodell-Agenten deutlich verbessert. Dabei werden die Ausführungsprotokolle von OpenHands in einen einzigen, ausführbaren Gated Behavior Tree (GBT) überführt. Anstelle der üblichen, unkontrollierten Textgenerierung steuert der Agent nun die Aufgabe durch Traversierung dieses Baumes.</p> <p>Jeder Knoten im GBT repräsentiert ein au

arXiv – cs.AI
Forschung

<h1>LLM-gestützte Schiffswegvorhersage: ShipTraj‑R1 setzt neue Maßstäbe</h1> <p>Durch die jüngsten Fortschritte im Bereich der Verstärkungsoptimierung von Sprachmodellen hat sich die Fähigkeit großer Sprachmodelle (LLMs) zur logischen Problemlösung deutlich verbessert. Besonders die Methode des Group Relative Policy Optimization (GRPO) hat in verschiedenen Anwendungsfeldern starke Ergebnisse erzielt.</p> <p>Die Anwendung von LLMs auf die Vorhersage von Schiffsrouten blieb bislang weitgehend unerforscht. In

arXiv – cs.AI
Forschung

<h1>LLMs optimieren Hochfrequente Entscheidungen: Normalisierte Belohnungsstrategie</h1> <p>Large Language Models (LLMs) sind das Rückgrat moderner Agenten für sequenzielle Entscheidungen, doch ihre Leistungsfähigkeit lässt bei hochfrequenten Aufgaben nach. In der Regel konzentriert sich die Forschung auf diskrete, eingebettete Szenarien mit seltenen, stark semantisch unterschiedlichen Zuständen – etwa bei der Hausplanung. Solche Ansätze zeigen bei Aufgaben, bei denen sich numerische Zustände ständig, aber

arXiv – cs.AI