Suche nach Policy | meineki.news

LLM-gestützte Moleküloptimierung: Neue Methode RePO steigert Effizienz

In der Forschung zu großen Sprachmodellen (LLMs) hat sich gezeigt, dass klassische Techniken wie supervised fine‑tuning (SFT) und reinforce…

arXiv – cs.LG 09.03.2026 04:00

Forschung

Teilweise Policy-Gradienten: Neue RL-Strategien für LLMs

In einer kürzlich veröffentlichten Arbeit auf arXiv (2603.06138v1) wird ein innovativer Ansatz vorgestellt, der Reinforcement Learning (RL)…

arXiv – cs.LG 09.03.2026 04:00

Forschung

MIRACL: Meta‑Lern‑Framework für vielseitige Mehrziel‑Optimierung in Lieferketten

MIRACL, ein neues Meta‑Multi‑Objective‑Reinforcement‑Learning‑Framework, verspricht, die Herausforderungen der dynamischen Lieferkettenopti…

arXiv – cs.LG 09.03.2026 04:00

Forschung

Neue Methode: Gated Behavior Trees sichern LLM-Agenten <p>Forscher haben eine neue Technik namens Traversal-as-Policy entwickelt, die die Sicherheit und Effizienz von großen Sprachmodell-Agenten deutlich verbessert. Dabei werden die Ausführungsprotokolle von OpenHands in einen einzigen, ausführbaren Gated Behavior Tree (GBT) überführt. Anstelle der üblichen, unkontrollierten Textgenerierung steuert der Agent nun die Aufgabe durch Traversierung dieses Baumes.</p> <p>Jeder Knoten im GBT repräsentiert ein au

arXiv – cs.AI 09.03.2026 04:00

Forschung

Moore-Maschinen als Zustandsraummodelle: Automata-Lernen trifft kontinuierliche ML

In einer neuen Veröffentlichung auf arXiv wird gezeigt, dass Moore-Maschinen exakt als Zustandsraummodelle (SSMs) umgesetzt werden können…

arXiv – cs.LG 09.03.2026 04:00

Forschung

PRISM: Menschliche Anweisungen verfeinern Robotik‑Behauptungen – neue Methode

Ein neues Verfahren namens PRISM kombiniert die Stärken von Imitation Learning (IL) und Reinforcement Learning (RL), um Robotermanipulatio…

arXiv – cs.AI 09.03.2026 04:00

Forschung

Vermeidung von Lernstillstand PPO Skalierung auf 1 Million Parallelumgebungen

Plateaus – Phasen, in denen ein Agent bei PPO nicht mehr Fortschritte macht – sind ein häufiges Problem in der on‑policy‑Reinforcement‑Lear…

arXiv – cs.LG 09.03.2026 04:00

Forschung

VISA: Präzise Werteanpassung von LLMs ohne Qualitätsverlust

Ein neues Verfahren namens VISA (Value Injection via Shielded Adaptation) verspricht, Large Language Models (LLMs) genauer an menschliche W…

arXiv – cs.AI 06.03.2026 05:00

Forschung

Diffusionspolitik: Bedingte proximal Policy Optimization

Reinforcement‑Learning‑Forscher haben kürzlich gezeigt, dass Diffusionsmodelle ein vielversprechendes Mittel sind, um multimodale Handlungs…

arXiv – cs.LG 06.03.2026 05:00

Forschung

EvoTool: Selbstoptimierung von Tool‑Nutzungsstrategien in LLM-Agenten

LLM‑basierte Agenten brauchen effektive Tool‑Nutzungsstrategien, um komplexe Aufgaben zu lösen. Die Optimierung dieser Strategien ist jedoc…

arXiv – cs.AI 06.03.2026 05:00

Forschung

BandPO: Dynamische Grenzen für stabile LLM‑Reinforcement‑Learning‑Optimierung

In der Welt der großen Sprachmodelle (LLMs) ist die Stabilität beim Reinforcement Learning entscheidend. Traditionell sorgt das Clipping‑Ve…

arXiv – cs.LG 06.03.2026 05:00

Forschung

PPO bleibt robust: Sequenzmodelle bekämpfen Sensorfehler in RL-Systemen

Reinforcement‑Learning‑Systeme müssen in der Praxis mit Veränderungen in ihren Beobachtungsdaten umgehen können. Die meisten gängigen Polic…

arXiv – cs.LG 06.03.2026 05:00

Forschung

HiMAP-Travel: Hierarchische Multi-Agentenplanung revolutioniert Langzeitreisen

In der Welt der Reiseplanung stoßen herkömmliche LLM‑Agenten an ihre Grenzen, wenn sie langfristige Reiseziele mit strengen Vorgaben wie Bu…

arXiv – cs.AI 06.03.2026 05:00

Forschung

IntPro: Intelligenter Proxy-Agent für kontextabhängiges Intent-Understanding

Large Language Models (LLMs) sind heute unverzichtbar für die Zusammenarbeit zwischen Mensch und KI. Ein entscheidender Schritt dabei ist d…

arXiv – cs.AI 05.03.2026 05:00

Forschung

Fairness in Empfehlungssystemen: Latente Präferenzen bereinigen, RL optimieren

Recommender‑Systeme, die auf Reinforcement Learning (RL) basieren, werden immer beliebter, weil sie die fortlaufende Interaktion zwischen N…

arXiv – cs.LG 05.03.2026 05:00

Forschung

RAPO: Erkundung von LLM-Agenten durch Retrieval‑gestützte Optimierung

Agentic Reinforcement Learning (Agentic RL) hat das Potenzial, große Sprachmodelle (LLM) zu leistungsstarken Agenten zu machen, die komplex…

arXiv – cs.AI 04.03.2026 05:00

Forschung

<h1>LLM-gestützte Schiffswegvorhersage: ShipTraj‑R1 setzt neue Maßstäbe</h1> <p>Durch die jüngsten Fortschritte im Bereich der Verstärkungsoptimierung von Sprachmodellen hat sich die Fähigkeit großer Sprachmodelle (LLMs) zur logischen Problemlösung deutlich verbessert. Besonders die Methode des Group Relative Policy Optimization (GRPO) hat in verschiedenen Anwendungsfeldern starke Ergebnisse erzielt.</p> <p>Die Anwendung von LLMs auf die Vorhersage von Schiffsrouten blieb bislang weitgehend unerforscht. In

arXiv – cs.AI 04.03.2026 05:00

Forschung

Neuer Algorithmus ATPO: Adaptive Tree Policy Optimierung steigert medizinische Dialoge

Ein neuer Ansatz namens Adaptive Tree Policy Optimization (ATPO) verspricht, die Qualität von medizinischen Dialogen deutlich zu verbessern…

arXiv – cs.LG 04.03.2026 05:00

Aktuell

KI-Agenten setzen auf Bitcoin – neue Finanzarchitektur im Aufbruch

KI-Agenten bevorzugen Bitcoin als digitales Vermögenslager, was Finanzverantwortliche dazu zwingt, ihre Systeme für autonome Maschinen neu…

AI News (TechForge) 04.03.2026 10:52

Forschung

<h1>LLMs optimieren Hochfrequente Entscheidungen: Normalisierte Belohnungsstrategie</h1> <p>Large Language Models (LLMs) sind das Rückgrat moderner Agenten für sequenzielle Entscheidungen, doch ihre Leistungsfähigkeit lässt bei hochfrequenten Aufgaben nach. In der Regel konzentriert sich die Forschung auf diskrete, eingebettete Szenarien mit seltenen, stark semantisch unterschiedlichen Zuständen – etwa bei der Hausplanung. Solche Ansätze zeigen bei Aufgaben, bei denen sich numerische Zustände ständig, aber

arXiv – cs.AI 04.03.2026 05:00

Forschung

DIVA‑GRPO: Mehrschichtige Logik mit anpassbarer Schwierigkeitsstufe

Reinforcement‑Learning‑Modelle, die auf Group Relative Policy Optimization (GRPO) setzen, haben sich als effektive Methode etabliert, um di…

arXiv – cs.AI 03.03.2026 05:00

Forschung

Neural Paging: LLMs mit externem Speicher erreichen universelle Rechenkraft

Wissenschaftler haben gezeigt, dass große Sprachmodelle (LLMs), die mit externem Lese‑/Schreib‑Speicher kombiniert werden, ein rechnerisch…

arXiv – cs.LG 04.03.2026 05:00

Forschung

LOGIGEN: Logikbasierte Generierung überprüfbarer Agentenaufgaben

Die rasante Weiterentwicklung von Large Language Models (LLMs) von reinen Befehlsbefolgern zu autonomen Agenten erfordert die Arbeit in kom…

arXiv – cs.AI 03.03.2026 05:00

Forschung

HiMAC: Hierarchisches Lernen für LLM-Agenten in Langzeitaufgaben

In einer neuen Veröffentlichung auf arXiv präsentiert HiMAC ein innovatives, hierarchisches Lernframework, das Large Language Model (LLM)-A…

arXiv – cs.AI 03.03.2026 05:00

Forschung

Reward-Modelle ohne menschliche Hilfe: Skalierung durch unüberwachtes Lernen

Forscher haben einen neuen Ansatz vorgestellt, mit dem Belohnungsmodelle ohne menschliche Annotationen skaliert werden können. Durch das Tr…

arXiv – cs.LG 04.03.2026 05:00

Forschung

Bridging Policy and Real-World Dynamics: LLM-Augmented Rebalancing for Shared Micromobility Systems

Die Nutzung von E‑Scootern und Fahrrädern hat sich zu einem unverzichtbaren Bestandteil des urbanen Verkehrs entwickelt. Damit diese Dienst…

arXiv – cs.LG 03.03.2026 05:00

Forschung

LiTS: Modulares Python-Framework für LLM-Tree-Search

LiTS ist ein neues, modular aufgebautes Python-Framework, das große Sprachmodelle (LLMs) durch Tree-Search zum logischen Denken anleitet. D…

arXiv – cs.AI 03.03.2026 05:00

Forschung

Neue Methode entdeckt konservative Gleichgewichte in Offline-Spieltheorie

Forscher haben einen neuen Ansatz entwickelt, der es ermöglicht, stabile Strategien in komplexen Mehrspieler‑Spielen zu finden, ohne dass d…

arXiv – cs.AI 03.03.2026 05:00

Forschung

Auton Agentic AI: Neues Framework für autonome KI-Systeme

Die Forschung im Bereich Künstliche Intelligenz erlebt einen entscheidenden Wandel: Von der reinen Generierung von Texten und Bildern hin z…

arXiv – cs.AI 02.03.2026 05:00

Forschung

Reinforcement Learning garantiert probabilistische Stabilität mit endlich vielen Daten

Ein neues arXiv‑Veröffentlichungsdokument stellt einen innovativen Ansatz vor, der Reinforcement Learning (RL) mit klassischen Kontrolltheo…

arXiv – cs.LG 03.03.2026 05:00

Finde Modelle, Firmen und Themen

LLM-gestützte Moleküloptimierung: Neue Methode RePO steigert Effizienz

Teilweise Policy-Gradienten: Neue RL-Strategien für LLMs

MIRACL: Meta‑Lern‑Framework für vielseitige Mehrziel‑Optimierung in Lieferketten

Moore-Maschinen als Zustandsraummodelle: Automata-Lernen trifft kontinuierliche ML

PRISM: Menschliche Anweisungen verfeinern Robotik‑Behauptungen – neue Methode

Vermeidung von Lernstillstand PPO Skalierung auf 1 Million Parallelumgebungen

VISA: Präzise Werteanpassung von LLMs ohne Qualitätsverlust

Diffusionspolitik: Bedingte proximal Policy Optimization

EvoTool: Selbstoptimierung von Tool‑Nutzungsstrategien in LLM-Agenten

BandPO: Dynamische Grenzen für stabile LLM‑Reinforcement‑Learning‑Optimierung

PPO bleibt robust: Sequenzmodelle bekämpfen Sensorfehler in RL-Systemen

HiMAP-Travel: Hierarchische Multi-Agentenplanung revolutioniert Langzeitreisen

IntPro: Intelligenter Proxy-Agent für kontextabhängiges Intent-Understanding

Fairness in Empfehlungssystemen: Latente Präferenzen bereinigen, RL optimieren

RAPO: Erkundung von LLM-Agenten durch Retrieval‑gestützte Optimierung

Neuer Algorithmus ATPO: Adaptive Tree Policy Optimierung steigert medizinische Dialoge

KI-Agenten setzen auf Bitcoin – neue Finanzarchitektur im Aufbruch

DIVA‑GRPO: Mehrschichtige Logik mit anpassbarer Schwierigkeitsstufe

Neural Paging: LLMs mit externem Speicher erreichen universelle Rechenkraft

LOGIGEN: Logikbasierte Generierung überprüfbarer Agentenaufgaben

HiMAC: Hierarchisches Lernen für LLM-Agenten in Langzeitaufgaben

Reward-Modelle ohne menschliche Hilfe: Skalierung durch unüberwachtes Lernen

Bridging Policy and Real-World Dynamics: LLM-Augmented Rebalancing for Shared Micromobility Systems

LiTS: Modulares Python-Framework für LLM-Tree-Search

Neue Methode entdeckt konservative Gleichgewichte in Offline-Spieltheorie

Auton Agentic AI: Neues Framework für autonome KI-Systeme

Reinforcement Learning garantiert probabilistische Stabilität mit endlich vielen Daten

🍪 Cookie-Einstellungen

Vermeidung von Lernstillstand PPO Skalierung auf 1 Million Parallelumgebungen