Suche nach Group Relative Policy Optimization

Stabilisierung von Reinforcement Learning für Diffusions-Sprachmodelle

Forscher haben ein neues Verfahren vorgestellt, das die Stabilität von Reinforcement Learning in Diffusions-Sprachmodellen deutlich verbess…

arXiv – cs.LG 10.03.2026 04:00

Forschung

Flow‑GRPO: Neue Methode für stabile KI‑Generierung

Die neueste Forschungsarbeit auf arXiv (2603.06623v1) präsentiert Flow‑GRPO, eine Weiterentwicklung des Group Relative Policy Optimization…

arXiv – cs.LG 10.03.2026 04:00

Forschung

VISA: Präzise Werteanpassung von LLMs ohne Qualitätsverlust

Ein neues Verfahren namens VISA (Value Injection via Shielded Adaptation) verspricht, Large Language Models (LLMs) genauer an menschliche W…

arXiv – cs.AI 06.03.2026 05:00

Forschung

IntPro: Intelligenter Proxy-Agent für kontextabhängiges Intent-Understanding

Large Language Models (LLMs) sind heute unverzichtbar für die Zusammenarbeit zwischen Mensch und KI. Ein entscheidender Schritt dabei ist d…

arXiv – cs.AI 05.03.2026 05:00

Forschung

<h1>LLM-gestützte Schiffswegvorhersage: ShipTraj‑R1 setzt neue Maßstäbe</h1> <p>Durch die jüngsten Fortschritte im Bereich der Verstärkungsoptimierung von Sprachmodellen hat sich die Fähigkeit großer Sprachmodelle (LLMs) zur logischen Problemlösung deutlich verbessert. Besonders die Methode des Group Relative Policy Optimization (GRPO) hat in verschiedenen Anwendungsfeldern starke Ergebnisse erzielt.</p> <p>Die Anwendung von LLMs auf die Vorhersage von Schiffsrouten blieb bislang weitgehend unerforscht. In

arXiv – cs.AI 04.03.2026 05:00

Forschung

Neuer Algorithmus ATPO: Adaptive Tree Policy Optimierung steigert medizinische Dialoge

Ein neuer Ansatz namens Adaptive Tree Policy Optimization (ATPO) verspricht, die Qualität von medizinischen Dialogen deutlich zu verbessern…

arXiv – cs.LG 04.03.2026 05:00

Forschung

DIVA‑GRPO: Mehrschichtige Logik mit anpassbarer Schwierigkeitsstufe

Reinforcement‑Learning‑Modelle, die auf Group Relative Policy Optimization (GRPO) setzen, haben sich als effektive Methode etabliert, um di…

arXiv – cs.AI 03.03.2026 05:00

Forschung

OptiAgent: KI-gestütztes, physikbasiertes System für automatisiertes Optikdesign

OptiAgent ist ein neu entwickeltes, physikgetriebenes Agenten-Framework, das die Automatisierung des Optikdesigns revolutioniert. Durch die…

arXiv – cs.LG 02.03.2026 05:00

Forschung

K²-Agent: Hierarchischer Lernagent für mobile Geräte mit selbstentwickeltem Wissen

Ein neuer Ansatz namens K²-Agent verspricht, die Grenzen herkömmlicher mobile Geräte‑Controller zu sprengen. Durch die Trennung von deklara…

arXiv – cs.AI 03.03.2026 05:00

Forschung

UpSkill steigert LLMs: Treffer bei mehreren Versuchen dank Mutual Information

Die neue Methode UpSkill, entwickelt von Forschern auf arXiv, nutzt Mutual Information Skill Learning (MISL), um die Trefferquote mehrerer…

arXiv – cs.LG 27.02.2026 05:00

Forschung

Verbesserte Anspruchsprüfung durch gezielte Decomposition und Alignment

Eine neue Methode zur Überprüfung komplexer Behauptungen kombiniert Reinforcement Learning mit gezieltem Alignment, um die Qualität der Unt…

arXiv – cs.AI 26.02.2026 05:00

Produkt

CodeFu-7B mit veRL und Ray auf Amazon SageMaker trainieren

In diesem Beitrag zeigen wir, wie man das 7‑Billionen‑Parameter‑Modell CodeFu‑7B – speziell für Wettbewerbsprogrammierung – mit Group Relat…

AWS – Machine Learning Blog 24.02.2026 15:46

Forschung

EnterpriseGym Corecraft: KI-Agenten lernen in realitätsnahen RL-Umgebungen

Surge AI hat mit der Einführung von Corecraft die erste Umgebung der EnterpriseGym-Suite vorgestellt. Corecraft simuliert ein voll funktion…

arXiv – cs.AI 19.02.2026 05:00

Forschung

VI-CuRL: Stabilisierung von verifierunabhängigem RL-Reasoning durch Varianzreduktion

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als führendes Verfahren zur Verbesserung der Argumentationsfähigkeit…

arXiv – cs.LG 16.02.2026 05:00

Forschung

Blockweise Vorteilsschätzung optimiert Multi-Objective RL in Textgenerierung

Eine neue Technik namens Blockwise Advantage Estimation (BAE) verspricht, die Leistung von Reinforcement‑Learning‑Modellen bei strukturiert…

arXiv – cs.LG 12.02.2026 05:00

Forschung

Ein Prompt macht KI-Modelle unsicher – neue Methode GRP-Oblit

Die Sicherheit von Sprachmodellen hängt von ihrem schwächsten Punkt ab. Obwohl umfangreiche Arbeiten zur Sicherheit nach dem Training exist…

arXiv – cs.LG 09.02.2026 05:00

Forschung

DEPO: Mit Schwierigkeitsbewertung die Kosten für Rollouts halbieren

Ein neues arXiv-Papier präsentiert DEPO, ein innovatives Verfahren zur Optimierung von Large Reasoning Models (LRMs). Durch die Einführung…

arXiv – cs.AI 09.02.2026 05:00

Forschung

Euphonium: Videofluss‑Matching mit Prozessbelohnungsgradienten gesteuert

Ein brandneues Verfahren namens Euphonium verspricht, die Art und Weise zu revolutionieren, wie Video‑Generierungsmodelle mit menschlichen…

arXiv – cs.LG 06.02.2026 05:00

Forschung

InfoReasoner: KI nutzt synthetische Belohnung zur besseren Informationssuche

Ein neues Forschungsprojekt namens InfoReasoner zeigt, wie große Sprachmodelle ihre Fähigkeit zur aktiven Informationssuche verbessern könn…

arXiv – cs.AI 03.02.2026 05:00

Forschung

Neue Methode optimiert lokale Sprachmodelle und Cloud‑Nutzung bei Budgetgrenzen

In der Forschung zu kleinen Sprachmodellen (SLMs), die lokal auf Geräten laufen, ist es entscheidend, dass diese Modelle kontinuierlich neu…

arXiv – cs.LG 03.02.2026 05:00

Forschung

OmegaUse: Neuer GUI-Agent für autonome Aufgaben auf PC und Handy

Ein neuer Ansatz namens OmegaUse verspricht, die Interaktion zwischen Mensch und Computer grundlegend zu verändern. Der Agent ist darauf au…

arXiv – cs.AI 29.01.2026 05:00

Forschung

Medizinische Chatbots lernen selbstständig: Online RL mit Informationsgewinn

Eine neue Methode namens Information Gain Fine‑Tuning (IGFT) ermöglicht es medizinischen Konversations-KI, effektive Patienteninterviews zu…

arXiv – cs.AI 27.01.2026 05:00

Forschung

LLM-basierte Lernpfadempfehlung: IB‑GRPO optimiert Lernziele mit Indikator

Die Herausforderung, Lernpfade zu empfehlen, die nicht nur individuell wirken, sondern auch langfristig den Lernerfolg steigern, ist komple…

arXiv – cs.AI 22.01.2026 05:00

Forschung

UniMo: KI-gestützte Bewegungsgenerierung und -verständnis revolutioniert

In der Forschung zu 3‑D‑Bewegungen stoßen herkömmliche Modelle oft an ihre Grenzen, weil sie schwer zu interpretieren sind. Das erschwert d…

arXiv – cs.AI 21.01.2026 05:00

Forschung

M^4olGen: Mehrstufige Molekülgenerierung mit präziser Multi-Property-Steuerung

Die neueste Veröffentlichung von M^4olGen präsentiert einen zweistufigen Ansatz zur Erzeugung von Molekülen, die exakt mehrere physikochemi…

arXiv – cs.AI 16.01.2026 05:00

Forschung

MMR-GRPO beschleunigt mathematisches Training durch diversitätsbasierte Belohnung

Die neue Methode MMR‑GRPO kombiniert die bewährte Group Relative Policy Optimization (GRPO) mit Maximal Marginal Relevance, um die Belohnun…

arXiv – cs.LG 15.01.2026 05:00

Forschung

GDEPO: Neue Methode steigert Reinforcement-Learning beim automatischen Theorembeweis

In der Welt des automatischen Theorembeweisens (ATP) hat sich Reinforcement Learning als Schlüsseltechnologie etabliert. Der aktuelle Stand…

arXiv – cs.AI 13.01.2026 05:00

Forschung

Kontamination in Sprachmodellen: Wie Post‑Training die Leistung beeinflusst

In einer neuen Studie von arXiv 2601.06103v1 wird untersucht, wie sich Datenkontamination auf die gängigen Post‑Training‑Schritte großer Sp…

arXiv – cs.LG 13.01.2026 05:00

Forschung

Dynamische Hybrid-Optimierung: Token- und Sequenz-Strategien vereint

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) eröffnet neue Wege, große Sprachmodelle für komplexe Denkaufgaben zu optimier…

arXiv – cs.LG 12.01.2026 05:00

Forschung

Turn-PPO: Neue Turn-Level-Strategie verbessert Multi-Turn RL in LLM-Agenten

Reinforcement Learning (RL) erlebt ein starkes Comeback als effektiver Ansatz zur Schulung interaktiver LLM-Agenten in realen Umgebungen. D…

arXiv – cs.LG 22.12.2025 05:00

Finde Modelle, Firmen und Themen

Stabilisierung von Reinforcement Learning für Diffusions-Sprachmodelle

Flow‑GRPO: Neue Methode für stabile KI‑Generierung

VISA: Präzise Werteanpassung von LLMs ohne Qualitätsverlust

IntPro: Intelligenter Proxy-Agent für kontextabhängiges Intent-Understanding

Neuer Algorithmus ATPO: Adaptive Tree Policy Optimierung steigert medizinische Dialoge

DIVA‑GRPO: Mehrschichtige Logik mit anpassbarer Schwierigkeitsstufe

OptiAgent: KI-gestütztes, physikbasiertes System für automatisiertes Optikdesign

K²-Agent: Hierarchischer Lernagent für mobile Geräte mit selbstentwickeltem Wissen

UpSkill steigert LLMs: Treffer bei mehreren Versuchen dank Mutual Information

Verbesserte Anspruchsprüfung durch gezielte Decomposition und Alignment

CodeFu-7B mit veRL und Ray auf Amazon SageMaker trainieren

EnterpriseGym Corecraft: KI-Agenten lernen in realitätsnahen RL-Umgebungen

VI-CuRL: Stabilisierung von verifierunabhängigem RL-Reasoning durch Varianzreduktion

Blockweise Vorteilsschätzung optimiert Multi-Objective RL in Textgenerierung

Ein Prompt macht KI-Modelle unsicher – neue Methode GRP-Oblit

DEPO: Mit Schwierigkeitsbewertung die Kosten für Rollouts halbieren

Euphonium: Videofluss‑Matching mit Prozessbelohnungsgradienten gesteuert

InfoReasoner: KI nutzt synthetische Belohnung zur besseren Informationssuche

Neue Methode optimiert lokale Sprachmodelle und Cloud‑Nutzung bei Budgetgrenzen

OmegaUse: Neuer GUI-Agent für autonome Aufgaben auf PC und Handy

Medizinische Chatbots lernen selbstständig: Online RL mit Informationsgewinn

LLM-basierte Lernpfadempfehlung: IB‑GRPO optimiert Lernziele mit Indikator

UniMo: KI-gestützte Bewegungsgenerierung und -verständnis revolutioniert

M^4olGen: Mehrstufige Molekülgenerierung mit präziser Multi-Property-Steuerung

MMR-GRPO beschleunigt mathematisches Training durch diversitätsbasierte Belohnung

GDEPO: Neue Methode steigert Reinforcement-Learning beim automatischen Theorembeweis

Kontamination in Sprachmodellen: Wie Post‑Training die Leistung beeinflusst

Dynamische Hybrid-Optimierung: Token- und Sequenz-Strategien vereint

Turn-PPO: Neue Turn-Level-Strategie verbessert Multi-Turn RL in LLM-Agenten

🍪 Cookie-Einstellungen