Suche nach Belohnungsmodell

Best-of-N Sampling bleibt optimal – neue Variante verhindert Reward‑Hacking

In einer aktuellen Studie zum Inferenzzeit‑Alignment von Sprachmodellen wird das beliebte Best‑of‑N (BoN) Sampling erneut untersucht. Das V…

arXiv – cs.LG 09.03.2026 04:00

Forschung

ReCouPLe: Sprachbasierte Rationalisierung verbessert robuste Belohnungslernen

In der Welt des maschinellen Lernens ist das Belohnungslernen, das auf Nutzerpräferenzen basiert, ein zentrales Werkzeug, um Agenten so zu…

arXiv – cs.AI 06.03.2026 05:00

Forschung

Rubrikbasierter Kritiker lernt aus seltenen, verrauschten Echtzeitdaten

In der Forschung zu programmierfähigen Agenten wird häufig die Fähigkeit gemessen, Aufgaben autonom zu lösen, indem man auf überprüfbare Be…

arXiv – cs.AI 05.03.2026 05:00

Forschung

PRISM: KI-Algorithmus verbessert Deep-Think-Methoden durch Prozessbelohnungsmodell

In der Welt der KI‑gestützten Problemlösung haben Deep-Think‑Methoden gezeigt, dass sie komplexe mathematische und wissenschaftliche Aufgab…

arXiv – cs.AI 04.03.2026 05:00

Forschung

Reward-Modelle ohne menschliche Hilfe: Skalierung durch unüberwachtes Lernen

Forscher haben einen neuen Ansatz vorgestellt, mit dem Belohnungsmodelle ohne menschliche Annotationen skaliert werden können. Durch das Tr…

arXiv – cs.LG 04.03.2026 05:00

Forschung

DeepResearch-9K: Das anspruchsvolle Benchmark-Datensatz für Deep-Research-Agenten

DeepResearch-9K ist ein umfangreiches, herausforderndes Datenset, das speziell für Deep‑Research‑Agenten entwickelt wurde. Es umfasst 9 000…

arXiv – cs.AI 03.03.2026 05:00

Forschung

Neue Basis-Modelle für autonome Agenten: Lernen, Verifizieren, Anpassen

In einer wegweisenden Veröffentlichung skizziert ein Team von Forschern ein neues Paradigma für autonome Agenten, die nicht nur effizient l…

arXiv – cs.LG 02.03.2026 05:00

Forschung

RewardUQ: Einheitlicher Rahmen zur Unsicherheitsbewertung von Belohnungsmodellen

In der Welt der großen Sprachmodelle (LLMs) sind Belohnungsmodelle entscheidend, um die Systeme an menschliche Präferenzen anzupassen. Doch…

arXiv – cs.LG 02.03.2026 05:00

Forschung

Duel‑Evolve: Optimierung von LLM‑Ausgaben ohne externe Belohnungen

Ein neues Verfahren namens Duel‑Evolve nutzt die eigenen Präferenzen eines großen Sprachmodells, um seine Ausgaben zu optimieren, ohne auf…

arXiv – cs.LG 26.02.2026 05:00

Forschung

CodeScaler: Code-LLM-Training ohne Ausführung, schneller & besser

Die neueste Veröffentlichung von CodeScaler verspricht, die Art und Weise, wie Code-LLMs trainiert und eingesetzt werden, grundlegend zu ve…

arXiv – cs.AI 23.02.2026 05:00

Forschung

IntelliAsk: KI-gestützte Fragenoptimierung steigert Review-Qualität

In der Peer‑Review‑Welt sind tiefgründige, evidenzbasierte Fragen entscheidend. Bisher erzeugen jedoch die meisten großen Sprachmodelle (LL…

arXiv – cs.AI 19.02.2026 05:00

Forschung

Neue Methode: GFlowNets erweitern Sprachmodelle auf dynamische Span‑Vokabulare

Standard‑autoregressive Sprachmodelle erzeugen Text tokenweise aus einer festen Wortschatzliste, was zu einem baumartigen Zustandsraum führ…

arXiv – cs.AI 12.02.2026 05:00

Forschung

PEPO: Ensemble‑Optimierung verhindert Überoptimierung ohne Datenverteilung

In der Welt der Präferenzlernen ist die Gefahr der Überoptimierung seit langem bekannt: Modelle neigen dazu, sich zu stark an die Trainings…

arXiv – cs.LG 09.02.2026 05:00

Forschung

EntRGi: Neue Methode verbessert Reward Guidance bei Diffusion‑Sprachmodellen

Ein neues Verfahren namens EntRGi (Entropy aware Reward Guidance) hat die Art und Weise, wie Belohnungsmodelle bei diskreten Diffusion‑Spra…

arXiv – cs.LG 06.02.2026 05:00

Forschung

Euphonium: Videofluss‑Matching mit Prozessbelohnungsgradienten gesteuert

Ein brandneues Verfahren namens Euphonium verspricht, die Art und Weise zu revolutionieren, wie Video‑Generierungsmodelle mit menschlichen…

arXiv – cs.LG 06.02.2026 05:00

Forschung

MPRM-Training: Mit 10 % Daten die volle Leistung erreichen

In der Forschung zu multimodalen Prozessbelohnungsmodellen (MPRMs) steht die effiziente Nutzung von Trainingsdaten im Fokus. MPRMs sind ent…

arXiv – cs.LG 05.02.2026 05:00

Forschung

GOPO: Optimierung von Policies mit Rang-basierten Belohnungen

Die neue Methode GOPO (Group Ordinal Policy Optimization) nutzt bei der Optimierung von KI-Modellen ausschließlich die Rangfolge von Belohn…

arXiv – cs.AI 05.02.2026 05:00

Forschung

Stackelberg-Spiel optimiert Reward-Shaping für LLM-Alignment

Neues Forschungsergebnis aus dem arXiv-Preprint Reward Shaping for Inference-Time Alignment: A Stackelberg Game Perspective zeigt, wie man…

arXiv – cs.LG 04.02.2026 05:00

Forschung

Federated Alignment: Neue Methode für heterogene Vision‑Language‑Modelle

Vision‑Language‑Modelle (VLMs) versprechen enorme Fortschritte in sensiblen Bereichen wie Medizin und Finanzen. Doch die strengen Datenschu…

arXiv – cs.AI 03.02.2026 05:00

Forschung

AutoTraj: Automatisches Lernen von Tool‑Use‑Pfaden für KI‑Reasoning

In einer neuen Studie wird AutoTraj vorgestellt, ein zweistufiges Verfahren, das große Sprachmodelle (LLMs) dazu befähigt, komplexe Aufgabe…

arXiv – cs.AI 02.02.2026 05:00

Forschung

Realzeit‑Ausrichtung von Belohnungsmodellen: Ein neues RLHF‑Framework

Reinforcement Learning from Human Feedback (RLHF) ist ein zentrales Verfahren, um große Sprachmodelle an menschliche Präferenzen anzupassen…

arXiv – cs.AI 02.02.2026 05:00

Forschung

RLHF: Neue Theorie erklärt, warum große Sprachmodelle nach Feedback generalisieren

Reinforcement Learning from Human Feedback (RLHF) hat sich als führende Methode etabliert, um große Sprachmodelle (LLMs) an menschliche Int…

arXiv – cs.LG 26.01.2026 05:00

Forschung

TAC: Von der Belohnungsanpassung zur Belohnungslernen – neue Erkenntnisse

Reinforcement‑Learning‑Experten stehen vor einer zentralen Herausforderung: die Belohnungsfunktion muss exakt das gewünschte Ziel widerspie…

arXiv – cs.LG 26.01.2026 05:00

Forschung

Wissensgraphen als Belohnungsmodelle: Pfadbasierte Signale fördern Denken

Eine neue Veröffentlichung auf arXiv präsentiert einen innovativen Ansatz, mit dem große Sprachmodelle ihre Fähigkeiten im mehrstufigen, zu…

arXiv – cs.AI 22.01.2026 05:00

Forschung

ToolPRMBench: Benchmark für Prozessbelohnungsmodelle bei Tool‑Agenten

In der Welt der KI‑Agenten, die komplexe Werkzeuge nutzen, haben belohnungsbasierte Suchmethoden gezeigt, dass sie die Leistung deutlich st…

arXiv – cs.AI 21.01.2026 05:00

Forschung

EAPO: Neue RL-Methode verbessert Langkontext-Logik durch Beweisoptimierung

In der Welt der großen Sprachmodelle (LLM) hat sich das Reinforcement Learning (RL) als kraftvolles Werkzeug erwiesen, um die Fähigkeit zur…

arXiv – cs.AI 16.01.2026 05:00

Forschung

PRL: Belohnung steigert LLMs' Denkfähigkeit und erweitert Grenzen

Die Weiterentwicklung der Denkfähigkeiten großer Sprachmodelle (LLMs) steht seit langem im Fokus der Forschung. Traditionell werden dabei n…

arXiv – cs.LG 16.01.2026 05:00

Forschung

TRIM: Schrittweises Routing steigert Effizienz bei mehrstufigen Aufgaben

In der Welt der großen Sprachmodelle (LLMs) stellen mehrstufige Aufgaben wie mathematisches Problemlösen eine besondere Herausforderung dar…

arXiv – cs.AI 16.01.2026 05:00

Forschung

Greedy reicht: Sparse Action Discovery in Agentic LLMs

Moderne agentische Systeme arbeiten in Umgebungen mit extrem großen Aktionsräumen – etwa Sprachmodelle, die tausende APIs oder Abrufoperati…

arXiv – cs.AI 14.01.2026 05:00

Forschung

ResMAS: Optimierung der Resilienz in LLM-basierten Multi-Agenten-Systemen

Large‑Language‑Model‑basierte Multi‑Agenten‑Systeme (LLM‑MAS) haben in den letzten Jahren beeindruckende Leistungen in komplexen Aufgabenbe…

arXiv – cs.AI 09.01.2026 05:00

Finde Modelle, Firmen und Themen

Best-of-N Sampling bleibt optimal – neue Variante verhindert Reward‑Hacking

ReCouPLe: Sprachbasierte Rationalisierung verbessert robuste Belohnungslernen

Rubrikbasierter Kritiker lernt aus seltenen, verrauschten Echtzeitdaten

PRISM: KI-Algorithmus verbessert Deep-Think-Methoden durch Prozessbelohnungsmodell

Reward-Modelle ohne menschliche Hilfe: Skalierung durch unüberwachtes Lernen

DeepResearch-9K: Das anspruchsvolle Benchmark-Datensatz für Deep-Research-Agenten

Neue Basis-Modelle für autonome Agenten: Lernen, Verifizieren, Anpassen

RewardUQ: Einheitlicher Rahmen zur Unsicherheitsbewertung von Belohnungsmodellen

Duel‑Evolve: Optimierung von LLM‑Ausgaben ohne externe Belohnungen

CodeScaler: Code-LLM-Training ohne Ausführung, schneller & besser

IntelliAsk: KI-gestützte Fragenoptimierung steigert Review-Qualität

Neue Methode: GFlowNets erweitern Sprachmodelle auf dynamische Span‑Vokabulare

PEPO: Ensemble‑Optimierung verhindert Überoptimierung ohne Datenverteilung

EntRGi: Neue Methode verbessert Reward Guidance bei Diffusion‑Sprachmodellen

Euphonium: Videofluss‑Matching mit Prozessbelohnungsgradienten gesteuert

MPRM-Training: Mit 10 % Daten die volle Leistung erreichen

GOPO: Optimierung von Policies mit Rang-basierten Belohnungen

Stackelberg-Spiel optimiert Reward-Shaping für LLM-Alignment

Federated Alignment: Neue Methode für heterogene Vision‑Language‑Modelle

AutoTraj: Automatisches Lernen von Tool‑Use‑Pfaden für KI‑Reasoning

Realzeit‑Ausrichtung von Belohnungsmodellen: Ein neues RLHF‑Framework

RLHF: Neue Theorie erklärt, warum große Sprachmodelle nach Feedback generalisieren

TAC: Von der Belohnungsanpassung zur Belohnungslernen – neue Erkenntnisse

Wissensgraphen als Belohnungsmodelle: Pfadbasierte Signale fördern Denken

ToolPRMBench: Benchmark für Prozessbelohnungsmodelle bei Tool‑Agenten

EAPO: Neue RL-Methode verbessert Langkontext-Logik durch Beweisoptimierung

PRL: Belohnung steigert LLMs' Denkfähigkeit und erweitert Grenzen

TRIM: Schrittweises Routing steigert Effizienz bei mehrstufigen Aufgaben

Greedy reicht: Sparse Action Discovery in Agentic LLMs

ResMAS: Optimierung der Resilienz in LLM-basierten Multi-Agenten-Systemen

🍪 Cookie-Einstellungen

MPRM-Training: Mit 10 % Daten die volle Leistung erreichen