KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Reward Modeling”

Hugging Face präsentiert TRL v1.0: Post-Training-Stack für SFT, Reward Modeling, DPO & GRPO

Hugging Face hat die erste stabile Version von TRL (Transformer Reinforcement Learning) veröffentlicht. Mit TRL v1.0 wird die Bibliothek vo…

MarkTechPost 01.04.2026 07:04

Neues Framework für Reward Modeling: Ordinale Likert-Skala als Grundlage

In der Welt der großen Sprachmodelle ist das Reward‑Modeling entscheidend, um die Systeme an menschliche Vorlieben anzupassen. Bisher fehlt…

arXiv – cs.LG 04.03.2026 05:00

Reward-Modelle ohne menschliche Hilfe: Skalierung durch unüberwachtes Lernen

Forscher haben einen neuen Ansatz vorgestellt, mit dem Belohnungsmodelle ohne menschliche Annotationen skaliert werden können. Durch das Tr…

arXiv – cs.LG 04.03.2026 05:00

DesignSense: 10.000+ Layout‑Paare für bessere Designpräferenzen

Grafische Layouts sind ein zentrales Medium der visuellen Kommunikation, doch aktuelle Generierungsmodelle hinken oft hinter den feinen Nua…

arXiv – cs.AI 02.03.2026 05:00

Reward‑Design als Schlüssel zur zuverlässigen LLM‑Logik

Neues Forschungsdokument auf arXiv beleuchtet, wie die Gestaltung von Belohnungen die Zuverlässigkeit von Large Language Models (LLMs) beim…

arXiv – cs.LG 11.02.2026 05:00

<p>Joint Reward Modeling: Effiziente Bild-Reward-Modelle durch gemeinsames Lernen</p> <p>Reward‑Modelle sind das Herzstück von Reinforcement‑Learning‑From‑Human‑Feedback (RLHF). Sie bestimmen, wie gut generative Modelle menschliche Präferenzen widerspiegeln und gleichzeitig zuverlässig bleiben. Besonders bei komplexen Bild‑Bearbeitungsaufgaben muss ein Reward‑Modell globale semantische Konsistenz und implizite logische Einschränkungen erfassen – weit über die reine lokale Ähnlichkeit hinaus.</p> <p>Aktuelle

arXiv – cs.AI 10.02.2026 05:00

Neue Rubrik-Optimierung steigert LLM-Urteilsgenauigkeit und Belohnungsqualität

In der Welt der großen Sprachmodelle (LLMs) werden Rubriken zunehmend eingesetzt, um Urteilsalgorithmen bei der Bewertung subjektiver, mehr…

arXiv – cs.LG 06.02.2026 05:00

PIGReward: Personalisierte Bewertung von Text‑zu‑Bild‑Modellen

Neues Forschungspapier aus dem arXiv‑Repository präsentiert PIGReward, ein innovatives Modell zur Bewertung von Text‑zu‑Bild‑Generierung. W…

arXiv – cs.AI 26.11.2025 05:00

Vertrauensbasierte Belohnungsmodellierung verbessert das logische Denken von LLMs

In den letzten Jahren hat sich die Forschung zu großen Sprachmodellen (LLMs) von klassischen Anweisungsanpassungen hin zu Reinforcement‑Lea…

arXiv – cs.AI 12.11.2025 05:00

PersRM‑R1: Individuelle Belohnungsmodelle mit Reinforcement Learning <p>In der Welt der großen Sprachmodelle (LLMs) spielen Reward‑Models (RMs) eine zentrale Rolle, indem sie die Ausgaben der Modelle an menschliche Werte anpassen. Doch bisher konnten RMs kaum die feinen, persönlichen Präferenzen der Nutzer erfassen, besonders wenn nur wenige Daten vorliegen und die Anwendungsbereiche vielfältig sind.</p> <p>Mit PersRM‑R1 wird dieses Problem angegangen. Das neue Framework ist das erste, das auf einer rea

arXiv – cs.AI 21.08.2025 05:00