Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Guidance”
Forschung

Monte-Carlo-Sampler verbessert Diffusionsmodelle: Neue Methode steigert Qualität Auf der Plattform arXiv wurde ein neuer Ansatz vorgestellt, der die Leistung von stochastischen Differentialgleichungsmodellen (SDE) in der bedingten Generierung deutlich verbessert. Der Beitrag beschreibt, wie ein zusätzlicher Rückwärts-Denoising-Schritt in Kombination mit Monte-Carlo-Sampling – kurz ABMS – die Genauigkeit der Gradienten für die Guidance erhöht und damit die Konsistenz der generierten Ergebnisse steigert.

arXiv – cs.LG
Forschung

<h1>Diffusionsmodelle können formale Syntax einhalten – neue Methode</h1> <p>Diffusionsbasierte Sprachmodelle gelten als vielversprechende Alternative zu autoregressiven Systemen, weil sie Texte global und ohne kausale Abhängigkeiten erzeugen. Ihre kontinuierlichen latenten Zustände machen jedoch die Durchsetzung diskreter Vorgaben – etwa das Erzeugen eines JSON‑Dokuments, das einem vorgegebenen Schema entspricht – schwierig.</p> <p>Die neue, trainingsfreie Guidance‑Methode löst dieses Problem, indem sie ei

arXiv – cs.LG
Forschung

<p>Neues Verfahren: Dual-Granularitäts-Contrastive Reward erhöht Effizienz von Embodied RL</p> <p>In der Welt des Reinforcement Learning (RL) gilt die Gestaltung geeigneter Belohnungen als entscheidende Herausforderung, besonders bei körperlich gesteuerten Manipulationsaufgaben. Traditionelle Trajektorien-Erfolgsbelohnungen sind zwar intuitiv, doch ihre starke Sparsamkeit hemmt die Sample‑Effizienz von RL-Algorithmen. Aktuelle Ansätze, die auf dichte Belohnungen setzen, benötigen häufig umfangreiche, von Me

arXiv – cs.LG
Forschung

<h1>KI-Modell für UAV-Steuerung: Hybrid-Distillation mit Chain-of-Thought</h1> <p>Mit dem rasanten Fortschritt großer Sprachmodelle im Code‑Generierungsbereich steht nun die Herausforderung im Vordergrund, diese Fähigkeiten auf ressourcenbeschränkte Drohnen zu übertragen. Ein neues Verfahren kombiniert gezielte Wissensdistillation, Chain‑of‑Thought‑Guidance und supervised fine‑tuning, um die komplexen Denkprozesse in kompakte Modelle zu verlagern.</p> <p>Im Kern steht ein sorgfältig erstelltes Datenset, das

arXiv – cs.AI