Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Optimizer”
Forschung

<h1>LLM-gestützte Optimierung: Greedy Hill Climbing bleibt die beste Wahl</h1> <p>Eine neue Studie auf arXiv zeigt, dass die klassische Optimierungsmethode des Greedy Hill Climbing, wenn sie mit einem großen Sprachmodell (LLM) kombiniert wird, in einer Vielzahl von Aufgaben die Nase vorn hat. Statt zufälliger Vorschläge generiert das LLM gezielt Kandidaten, indem es die Bewertungsergebnisse analysiert und daraus Schlüsse zieht.</p> <p>Die Autoren testeten ihr Konzept an vier unterschiedlichen Problemen: bei

arXiv – cs.AI
Forschung

<h1>Maskierte Updates steigern LLM-Training: Neue Methode übertrifft Adam</h1> <p>Die Entwicklung großer Sprachmodelle (LLMs) stützt sich bislang fast ausschließlich auf adaptive Optimierer mit komplexen Präconditionern. Eine neue Studie zeigt jedoch, dass das zufällige Maskieren von Parameterupdates überraschend wirksam ist und sogar die neuesten Optimierer übertrifft.</p> <p>Insbesondere ein maskierter RMSProp-Ansatz liefert konsequent bessere Ergebnisse als aktuelle Spitzenoptimierer. Die Autoren erkläre

arXiv – cs.LG
Forschung

<h1>Wann profitieren Deep‑Learning‑Modelle von spektralen Gradientenupdates?</h1> <p>In der Welt des Deep Learning haben spektrale Gradientenmethoden – darunter der neu aufgelegte Muon‑Optimizer – großes Interesse geweckt. Sie stellen eine Alternative zum klassischen euklidischen Gradientenabstieg dar, doch bislang war unklar, in welchen Situationen sie tatsächlich überlegen sind.</p> <p>Die neue Studie liefert dafür eine klare Antwort: Sie führt eine einfache, schichtweise Bedingung ein, die vorhersagt, wa

arXiv – cs.LG