Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Einbettung”
Forschung

Testzeit-Computing steigert latente Generalisierung von Sprachmodellen Sprachmodelle nutzen zwei Wege, um Wissen zu speichern: das Einbetten von Informationen in die Modellgewichte (Gewichtseinbettung) und das Lernen aus Kontext (Kontextlernen). Während letzteres besonders stark in der latenten Generalisierung ist, fällt das erste Verfahren häufig bei deduktiven Aufgaben. Dieses Defizit wird als „latente Generalisierung“ bezeichnet und führt zu Problemen wie dem Umkehrfluch. Frühere Ansätze versuchten,

arXiv – cs.LG