Ungekennzeichnete Daten verbessern das In-Context-Lernen von Transformern
Große Sprachmodelle zeigen beeindruckende Fähigkeiten im In-Context-Lernen, doch ihre Genauigkeit bleibt durch die wenigen kostenintensiven gelabelten Beispiele, die in einen Prompt passen, begrenzt. Gleichzeitig existi…
- Große Sprachmodelle zeigen beeindruckende Fähigkeiten im In-Context-Lernen, doch ihre Genauigkeit bleibt durch die wenigen kostenintensiven gelabelten Beispiele, die in…
- Gleichzeitig existieren riesige Mengen an unlabelierten Daten, die eng mit der ICL-Aufgabe verknüpft sein können.
- In einer neuen Studie wird ein ergänztes ICL-Framework vorgestellt, bei dem der Prompt aus einer kleinen Gruppe gelabelter Beispiele sowie einem Block unlabelierter Eing…
Große Sprachmodelle zeigen beeindruckende Fähigkeiten im In-Context-Lernen, doch ihre Genauigkeit bleibt durch die wenigen kostenintensiven gelabelten Beispiele, die in einen Prompt passen, begrenzt. Gleichzeitig existieren riesige Mengen an unlabelierten Daten, die eng mit der ICL-Aufgabe verknüpft sein können.
In einer neuen Studie wird ein ergänztes ICL-Framework vorgestellt, bei dem der Prompt aus einer kleinen Gruppe gelabelter Beispiele sowie einem Block unlabelierter Eingaben besteht. Der Fokus liegt auf der multi‑klassigen linearen Klassifikation.
Durch Chain‑of‑Thought‑Prompting kann ein mehrschichtiger Transformer effektiv einen Erwartungs‑Maximierungs‑Algorithmus nachahmen. Dadurch extrahiert das Modell implizit nützliche Informationen aus beiden Datentypen, was zu nachweislich besseren ICL‑Genauigkeiten führt.
Die Autoren zeigen zudem, dass der Transformer mittels Teacher‑Forcing trainiert werden kann, wobei die Parameter linear zum gewünschten Ergebnis konvergieren. Experimentelle Ergebnisse belegen, dass das erweiterte ICL-Framework konventionelle Few‑Shot‑ICL‑Methoden konsequent übertrifft und die theoretischen Erkenntnisse bestätigt.
Nach aktuellem Stand ist dies die erste theoretische Untersuchung, die den Einfluss unlabelierter Daten auf die ICL‑Leistung von Transformern systematisch analysiert.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.