Neue Methode nutzt interne LLM-Informationen für bessere Distillation
Beim Wissenstransfer von großen Sprachmodellen (LLMs) wird häufig angenommen, dass die Ausgabe des Lehrers ein hochwertiges Trainingssignal liefert. Bei Rechenaufgaben ist diese Annahme jedoch oft falsch, weil die korre…