DDPO: Reduziert Antwortlänge, steigert Genauigkeit bei großen Rechenmodellen
Große Rechenmodelle für logisches Denken zeigen beeindruckende Fähigkeiten, leiden jedoch häufig unter „Overthinking“. Dabei erzeugen sie unnötig lange und redundante Antworten. Gleichzeitig kann das Modell bei Aufgaben…