SHAPE: Hierarchisches Belohnungssystem steigert LLM-Logik um 3 % und spart 30 % Tokens
In der Welt der großen Sprachmodelle (LLMs) hat die Prozessüberwachung als vielversprechender Ansatz zur Verbesserung der Logik an Bedeutung gewonnen. Bisher konnten bestehende Verfahren jedoch nicht zuverlässig zwische…