Neue Messmethode enthüllt: Wie LLM-Agenten ihre Zwischenschritte verfolgen
Die Erfolgsrate von Aufgaben ist bislang der wichtigste Indikator für die Leistungsfähigkeit von Large Language Models (LLM). Doch Modelle mit identischen Erfolgsquoten können sich stark darin unterscheiden, wie gut sie…