TutorBench: Benchmark zur Messung von Lernhilfe‑Fähigkeiten großer Sprachmodelle

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Mit der zunehmenden Nutzung großer Sprachmodelle (LLMs) als Lernhilfe wird die Notwendigkeit deutlich, Modelle zu entwickeln, die die Feinheiten des Tutoring beherrschen. Dazu müssen sie die Kernbedürfnisse der Lernenden erkennen, sich anpassen, personalisierte Anleitungen geben und dabei präzise bleiben.

Der neue Benchmark TutorBench bietet dafür ein sorgfältig kuratiertes Set von 1 490 Beispielen, die sich auf High‑School‑ und AP‑Curricula beziehen. Die Aufgaben umfassen adaptive Erklärungen zu Verwirrungen, konstruktives Feedback zu Arbeiten und das Erzeugen von gezielten Hinweisen, die das aktive Lernen fördern.

Jedes Beispiel wird von einer spezifischen Rubrik begleitet, die die Bewertung der Antworten regelt. Für die automatische Bewertung wird ein LLM‑Judge eingesetzt, der die Rubriken präzise anwendet und so eine feingranulare Analyse ermöglicht.

Bei der Evaluation von 16 führenden LLMs zeigte sich, dass kein Modell einen Gesamtscore von über 56 % erreichte. Alle Modelle erzielten weniger als 60 % bei den Rubrik‑Kriterien, die die wesentlichen Tutoring‑Kompetenzen messen. Das Ergebnis verdeutlicht, dass die aktuelle Generation von LLMs noch erheblichen Verbesserungsbedarf im Bereich der Lernunterstützung hat.

Ähnliche Artikel