RIMO: Neues Olympiad-Benchmark für fortgeschrittenes mathematisches Denken
Mit dem neuen RIMO-Benchmark setzt die Forschung einen klaren Maßstab für die Fähigkeiten von großen Sprachmodellen (LLMs) im Bereich des fortgeschrittenen mathematischen Denkens. RIMO wurde entwickelt, um die Herausforderungen der International Mathematical Olympiad (IMO) zu nutzen, ohne die Bewertungslücken und Bias, die bei bestehenden Olympiad-Benchmarks auftreten.
Der erste Track, RIMO‑N, umfasst 335 IMO-Aufgaben, die so umformuliert wurden, dass sie jeweils nur eine eindeutige ganzzahlige Antwort zulassen. Dadurch kann die Richtigkeit deterministisch geprüft werden, ohne dass ein Modell als Beurteiler fungieren muss. Der zweite Track, RIMO‑P, beinhaltet 456 Beweisaufgaben, deren Lösungen von Experten überprüft wurden. Diese Lösungen werden in eine Folge von Teilaufgaben zerlegt, sodass die schrittweise Argumentation eines Modells automatisch bewertet werden kann.
Bei einer umfassenden Evaluation von zehn führenden LLMs – darunter GPT‑4o und Gemini 2.5 Flash – zeigte sich, dass die Modelle zwar bei älteren Benchmarks wie GSM8K und MATH stark abschneiden, ihre Leistung jedoch bei RIMO drastisch abfällt. Diese Ergebnisse verdeutlichen einen erheblichen Abstand zwischen den aktuellen Fähigkeiten von LLMs und dem Niveau echter Olympiad‑Problemlösung.
RIMO bietet damit eine leicht zu bewertende, aber hoch anspruchsvolle Testumgebung, die Forschern ein präzises Messinstrument liefert, um Fortschritte im mathematischen Denken von KI-Systemen zu verfolgen und die große Lücke zwischen heutigen Modellen und menschlichem Olympiad‑Kenntnis zu schließen.