Forschung arXiv – cs.AI

Neues Benchmark Agentic-MME prüft multimodale Agenten in 418 realen Aufgaben

Die Forschung zu multimodalen großen Sprachmodellen (MLLMs) hat einen wichtigen Meilenstein erreicht: Mit dem neuen Benchmark Agentic-MME wird erstmals die Fähigkeit von Modellen gemessen, aktiv zu handeln, statt nur zu…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Die Forschung zu multimodalen großen Sprachmodellen (MLLMs) hat einen wichtigen Meilenstein erreicht: Mit dem neuen Benchmark Agentic-MME wird erstmals die Fähigkeit von…
  • Dabei werden Aufgaben gelöst, die visuelle Werkzeuge nutzen und im Internet nach Wissen suchen.
  • Agentic-MME umfasst 418 Aufgaben aus sechs unterschiedlichen Bereichen und drei Schwierigkeitsstufen.

Die Forschung zu multimodalen großen Sprachmodellen (MLLMs) hat einen wichtigen Meilenstein erreicht: Mit dem neuen Benchmark Agentic-MME wird erstmals die Fähigkeit von Modellen gemessen, aktiv zu handeln, statt nur zu beobachten. Dabei werden Aufgaben gelöst, die visuelle Werkzeuge nutzen und im Internet nach Wissen suchen.

Agentic-MME umfasst 418 Aufgaben aus sechs unterschiedlichen Bereichen und drei Schwierigkeitsstufen. Für jede Aufgabe wurden über 2.000 Schritt-für-Schritt-Checkpoints manuell annotiert – ein Aufwand von mehr als 10 Personstunden pro Aufgabe. Diese detaillierten Daten ermöglichen eine echte Prozessverifizierung, statt nur die Endergebnisse zu prüfen.

Der Benchmark bietet ein einheitliches Evaluationsframework, das sandboxed Code und APIs unterstützt. Zusätzlich wird die Effizienz der Modelle mit einem „Overthinking“-Metrik verglichen, die die Anzahl unnötiger Zwischenschritte im Vergleich zu menschlichen Referenztrajektorien misst.

In den ersten Tests erreichte das Modell Gemini3‑pro eine Gesamtgenauigkeit von 56,3 %. Auf den schwierigsten Level‑3-Aufgaben sank die Leistung jedoch drastisch auf 23,0 %, was die Komplexität realer multimodaler Problemstellungen deutlich macht.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

MLLM
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Agentic-MME
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Gemini3-pro
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen