Neues Benchmark Agentic-MME prüft multimodale Agenten in 418 realen Aufgaben
Die Forschung zu multimodalen großen Sprachmodellen (MLLMs) hat einen wichtigen Meilenstein erreicht: Mit dem neuen Benchmark Agentic-MME wird erstmals die Fähigkeit von Modellen gemessen, aktiv zu handeln, statt nur zu…
- Die Forschung zu multimodalen großen Sprachmodellen (MLLMs) hat einen wichtigen Meilenstein erreicht: Mit dem neuen Benchmark Agentic-MME wird erstmals die Fähigkeit von…
- Dabei werden Aufgaben gelöst, die visuelle Werkzeuge nutzen und im Internet nach Wissen suchen.
- Agentic-MME umfasst 418 Aufgaben aus sechs unterschiedlichen Bereichen und drei Schwierigkeitsstufen.
Die Forschung zu multimodalen großen Sprachmodellen (MLLMs) hat einen wichtigen Meilenstein erreicht: Mit dem neuen Benchmark Agentic-MME wird erstmals die Fähigkeit von Modellen gemessen, aktiv zu handeln, statt nur zu beobachten. Dabei werden Aufgaben gelöst, die visuelle Werkzeuge nutzen und im Internet nach Wissen suchen.
Agentic-MME umfasst 418 Aufgaben aus sechs unterschiedlichen Bereichen und drei Schwierigkeitsstufen. Für jede Aufgabe wurden über 2.000 Schritt-für-Schritt-Checkpoints manuell annotiert – ein Aufwand von mehr als 10 Personstunden pro Aufgabe. Diese detaillierten Daten ermöglichen eine echte Prozessverifizierung, statt nur die Endergebnisse zu prüfen.
Der Benchmark bietet ein einheitliches Evaluationsframework, das sandboxed Code und APIs unterstützt. Zusätzlich wird die Effizienz der Modelle mit einem „Overthinking“-Metrik verglichen, die die Anzahl unnötiger Zwischenschritte im Vergleich zu menschlichen Referenztrajektorien misst.
In den ersten Tests erreichte das Modell Gemini3‑pro eine Gesamtgenauigkeit von 56,3 %. Auf den schwierigsten Level‑3-Aufgaben sank die Leistung jedoch drastisch auf 23,0 %, was die Komplexität realer multimodaler Problemstellungen deutlich macht.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.