Neues Benchmark Agentic-MME prüft multimodale Agenten in 418 realen Aufgaben
Die Forschung zu multimodalen großen Sprachmodellen (MLLMs) hat einen wichtigen Meilenstein erreicht: Mit dem neuen Benchmark Agentic-MME wird erstmals die Fähigkeit von Modellen gemessen, aktiv zu handeln, statt nur zu…