MAC: Live-Benchmark für multimodale KI im wissenschaftlichen Verständnis
Mit dem neuen Benchmark MAC (Multimodal Academic Cover) wird die Bewertung von multimodalen großen Sprachmodellen (MLLMs) neu definiert. MAC ist ein dynamisches, kontinuierlich wachsendes Testsystem, das sich an den neuesten wissenschaftlichen Erkenntnissen orientiert und damit die Schwächen statischer Benchmarks überwindet.
Der Datensatz umfasst über 25.000 Bild‑Text‑Paare aus den Titelseiten führender Fachzeitschriften wie Nature, Science und Cell. Diese Kombination aus abstrakten visuellen und textuellen Inhalten stellt die Modelle vor die Herausforderung, wissenschaftliche Konzepte über mehrere Modalitäten hinweg zu verstehen und zu verknüpfen.
Ergebnisse aus dem aktuellen Jahres‑Snapshot MAC‑2025 zeigen, dass MLLMs zwar über ausgeprägte Wahrnehmungsfähigkeiten verfügen, ihre Fähigkeit zum multimodalen wissenschaftlichen Denken jedoch noch begrenzt ist. Um diese Lücke zu schließen, wurde die leichtgewichtige Inferenz‑Methode DAD entwickelt, die die visuellen Features der Modelle um sprachbasierte Logik erweitert. Durch DAD konnten die Leistungen um bis zu 11 % gesteigert werden.
Ein besonderes Merkmal von MAC ist seine Live‑Natur: Durch regelmäßige Aktualisierungen der Zeitschriftencover und die Einbindung neuer Modelle bleibt der Benchmark stets an der Spitze des aktuellen Wissens. Das Projekt ist öffentlich zugänglich unter https://github.com/mhjiang0408/MAC_Bench und lädt die Forschungsgemeinschaft ein, an der Weiterentwicklung teilzunehmen.