LM Fight Arena: LMMs im Kampf – neues Benchmark für Echtzeit-Strategie
Die Bewertung großer multimodaler Modelle (LMMs) stößt häufig an Grenzen, wenn es um ihre Leistung in dynamischen, gegnerischen Umgebungen geht. Mit dem neuen Rahmenwerk „LM Fight Arena“ wird dieses Problem angegangen: Hier werden LMMs in einem echten Kampfspiel gegeneinander antreten, um ihre Fähigkeiten in Echtzeit‑Visueller Analyse und taktischer Entscheidungsfindung zu testen.
Der Test nutzt das klassische Kampfspiel Mortal Kombat II, bei dem die Modelle die gleiche Spielfigur steuern. Durch die Analyse von Spielbildern und Zustandsdaten wählen die Agenten ihre nächsten Aktionen. Auf diese Weise wird ein fairer, automatisierter Vergleich zwischen offenen und proprietären Modellen ermöglicht.
Im Rahmen eines kontrollierten Turniers wurden sechs führende LMMs gegeneinander eingesetzt. Das Ergebnis liefert ein vollständig reproduzierbares und objektives Bild der strategischen Denkfähigkeit der Modelle in einer sich ständig verändernden Umgebung. LM Fight Arena schafft damit eine spannende Brücke zwischen KI‑Evaluation und interaktivem Entertainment.