MEENA: Mehrsprachiger Prüfungsdatensatz für persische VLMs

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einer wegweisenden Veröffentlichung präsentiert das Forschungsteam die MEENA-Datenbank, auch bekannt als PersianMMMU. Das neue Benchmark‑Set richtet sich an Vision‑Language‑Modelle (VLMs) und füllt damit die Lücke, die bisher nur wenige Arbeiten in Sprachen außerhalb des Englischen geschlossen haben.

MEENA umfasst rund 7.500 persische und 3.000 englische Fragen, die sich über ein breites Themenfeld erstrecken – von Logik und Mathematik über Physik und Diagramme bis hin zu persischer Kunst und Literatur. Damit deckt das Set sämtliche Schulstufen von der Grundschule bis zur Oberstufe ab und bietet damit eine umfassende Grundlage für die Bewertung von Lern- und Denkfähigkeiten.

Ein besonderes Merkmal des Datensatzes ist die reichhaltige Metadatenstruktur. Jede Frage trägt eine Schwierigkeitsstufe, eine ausführliche Antwortbeschreibung und zusätzliche Kontextinformationen. Durch die zweisprachige Gestaltung lässt sich zudem die Leistung von Modellen in beiden Sprachen vergleichen und die Fähigkeit zur Cross‑Lingual‑Transfer‑Learning untersuchen.

Die Autoren haben MEENA mit einer Reihe von Experimenten validiert, die die Gesamtleistung, die Bild‑Attention und die Neigung zu Halluzinationen messen. Das Ziel ist es, die Entwicklung von VLMs zu fördern, die nicht nur in Englisch, sondern auch in persischer Sprache und Kultur kompetent agieren können.

Ähnliche Artikel