Alvorada-Bench: KI‑Modelle meistern brasilianische Hochschulzugangstests

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Alvorada‑Bench ist ein neues, textbasiertes Benchmark, das aus 4 515 Fragen aus fünf brasilianischen Hochschulzugangstests besteht. Damit wird erstmals ein umfangreiches Testset geschaffen, das die sprachlichen und kulturellen Anforderungen sowie das logische Denken der brasilianischen Bildungssysteme abbildet.

Im Rahmen der Studie wurden zwanzig Sprachmodelle unter drei Prompting‑Strategien – Zero‑Shot, Rollen‑Play und Chain‑of‑Thought – getestet. Insgesamt wurden 270 900 Antworten generiert, die zusätzlich Selbstberichte zu Vertrauen, wahrgenommener Schwierigkeit und Bloom‑Level enthielten.

Die leistungsstärksten Modelle erreichten über 94 % Genauigkeit im Gesamten, jedoch zeigte sich bei Mathematik sowie den ingenieurorientierten Prüfungen IME und ITA ein deutlicher Abfall. Dies weist auf noch bestehende Schwächen bei mehrstufigen Rechenaufgaben hin. Gleichzeitig korrelieren die selbst gemessenen Vertrauenswerte eng mit der wahrgenommenen Schwierigkeit, was eine gute Kalibrierung der Modelle bestätigt.

Eine Kosten‑Effizienz‑Analyse ergab, dass eine hohe Genauigkeit bei weniger als 2 USD pro 1 000 Tokens erreichbar ist. Auf dem ENEM 2024 erreichte das Spitzenmodell O3 perfekte Ergebnisse im Sprachfach, während das schwächste System GPT‑4.1 Nano lediglich bei Mathematik unter menschlicher Leistung blieb.

Alvorada‑Bench liefert damit einen wichtigen Maßstab dafür, wie gut Sprachmodelle die Schnittstelle zwischen Sprache, Kultur und komplexem Denken in brasilianischen Hochschulprüfungen bewältigen können – ein entscheidender Schritt zur Bewertung ihrer Einsatzfähigkeit im Bildungsbereich.

Ähnliche Artikel