CoReTab: Codebasierte Logik verbessert multimodale Tabellenverständnis
In der Welt der multimodalen Tabellenanalyse haben bisherige Datensätze wie MMTab vor allem kurze, faktenbasierte Antworten geliefert, ohne explizite Unterstützung für mehrstufige Schlussfolgerungen. Das führte dazu, dass trainierte Modelle oft knapp antworteten, die Genauigkeit niedrig blieb und die Nachvollziehbarkeit der Entscheidungswege stark eingeschränkt war.
Mit dem neuen CoReTab-Framework wird das anders. Durch die Kombination von mehrstufiger Logik mit ausführbarem Python-Code entstehen skalierbare, interpretierbare und automatisch verifizierbare Annotationen. Das Resultat ist ein Datensatz von 115 000 geprüften Beispielen, bei denen die Antworten im Durchschnitt 529 Tokens umfassen.
Die Open‑Source‑MLLMs wurden in einem dreistufigen Pipeline-Ansatz feinabgestimmt und anschließend an 17 MMTab-Benchmarks getestet – von Tabellen‑Frage‑Antworten über Fakten‑Verifikation bis hin zum Verständnis der Tabellenstruktur. Im Vergleich zu Modellen, die ausschließlich auf MMTab trainiert wurden, erzielte CoReTab beeindruckende Verbesserungen von +6,2 %, +5,7 % und +25,6 % in den jeweiligen Bereichen.
Diese Ergebnisse zeigen, dass CoReTab ein robustes und generalisierbares Supervisionsframework darstellt, das die mehrstufige Logik in multimodalen Tabellenverständnis deutlich steigert und gleichzeitig transparente, verifizierbare Begründungspfade liefert.