FinSheet-Bench: LLMs scheitern an komplexen Finanz-Tabellen

Kernaussagen

Das nimmst du aus dem Beitrag mit

Ein neues Benchmark-Set namens FinSheet-Bench wurde vorgestellt, um die Leistungsfähigkeit von Large Language Models (LLMs) bei der Analyse von Finanztabellen zu prüfen.
Die Daten bestehen aus synthetischen Portfolios, die reale Private‑Equity‑Strukturen nachbilden, und ermöglichen so eine objektive Bewertung, ohne vertrauliche Unternehm…
Bei der Auswertung von zehn Modellen – darunter OpenAI, Google und Anthropic – zeigte sich, dass kein einzelnes Modell die Fehlerquote senken kann, die für den Einsatz i…

Ein neues Benchmark-Set namens FinSheet-Bench wurde vorgestellt, um die Leistungsfähigkeit von Large Language Models (LLMs) bei der Analyse von Finanztabellen zu prüfen. Die Daten bestehen aus synthetischen Portfolios, die reale Private‑Equity‑Strukturen nachbilden, und ermöglichen so eine objektive Bewertung, ohne vertrauliche Unternehmensdaten preiszugeben.

Bei der Auswertung von zehn Modellen – darunter OpenAI, Google und Anthropic – zeigte sich, dass kein einzelnes Modell die Fehlerquote senken kann, die für den Einsatz in der professionellen Finanzwelt erforderlich ist. Das bestplatzierte Modell, Gemini 3.1 Pro, erreichte 82,4 % Genauigkeit über 24 Testdateien, was etwa einem Fehler pro sechs Fragen entspricht. GPT‑5.2, Claude Opus 4.6 und Gemini 3 Pro folgten knapp dahinter mit 80,4 %, 80,2 % bzw. 80,2 %.

Die Leistung verschlechtert sich deutlich bei größeren, komplexeren Tabellen. Auf der größten Datei mit 152 Unternehmen und acht Fonds lag die durchschnittliche Genauigkeit aller Modelle bei nur 48,6 %, während die einfachste Datei noch 86,2 % erreichte. Diese konsistenten Schwachstellen über alle Modelle hinweg deuten darauf hin, dass LLMs derzeit noch nicht für unüberwachte Finanzanalysen eingesetzt werden können.

FinSheet-Bench liefert damit einen wichtigen Maßstab für zukünftige Entwicklungen: Nur wenn LLMs die Fähigkeit entwickeln, strukturierte Daten zuverlässig zu extrahieren und zu interpretieren, können sie in der Finanzbranche als vollwertige Werkzeuge eingesetzt werden. Für den Moment bleibt die Herausforderung bestehen, die Genauigkeit bei komplexen Tabellen signifikant zu erhöhen.

Einordnen in 60 Sekunden