LLM-Trainingdaten verbessern Tabellenerkennung: LRTab setzt neue Maßstäbe
Die automatisierte Analyse von Tabellen ist für Datenwissenschaftler ein zentrales Thema. In den letzten Jahren haben sich große Sprachmodelle (LLMs) als leistungsfähige Werkzeuge für tabellarische Schlussfolgerungen etabliert. Traditionell wurden LLMs entweder durch feine Anpassung an gelabelte Datensätze oder durch trainingsfreie Prompting‑Methoden mit Ketten‑der‑Denken (CoT) eingesetzt.
Feinabstimmung ermöglicht eine datenspezifische Lernkurve, beschränkt jedoch die Generalisierbarkeit. Prompting ohne Training ist dagegen sehr flexibel, nutzt aber nicht die vorhandenen Trainingsdaten voll aus. Die neue Methode Learn then Retrieve (LRTab) verbindet die Vorteile beider Ansätze. Zunächst werden über die Trainingsdaten CoT‑Antworten generiert. Für fehlerhafte CoTs wird das Modell aufgefordert, sogenannte Prompt‑Bedingungen zu prognostizieren, die die Fehlerquelle adressieren. Diese Bedingungen werden anschließend mit Validierungsdaten überprüft und verfeinert.
Bei der Inferenzphase ruft LRTab die relevantesten Prompt‑Bedingungen aus den Trainingsdaten ab und liefert sie als zusätzlichen Kontext für die Tabellenerkennung. Umfangreiche Experimente auf den Benchmark‑Datensätzen WikiTQ und Tabfact zeigen, dass LRTab nicht nur interpretierbar und kosteneffizient ist, sondern auch die bisherigen Baselines in der tabellarischen Logik übertrifft.