Hybrid-Ansatz mit LLM und Regex steigert PDF-Extraktion in Studienanmeldungen
Eine neue Studie aus dem arXiv-Repository untersucht die Zuverlässigkeit von Informations‑Extraktionsmethoden für KRS‑Dokumente. Dabei wurden drei Ansätze getestet: reine LLM‑Modelle, ein hybrides Verfahren aus reguläre…
- Eine neue Studie aus dem arXiv-Repository untersucht die Zuverlässigkeit von Informations‑Extraktionsmethoden für KRS‑Dokumente.
- Dabei wurden drei Ansätze getestet: reine LLM‑Modelle, ein hybrides Verfahren aus regulären Ausdrücken und LLM sowie ein Camelot‑Pipeline‑Ansatz mit LLM‑Fallback.
- Die Experimente umfassten 140 PDFs für die reine LLM‑Tests und 860 PDFs für die Camelot‑Pipeline.
Eine neue Studie aus dem arXiv-Repository untersucht die Zuverlässigkeit von Informations‑Extraktionsmethoden für KRS‑Dokumente. Dabei wurden drei Ansätze getestet: reine LLM‑Modelle, ein hybrides Verfahren aus regulären Ausdrücken und LLM sowie ein Camelot‑Pipeline‑Ansatz mit LLM‑Fallback.
Die Experimente umfassten 140 PDFs für die reine LLM‑Tests und 860 PDFs für die Camelot‑Pipeline. Vier Studienprogramme wurden dabei berücksichtigt, die unterschiedliche Tabellen- und Metadatenstrukturen aufwiesen. Für die LLM‑Tests wurden drei 12‑14 B‑LLM‑Modelle – Gemma 3, Phi 4 und Qwen 2.5 – lokal mit Ollama auf einem herkömmlichen CPU‑System ohne GPU ausgeführt.
Die Bewertung erfolgte anhand von Exact Match (EM) und Levenshtein‑Similarity (LS) mit einem Schwellenwert von 0,7. Die Ergebnisse zeigen, dass der hybride Ansatz die Effizienz gegenüber reinen LLM‑Modellen verbessert, insbesondere bei deterministischen Metadaten. Die Camelot‑Pipeline mit LLM‑Fallback erreichte die höchste Genauigkeit (EM und LS bis zu 0,99 – 1,00) und benötigte in den meisten Fällen weniger als eine Sekunde pro PDF. Das Qwen 2.5:14b‑Modell erwies sich als konsistenter Performer über alle Szenarien hinweg.
Die Studie bestätigt, dass die Kombination aus deterministischen Techniken und LLM‑Modellen in ressourcenbeschränkten Umgebungen eine zuverlässige und effiziente Lösung für die Extraktion von Textinformationen aus akademischen PDF‑Dokumenten darstellt.
Welche Linse du auf diese Meldung legen solltest
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.