Neues bilinguales Text‑zu‑SQL‑Benchmark für Process Mining vorgestellt
Ein neues, zweisprachiges Benchmark‑Datenset namens text‑2‑SQL‑4‑PM wurde veröffentlicht, das speziell für die Text‑zu‑SQL‑Aufgabe im Bereich Process Mining entwickelt wurde. Das Set verbindet portugiesische und englische natürliche Sprachabfragen mit den entsprechenden SQL‑Anweisungen und richtet sich an Anwender, die keine SQL‑Kenntnisse besitzen, sowie an Experten, die ihre Produktivität steigern wollen.
Die Sammlung umfasst 1 655 natürliche Sprachäußerungen, darunter von Menschen erstellte Paraphrasen, 205 SQL‑Statements und zehn zusätzliche Qualifikatoren. Durch manuelle Kuratierung, professionelle Übersetzungen und einen detaillierten Annotation‑Prozess wurden die Daten sorgfältig vorbereitet, um die Komplexität der Aufgabenstellung präzise zu erfassen. Besonderes Augenmerk liegt dabei auf den speziellen Vokabularen und der ein‑Tabellen‑Struktur, die aus Prozess‑Event‑Logs abgeleitet sind.
Ein Basis‑Experiment mit GPT‑3.5 Turbo demonstriert, dass das Datenset die Umsetzung von Text‑zu‑SQL‑Modellen unterstützt und die Leistungsfähigkeit solcher Systeme messbar verbessert. Die Ergebnisse zeigen, dass text‑2‑SQL‑4‑PM nicht nur für Process‑Mining‑Anwendungen geeignet ist, sondern auch breitere Einsatzmöglichkeiten in der semantischen Analyse und anderen NLP‑Aufgaben eröffnet.