SchemaCoder: Automatisierte Log‑Schema‑Extraktion ohne menschliche Eingriffe
Die Extraktion von Log‑Schemas – also die Umwandlung riesiger Log‑Dateien in leicht verständliche Vorlagen – ist ein zentraler, aber gleichzeitig sehr arbeitsintensiver Schritt in der Datenanalyse. Trotz der jüngsten Fortschritte, bei denen große Sprachmodelle (LLMs) eingesetzt werden, bleiben die meisten Ansätze auf vordefinierte reguläre Ausdrücke angewiesen, was den Bedarf an Fachwissen erhöht und die Produktivität stark einschränkt.
Mit SchemaCoder wird dieses Problem grundlegend gelöst. Das System ist das erste vollständig automatisierte Framework, das für eine breite Palette von Log‑Dateiformaten ohne jegliche menschliche Anpassung funktioniert. Im Kern nutzt es einen neuartigen Residual Question‑Tree (Q‑Tree) Boosting‑Mechanismus, der die Schema‑Extraktion durch gezielte, adaptive Anfragen an LLMs iterativ verfeinert.
Der Ansatz teilt die Logs zunächst in semantische Abschnitte auf, wählt repräsentative Muster mittels embeddingsbasierter Stichproben aus und erzeugt die Schema‑Codes durch hierarchische Q‑Tree‑gestützte LLM‑Abfragen. Ein textbasierter evolutionärer Optimierer und ein Residual‑Boosting‑Modul sorgen dafür, dass die Ergebnisse kontinuierlich verbessert werden.
Die experimentellen Ergebnisse zeigen, dass SchemaCoder auf dem weit verbreiteten LogHub‑2.0 Benchmark im Durchschnitt 21,3 % besser abschneidet als die aktuellen Spitzenmethoden – ein deutlicher Fortschritt für die automatisierte Log‑Analyse.