Khiops: Open-Source‑AutoML für große Multi‑Table‑Datenbanken
Khiops ist ein völlig freies Machine‑Learning‑Tool, das speziell für die Analyse von riesigen Multi‑Table‑Datenbanken entwickelt wurde. Durch einen einzigartigen Bayesschen Ansatz bietet es Forschern und Anwendern eine robuste Plattform, die bereits in über 20 wissenschaftlichen Publikationen zu Themen wie Variablenauswahl, Klassifikation, Entscheidungsbäumen und Co‑Clustering zitiert wurde.
Das System kombiniert eine naive Bayessche Klassifikation mit intelligenten Mechanismen zur Variablenauswahl und Gewichtung. Für numerische Daten nutzt es Diskretisierungsmodelle, während kategoriale Daten durch Wertclustering bewertet werden. Dadurch liefert Khiops eine klare, interpretierbare Messgröße für die Wichtigkeit einzelner Variablen.
Ein besonderes Merkmal ist die automatische Propositionalisierung: Bei Multi‑Table‑Datenbanken erstellt Khiops Aggregat‑Features, die die Komplexität der Datenstruktur reduzieren, ohne an Aussagekraft zu verlieren. Damit kann es problemlos mit Millionen von Individuen, Zehntausenden von Variablen und Hunderten Millionen von Datensätzen in Sekundärtabellen umgehen. Das Tool ist als Python‑Bibliothek sowie über eine benutzerfreundliche Oberfläche verfügbar, was die Integration in bestehende Datenpipelines erleichtert.