Topeax: Neues Clustering-Modell verbessert Themenfindung und Schlüsselwortqualität
Text‑Clustering ist heute das beliebteste Verfahren für Topic‑Modeling – sowohl in der Forschung als auch in der Industrie. Trotz des Erfolgs bestehender Modelle wie Top2Vec und BERTopic gibt es jedoch gravierende Schwächen, die bislang kaum adressiert wurden.
Beide Ansätze sind extrem empfindlich gegenüber Stichprobengröße und Hyperparametern. Die Standardwerte führen häufig zu suboptimalen Ergebnissen, sodass natürliche Cluster im Korpus nicht zuverlässig erkannt werden. Darüber hinaus ignoriert BERTopic die semantische Distanz von Schlüsselwörtern zu den Themenvektoren, während Top2Vec die Wortzählungen im Text vernachlässigt. Das Ergebnis sind weniger kohärente Themen, die von Stop‑Words und „Junk‑Words“ durchsetzt sind, sowie ein Mangel an Vielfalt und Vertrauenswürdigkeit.
In dem neuen Modell Topeax wird die Anzahl der Cluster aus Spitzen in Dichte‑Schätzungen bestimmt und gleichzeitig ein Lexikalisch‑Semantisches Indexverfahren zur Bestimmung der Term‑Importance kombiniert. Dadurch entstehen hochqualitative Schlüsselwörter, die sowohl die Worthäufigkeit als auch die semantische Nähe berücksichtigen.
Empirische Tests zeigen, dass Topeax sowohl die Cluster‑Erkennung als auch die Cluster‑Beschreibung deutlich verbessert. Zudem reagiert es weniger erratisch auf Änderungen der Stichprobengröße und der Hyperparameter, was die Stabilität und Zuverlässigkeit des Modells erheblich steigert.