Erstes kurdisches STS-Dataset veröffentlicht – 10.000 Satzpaare für NLP

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einem bedeutenden Schritt für die kurdische Sprachverarbeitung wurde das erste Dataset zur semantischen Textähnlichkeit (STS) für Kurdisch vorgestellt. Das neue Repertoire umfasst 10.000 Satzpaare, die sowohl formelle als auch informelle Register abdecken und sorgfältig hinsichtlich ihrer Bedeutungsähnlichkeit annotiert wurden.

Die Veröffentlichung füllt eine lange Lücke in der NLP-Forschung, denn bislang fehlen umfangreiche Ressourcen für kurdische Texte. Das Dataset bietet Forschern eine solide Basis, um Modelle zu trainieren und zu evaluieren, die die komplexen morphologischen Strukturen und orthografischen Variationen der kurdischen Sprache berücksichtigen.

Zur Benchmarking wurden führende Modelle wie Sentence‑BERT und multilingual BERT eingesetzt. Die Ergebnisse zeigen, dass diese Systeme bereits konkurrenzfähige Leistungen erbringen, gleichzeitig aber die besonderen Herausforderungen von Kurdisch – etwa Code‑Mixing und morphologische Vielfalt – deutlich machen. Die bereitgestellten Baselines und das Dataset bilden damit eine reproduzierbare Evaluationsplattform und eröffnen neue Forschungswege in der Low‑Resource‑NLP‑Community.

Ähnliche Artikel