Erster POS-Tagger für Nagamese: CRF erzielt 85,7 % Genauigkeit

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einem bahnbrechenden Beitrag zur Verarbeitung der Nagamese-Sprache – einem asamaischen Creole, das vor allem im Handelsverkehr zwischen den Naga-Volksgruppen und Assam im Nordosten Indiens verwendet wird – wurde erstmals ein Part-of-Speech-Tagger entwickelt. Das Team hat einen annotierten Korpus mit 16.112 Tokens erstellt und die Technik der Conditional Random Fields (CRF) eingesetzt.

Die Ergebnisse sind beeindruckend: Der Tagger erreicht eine Gesamtgenauigkeit von 85,70 %, eine Präzision von 86 % und einen Recall von 86 %. Der F1‑Score liegt bei 85 %. Damit stellt die Arbeit einen wichtigen Meilenstein für die NLP-Forschung in ressourcenarmen Sprachen dar und eröffnet neue Möglichkeiten für Anwendungen wie maschinelles Übersetzen, Textanalyse und Sprachassistenzsysteme in der Nagamese‑Gemeinschaft.

Ähnliche Artikel