InstructLR: Ansatz Erstellung Instruktionsdatensätzen für Sprachen wenig Ressourcen
Ein neues arXiv‑Veröffentlichung (2512.02213v1) präsentiert InstructLR, ein skalierbares Verfahren zur Generierung hochwertiger Instruktionsdatensätze für Sprachen mit begrenzten Ressourcen. Die Autoren betonen, dass die Entwicklung von Text‑Generierungs‑ und Chat‑Interfaces für solche Sprachen nach wie vor eine große Herausforderung darstellt, weil es kaum qualitativ hochwertige Trainingsdaten gibt.
Der Ansatz von InstructLR kombiniert die Leistungsfähigkeit großer Sprachmodelle mit einem zweistufigen Qualitätsfilter. Zunächst erfolgt eine automatisierte Filterung mittels Retrieval‑Augmented‑Generation (RAG) und n‑Shot‑Prompting, die auf den Prinzipien des MMLU‑Benchmarks basiert. Anschließend wird ein menschlicher Prüfer eingebunden, um die endgültige Qualität der generierten Anweisungen zu verifizieren.
Dank dieser Kombination konnten die Entwickler drei umfangreiche Benchmarks erstellen: ZarmaInstruct‑50k, BambaraInstruct‑50k und FulfuldeInstruct‑50k. Diese Datensätze decken mehrere Domänen ab und bieten Forschern sowie Entwicklern eine solide Grundlage, um Sprachmodelle für bislang unterrepräsentierte Sprachen zu trainieren und zu evaluieren.
InstructLR stellt damit einen bedeutenden Fortschritt dar, um die Kluft zwischen Hoch- und Niedrigressourcen‑Sprachen zu verringern und die Entwicklung von inklusiven KI‑Anwendungen voranzutreiben.