Neue Embedding-Technik verbindet deutsche Jobs mit globalen Klassifikationen
Wissenschaftler haben eine neue, embeddingsbasierte Methode entwickelt, die freie deutsche Berufsbezeichnungen automatisch mit zwei etablierten Klassifikationssystemen verknüpft: der deutschen Klassifikation der Berufe (Klassifikation der Berufe) und der Internationalen Standardklassifikation der Bildung (ISCED). Durch das Training eines Sentence‑BERT-Modells auf öffentlich verfügbaren Daten der Bundesagentur für Arbeit entsteht ein semantisches Vektor‑Raum, der die Struktur beider Ontologien erfasst.
Die daraus resultierenden Embedding‑Paarungen bilden ein Ähnlichkeitsgraph, der für schnelle Approximationen von Nachbarn genutzt werden kann. Damit wird die klassische Klassifizierung von Jobtiteln zu einer semantischen Suchaufgabe umgestaltet, die nicht nur effizienter, sondern auch flexibler ist – neue Klassen lassen sich problemlos einbinden.
Die Autoren erläutern die getroffenen Designentscheidungen, identifizieren noch offene Herausforderungen und geben einen Ausblick auf laufende Arbeiten, die den Graphen um weitere Ontologien und mehrsprachige Titel erweitern sollen.