Neues Transformer-basiertes Verfahren zur automatischen Architektursuche
Ein neu veröffentlichter Ansatz nutzt die Transformer-Architektur, um neuronale Netzwerke für maschinelle Übersetzung systematisch zu optimieren. Dabei werden verschiedene Kombinationen von Encoder- und Decoder‑Köpfen untersucht, um die effizienteste Multi‑Head‑Attention‑Struktur zu finden.
Der Suchprozess basiert auf einem mehrzieligen genetischen Algorithmus, der die Modelle in einer Population iterativ verbessert. Zusätzlich zur klassischen BLEU‑Bewertung wird die Perplexität als Hilfsmetrik einbezogen, um die Sprachmodellqualität genauer zu erfassen.
Experimentelle Tests zeigen, dass die gefundenen Architekturen sämtliche Basismodelle übertreffen. Besonders die Einbindung der Perplexität als Zusatzkriterium führt zu deutlich besseren Übersetzungsergebnissen als bei einer ausschließlichen BLEU‑Optimierung.