Mehrsprachige Modelle kollaborieren dynamisch über minimale semantische Einheiten
Ein neuer Ansatz verspricht, die Denkfähigkeit von Sprachmodellen deutlich zu steigern. Durch die Zusammenarbeit mehrerer Modelle auf Token‑Ebene werden die besten Tokens aus den jeweiligen nächsten Token‑Verteilungen ausgewählt, um autoregressive Schlussfolgerungen zu ermöglichen.
Im Gegensatz zur Annahme, dass mehr Modelle automatisch bessere Ergebnisse liefern, führt die Studie eine dynamische Auswahlstrategie ein, die auf der Distanz der Token‑Verteilungen basiert. Diese Methode, genannt DDS, optimiert den Kollaborationsprozess, indem sie nur die Modelle einsetzt, die zu einem bestimmten Zeitpunkt die relevantesten Informationen liefern.
Ein zentrales Problem bei der Zusammenarbeit mehrerer Modelle ist die Ausrichtung ihrer Vokabulare. Hier wird das Konzept der minimalen vollständigen semantischen Einheiten (MCSU) vorgestellt. MCSU ermöglicht es den Modellen, sich im sprachlichen Raum natürlich zu alignieren, ohne dass komplexe Übersetzungsmechanismen nötig sind.
Die Experimente, die an einer Vielzahl von Benchmarks durchgeführt wurden, zeigen, dass dieser Ansatz die Leistung signifikant übertrifft. Die Ergebnisse unterstreichen die Wirksamkeit der Kombination aus DDS und MCSU.
Der zugehörige Code wird auf GitHub veröffentlicht: https://github.com/Fanye12/DDS.