PolyGLU: Dynamische Aktivierungsrouten in Transformer-FFNs
Biologische Nervensysteme nutzen eine Vielfalt von Neurotransmittern – Glutamat, GABA, Dopamin und Acetylcholin – um unterschiedliche Signalverarbeitungsmodi in denselben neuronalen Schaltkreisen zu realisieren. Moderne…
- Biologische Nervensysteme nutzen eine Vielfalt von Neurotransmittern – Glutamat, GABA, Dopamin und Acetylcholin – um unterschiedliche Signalverarbeitungsmodi in denselbe…
- Moderne Transformer dagegen setzen auf eine einzige, feste Aktivierungsfunktion für alle Feed‑Forward-Neuronen.
- Mit PolyGLU (Polychromatic Gated Linear Unit) wird dieses Paradigma grundlegend verändert: PolyGLU ersetzt die Standard‑SwiGLU‑Einheiten und erlaubt jedem FFN‑Neuron, dy…
Biologische Nervensysteme nutzen eine Vielfalt von Neurotransmittern – Glutamat, GABA, Dopamin und Acetylcholin – um unterschiedliche Signalverarbeitungsmodi in denselben neuronalen Schaltkreisen zu realisieren. Moderne Transformer dagegen setzen auf eine einzige, feste Aktivierungsfunktion für alle Feed‑Forward-Neuronen. Mit PolyGLU (Polychromatic Gated Linear Unit) wird dieses Paradigma grundlegend verändert: PolyGLU ersetzt die Standard‑SwiGLU‑Einheiten und erlaubt jedem FFN‑Neuron, dynamisch zwischen vier verschiedenen Aktivierungsfunktionen zu wählen. Die Auswahl erfolgt über einen differenzierbaren Mechanismus, der lernte, statische Präferenzen mit einer auf dem Eingang konditionierten Gating‑Schicht kombiniert und mit Gumbel‑Softmax end‑to‑end trainiert wird.
Im Rahmen eines 597‑Mio‑Parameter‑Transformers, PolychromaticLM, wurde das Modell auf etwa 10 Mrd. Tokens mit einer einzigen NVIDIA A100‑GPU trainiert. Die Ergebnisse zeigen ein bemerkenswertes, emergentes Routing‑Verhalten: Ohne explizite Sparsity‑ oder Entropie‑Regularisierung konvergiert das System zu nahezu deterministischen Aktivierungsentscheidungen (mittlere dynamische Entropie von 0,03 % des Maximalwerts). Darüber hinaus lässt sich ein tiefenabhängiges Spezialisierungsmuster beobachten – frühe Schichten bevorzugen GELU, während tiefere Schichten stark zu Tanh tendieren. Drei Schichten behalten hingegen eine höhere Routing‑Entropie, was auf flexible Rechenpunkte hinweist.
Die zusätzliche Routing‑Architektur erhöht die Parameterzahl lediglich um 0,23 % (etwa 1,4 Mio Parameter) und bleibt während 13 067 Schritten des Supervised Fine‑Tuning unverändert robust: die Routing‑Entropie bleibt konstant bei ln(4). Auf Standard‑Benchmarks erzielt PolychromaticLM 62 – 89 % der Leistung von Qwen3‑0.6B‑Base, obwohl es mit 3 600‑fach weniger Tokens trainiert wurde. Der komplette Code, die Gewichte und die Trainingsinfrastruktur werden unter der Apache‑Lizenz veröffentlicht, sodass die Forschungsgemeinschaft die Ergebnisse reproduzieren und weiterentwickeln kann.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.