Baumstrukturierte sparsante Feed‑Forward‑Schichten: Skalierbare Transformer
In modernen Transformer‑Modellen verbraucht das klassische MLP‑Block‑Segment einen Großteil der Rechenleistung, besonders bei langen Kontextlängen. Um diesen Engpass zu überwinden, haben Forscher erstmals sparsante, bau…