Forschung
Baumstrukturierte sparsante Feed‑Forward‑Schichten: Skalierbare Transformer
In modernen Transformer‑Modellen verbraucht das klassische MLP‑Block‑Segment einen Großteil der Rechenleistung, besonders bei langen Kontex…
arXiv – cs.AI