Subkritische Signalweiterleitung Initialisierung in LayerNorm-freien Transformers
Eine neue Untersuchung auf arXiv beleuchtet, wie Signale bei der Initialisierung von Transformers durch die durchschnittliche partielle Jacobian-Norm (APJN) propagieren. Die APJN misst die Gradientenverstärkung über die…