Grokking: Warum die Verzögerung zwischen Auswendiglernen und Generalisierung lang ist
In einer neuen Studie auf arXiv wird erklärt, warum das Phänomen des Grokking – die plötzliche Generalisierung eines Modells lange nach perfektem Auswendiglernen seiner Trainingsdaten – so lange dauert. Die Autoren präs…