ReLU‑MLPs zeigen vor Grokking latente algorithmische Strukturen
Eine neue Untersuchung auf arXiv (2603.23784v1) beleuchtet das Phänomen „Grokking“ – die plötzliche Steigerung der Validierungsgenauigkeit bei Modulare Addition, die lange nach dem Auswendiglernen der Trainingsdaten ein…