What Does the Weight Norm Control in Grokking? Logit-Scale Mediation under Cross-Entropy
权重范数在Grokking中控制什么?交叉熵下的对数尺度中介作用
发表机构 * H&K Research Studio, Clevix LLC
AI总结 本文通过固定权重范数并改变输出温度,发现Grokking延迟主要由对数尺度(logit scale)决定,权重范数仅通过影响对数尺度间接起作用。
Comments 16 papges, 10 tables and 4 figures. Code and data to reproduce all numbers, tables, and figures: https://github.com/ClevixLab/grokking-logit-scale