2605.23901
2026-05-25
cs.LG
cs.AI
cs.IT
math.IT
LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws
LLMs 作为噪声信道:香农视角下的模型容量与缩放定律
Xu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma
发表机构
*
University of Virginia(弗吉尼亚大学)
;
University of California, Berkeley(加州大学伯克利分校)
AI总结
本文从香农信息论的角度出发,将大语言模型(LLM)的训练过程建模为在噪声信道中传递信息的过程,提出了香农扩展定律(Shannon Scaling Law),用以解释传统单调扩展定律无法描述的非单调现象,如灾难性过训练和量化退化。该理论通过将模型参数映射为信道带宽、训练数据映射为信号功率,揭示了模型规模或数据量的扩展若不能保持足够的信噪比,将导致噪声放大并引发性能的U型退化。实验验证表明,该理论在多个任务和扰动设置下均优于传统扩展定律,具有良好的拟合与外推能力。