MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on LLMs
发表机构 * School of Computer Science Faculty of Engineering The University of Sydney(悉尼大学计算机科学与工程学院) ; Generative AI Lab College of Computing and Data Science Nanyang Technological University(南洋理工大学生成人工智能实验室) ; University of Science and Technology of China(中国科学技术大学) ; RMIT University(皇家理工大学) ; School of Cyber Science and Technology Shenzhen Campus of Sun Yat-sen University(中山大学深圳校区网络科学与技术学院)
AI总结 随着大语言模型(LLMs)的快速扩展,推理效率已成为实际部署中的主要瓶颈。为解决这一问题,研究提出了一种名为MaskPro的线性空间概率学习框架,通过学习每M个连续权重的先验分布,生成严格(N:M)稀疏性结构,从而在保证硬件友好性的同时降低计算和内存开销。该方法通过引入损失残差的移动平均跟踪器,有效缓解了组合空间中策略梯度高方差带来的训练不稳定性,并在理论分析和实验验证中展现出优越的性能、内存效率和数据鲁棒性。