Phasor Memory Networks: Stable Backpropagation Through Time for Scalable Explicit Memory
AI总结 本文提出了一种名为“Phasor Memory Network(PMNet)”的新架构,旨在解决显式记忆模型在语言建模中因反向传播时梯度不稳定而导致的训练困难问题。该方法通过引入单位相位动力学和分层可学习锚点,结构化地稳定了记忆模块的更新过程,从而在无需特殊初始化的情况下保持梯度稳定性。实验表明,PMNet在合成复制粘贴任务中能够实现几乎100%的精确记忆检索,并在参数规模仅为Mamba模型三分之一的情况下,展现出相当的长上下文处理能力,为可扩展序列建模提供了理论支撑。