Attractor Geometry of Transformer Memory: From Conflict Arbitration to Confident Hallucination
AI总结 该研究探讨了语言模型在生成过程中可能出现的两种失败模式:知识冲突和自信幻觉,并揭示了它们在隐藏状态空间中的统一几何解释。研究发现,模型中学习到的事实形成吸引子盆地,冲突源于工作记忆干扰正确吸引子的收敛,而幻觉则源于缺乏对应吸引子导致隐藏状态自由漂移。通过几何边距指标,研究成功区分了正确回忆与幻觉,并验证了该结构特性不依赖于微调,且随着模型规模增大,自信幻觉的比例呈指数增长。
Comments 9 pages, 6 figures, plus appendices