2605.23723
2026-05-25
cs.AI
MemAudit: Post-hoc Auditing of Poisoned Agent Memory via Causal Attribution and Structural Anomaly Detection
MemAudit:通过因果归因和结构异常检测对中毒代理记忆进行事后审计
Zhewen Tan, Yilun Yao, Huiyan Jin, Wenhan Yu, Guoan Wang, Mengyuan Fan, liang lu, Feng Liu, Xiangzheng Zhang, Duohe Ma, Tong Yang, Lin Sun
发表机构
*
Institute of Information Engineering, Chinese Academy of Sciences(中国科学院信息工程研究所)
;
Qiyuan Tech(齐元科技)
;
Laboratory of Multimedia Information Processing, School of Computer Science, Peking University(北京大学计算机科学学院多媒体信息处理实验室)
;
School of Cyber Security, University of Chinese Academy of Sciences(中国科学院大学网络安全学院)
AI总结
随着大型语言模型代理越来越多地依赖持久内存来存储历史交互并提升任务执行能力,内存机制也带来了潜在的安全隐患:攻击者可通过正常交互向内存中注入恶意记录,从而影响代理的行为。为此,本文提出 MemAudit,一种用于事后审计内存增强型大语言模型代理的因果记忆审计框架。该方法结合因果影响评分与结构异常检测,有效识别出对有害输出有贡献的恶意记忆记录,并在多种攻击场景下显著降低了攻击成功率。