PRISM: Generation-Time Detection and Mitigation of Secret Leakage in Multi-Agent LLM Pipelines
AI总结 多智能体大语言模型系统中,一个智能体访问的敏感信息可能通过共享上下文传播到后续输出中,造成秘密泄露风险。为此,研究提出了PRISM,一种生成时实时检测和缓解秘密泄露的防御机制,通过整合多种特征信号计算风险评分,并在生成过程中进行干预。PRISM基于生成动态的变化,如熵坍缩和logit集中度,结合文本结构线索,在泄露发生前进行有效预警,实验表明其在多个攻击场景下表现出优异的检测性能和零泄露率。