AI 大模型
大模型对齐与安全
大模型对齐、安全、越狱、红队、提示注入和可信评测。
1. 安全评测 19 篇
SafeClawBench: Separating Semantic, Audit-Evidence, and Sandbox Harm in Tool-Using LLM Agents
SafeClawBench: 区分工具使用LLM代理中的语义、审计证据和沙箱危害
专题命中 安全评测 :提出工具使用LLM代理安全基准,区分语义、审计和沙箱危害。
AI总结 提出SafeClawBench基准,通过三个独立端点(语义攻击接受、审计可见危害证据、沙箱观察危害)评估工具使用LLM代理的安全性,揭示不同失败模式并支持可复现比较。
Comments 32 pages, 5 figures
"Did you lie?" Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms
“你撒谎了吗?”评估不同规模模型和信念验证模型生物体的谎言检测器
专题命中 安全评测 :评估语言模型谎言检测器
AI总结 本研究通过构建13个信念可验证的推理模型生物体和多样化提示撒谎测试集,评估了四种谎言检测器在不同规模模型上的表现,发现基于激活和概率的检测器在训练模型生物体上性能显著下降,而思维链法官保持较强性能,但存在伪影。
Comments 12 pages, 6 figures
Efficient Hallucination Detection for LLMs Using Uncertainty-Aware Attention Heads
基于不确定性感知注意力头的高效大语言模型幻觉检测
专题命中 安全评测 :无监督幻觉检测,提升LLM可靠性
AI总结 提出RAUQ框架,利用不确定性感知注意力头与令牌级置信度,通过单次前向传递实现无监督、高效的序列级幻觉检测,在12个数据集上优于现有方法且额外计算少于1%。
Journal ref Proceedings of the 43rd International Conference on Machine Learning (ICML), Seoul, South Korea, 2026
2. 提示注入 4 篇
Evaluating Prompting-Based Defenses Against Domain-Camouflaged Injection Attacks
评估基于提示的防御策略对抗领域伪装注入攻击
专题命中 提示注入 :评估防御领域伪装注入攻击
AI总结 针对领域伪装注入攻击,评估五种基于提示的防御方法(如释义、重点标记等)在三个模型家族和三个部署领域中的有效性,发现释义法最有效,可将伪装攻击成功率降低55-84%。
Comments 9 pages, 4 figures, 4 tables; under review at the AdvML-Frontiers x CoTMA workshop, COLM 2026
3. 偏好对齐 5 篇
A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications
直接偏好优化综述:数据集、理论、变体及应用
专题命中 偏好对齐 :DPO是偏好对齐的核心方法之一
AI总结 综述直接偏好优化(DPO)在理论、变体、数据集和应用方面的进展,指出其作为RL-free替代方案的潜力与局限,并提出未来研究方向。
Comments Accepted by TPAMI 2026. Project page: https://github.com/Mr-Loevan/DPO-Survey
SFT Overtraining Predicts Rank Inversion via Entropy Collapse Under RLVR
SFT 过训练通过熵崩溃预测 RLVR 下的排名反转
专题命中 偏好对齐 :SFT过训练导致RLVR下排名反转
AI总结 研究发现 SFT 过度训练导致 rollout 分布熵降低,使 GRPO 中优势信号消失,从而引发排名反转;提出基于熵的两阶段诊断方法可预警高风险检查点。
Comments 14 pages, 6 figures. Accepted at the Deep Learning for Code (DL4C) Workshop at ICML 2026