大模型对齐与安全 - arXivDaily 专题

2606.19818 2026-06-19 cs.LG cs.AI 新提交专题 90

Uncertainty-Aware Reward Modeling for Stable RLHF

不确定性感知的奖励建模用于稳定的RLHF

Licheng Pan, Haocheng Yang, Haoxuan Li, Yichen Sun, Yunsheng Lu, Shijian Wang, Lei Shen, Yuan Lu, Zhixuan Chu, Hao Wang

专题命中偏好对齐：不确定性感知奖励建模用于稳定RLHF，缓解奖励黑客。

AI总结提出不确定性感知奖励建模（UARM），通过分位数保形预测校准不确定性并利用异方差方差分解重加权GRPO优势，以缓解奖励黑客问题，提升对齐质量。

URL PDF HTML

2606.19744 2026-06-19 cs.CL cs.AI cs.HC 新提交专题 90

超越统一遗忘：不同偏好设置下顺序直接偏好优化的研究

Pranav Bhandari, Nicolas Fay, Amitava Datta, Usman Naseem, Mehwish Nasim

专题命中偏好对齐：核心研究偏好优化方法DPO的顺序应用与遗忘模式。

AI总结研究顺序DPO在不同偏好设置下的影响，发现遗忘模式并非统一，而是取决于目标关系、信号强度和训练顺序，并提出未来对齐流程应考虑目标兼容性。

Comments Submitted to EMNLP 2026

URL PDF HTML

2606.19527 2026-06-19 cs.AI 新提交专题 90

涌现对齐

Martin Kolář

专题命中偏好对齐：在线对齐技术使LLM自我纠正非伦理输出

AI总结提出一种在线对齐技术，通过引入良心步骤和基于直接偏好优化的对齐损失，使大语言模型在训练、微调、对抗提示和零样本学习中自我纠正非伦理输出。

Comments Rejected from ICML 2026

URL PDF HTML

2606.20482 2026-06-19 cs.CL cs.HC cs.LG 新提交专题 85

你的鼠标和眼睛悄悄泄露你的偏好：利用用户隐式反馈进行LLM对齐

Haw-Shiuan Chang, Jeffrey Gomez, Mehul Patwari, Aryan Sajith, Hamed Zamani

专题命中偏好对齐：利用隐式反馈进行LLM对齐

AI总结针对显式反馈稀缺的问题，提出利用鼠标轨迹和眼动数据等隐式反馈训练奖励模型，将文本奖励模型准确率从55%提升至64%，并显著提高DPO对齐后响应质量。

URL PDF HTML

2509.25148 2026-06-19 cs.AI 版本更新专题 80

AAPA：用于大型语言模型后训练的对抗锚定偏好对齐

Faqiang Qian, Kang An, Weikun Zhang, Ziliang Wang, Xuhui Zheng, Liangjian Wen, Yong Dai, Mengya Gao, Yichao Wu

专题命中偏好对齐：对抗锚定方法用于偏好对齐，防止策略漂移

AI总结提出AAPA框架，通过固定轻量判别器对策略输出与专家响应进行句子级对抗锚定，增强SFT、GRPO等后训练目标，在指令遵循基准上持续提升性能。

URL PDF HTML

2606.20258 2026-06-19 cs.HC cs.AI 新提交专题 70

编辑对齐：一种参与式方法，将编辑专业知识引入LLM介导的知识传播

Simon Aagaard Enni, Malthe Stavning Erslev, Karl-Emil Kjær Bilstrup, Kristoffer Laigaard Nielbo

专题命中偏好对齐：提出编辑对齐参与式AI设计

AI总结本文提出“编辑对齐”作为参与式AI设计实践，通过设计工作坊让编辑参与重新对齐LLM接口至编辑标准，以维护公共知识机构的编辑职能。

Comments 14 pages

URL PDF HTML