arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

大模型对齐与安全

大模型对齐、安全、越狱、红队、提示注入和可信评测。

今日/当前日期收录 6 信号源:cs.CL, cs.AI, cs.CY, cs.LG
2606.19818 2026-06-19 cs.LG cs.AI 新提交 专题 90

Uncertainty-Aware Reward Modeling for Stable RLHF

不确定性感知的奖励建模用于稳定的RLHF

Licheng Pan, Haocheng Yang, Haoxuan Li, Yichen Sun, Yunsheng Lu, Shijian Wang, Lei Shen, Yuan Lu, Zhixuan Chu, Hao Wang

专题命中 偏好对齐 :不确定性感知奖励建模用于稳定RLHF,缓解奖励黑客。

AI总结 提出不确定性感知奖励建模(UARM),通过分位数保形预测校准不确定性并利用异方差方差分解重加权GRPO优势,以缓解奖励黑客问题,提升对齐质量。

2606.19744 2026-06-19 cs.CL cs.AI cs.HC 新提交 专题 90

Beyond Uniform Forgetting: A Study of Sequential Direct Preference Optimization Across Preference Settings

超越统一遗忘:不同偏好设置下顺序直接偏好优化的研究

Pranav Bhandari, Nicolas Fay, Amitava Datta, Usman Naseem, Mehwish Nasim

专题命中 偏好对齐 :核心研究偏好优化方法DPO的顺序应用与遗忘模式。

AI总结 研究顺序DPO在不同偏好设置下的影响,发现遗忘模式并非统一,而是取决于目标关系、信号强度和训练顺序,并提出未来对齐流程应考虑目标兼容性。

Comments Submitted to EMNLP 2026

2606.19527 2026-06-19 cs.AI 新提交 专题 90

Emergent Alignment

涌现对齐

Martin Kolář

专题命中 偏好对齐 :在线对齐技术使LLM自我纠正非伦理输出

AI总结 提出一种在线对齐技术,通过引入良心步骤和基于直接偏好优化的对齐损失,使大语言模型在训练、微调、对抗提示和零样本学习中自我纠正非伦理输出。

Comments Rejected from ICML 2026

2606.20482 2026-06-19 cs.CL cs.HC cs.LG 新提交 专题 85

Your Mouse and Eyes Secretly Leak Your Preference: LLM Alignment using Implicit Feedback from Users

你的鼠标和眼睛悄悄泄露你的偏好:利用用户隐式反馈进行LLM对齐

Haw-Shiuan Chang, Jeffrey Gomez, Mehul Patwari, Aryan Sajith, Hamed Zamani

专题命中 偏好对齐 :利用隐式反馈进行LLM对齐

AI总结 针对显式反馈稀缺的问题,提出利用鼠标轨迹和眼动数据等隐式反馈训练奖励模型,将文本奖励模型准确率从55%提升至64%,并显著提高DPO对齐后响应质量。

2509.25148 2026-06-19 cs.AI 版本更新 专题 80

AAPA: Adversarially Anchored Preference Alignment for Post-Training of Large Language Models

AAPA:用于大型语言模型后训练的对抗锚定偏好对齐

Faqiang Qian, Kang An, Weikun Zhang, Ziliang Wang, Xuhui Zheng, Liangjian Wen, Yong Dai, Mengya Gao, Yichao Wu

专题命中 偏好对齐 :对抗锚定方法用于偏好对齐,防止策略漂移

AI总结 提出AAPA框架,通过固定轻量判别器对策略输出与专家响应进行句子级对抗锚定,增强SFT、GRPO等后训练目标,在指令遵循基准上持续提升性能。

2606.20258 2026-06-19 cs.HC cs.AI 新提交 专题 70

Editorial Alignment: A Participatory Approach to Engaging Editorial Expertise in LLM-mediated Knowledge Dissemination

编辑对齐:一种参与式方法,将编辑专业知识引入LLM介导的知识传播

Simon Aagaard Enni, Malthe Stavning Erslev, Karl-Emil Kjær Bilstrup, Kristoffer Laigaard Nielbo

专题命中 偏好对齐 :提出编辑对齐参与式AI设计

AI总结 本文提出“编辑对齐”作为参与式AI设计实践,通过设计工作坊让编辑参与重新对齐LLM接口至编辑标准,以维护公共知识机构的编辑职能。

Comments 14 pages