2509.25148
2026-06-19
cs.AI
版本更新
专题 80
AAPA: Adversarially Anchored Preference Alignment for Post-Training of Large Language Models
AAPA:用于大型语言模型后训练的对抗锚定偏好对齐
Faqiang Qian, Kang An, Weikun Zhang, Ziliang Wang, Xuhui Zheng, Liangjian Wen, Yong Dai, Mengya Gao, Yichao Wu
专题命中
偏好对齐
:对抗锚定方法用于偏好对齐,防止策略漂移
AI总结
提出AAPA框架,通过固定轻量判别器对策略输出与专家响应进行句子级对抗锚定,增强SFT、GRPO等后训练目标,在指令遵循基准上持续提升性能。