Latent Personality Alignment: Improving Harmlessness Without Mentioning Harms
AI总结 当前大型语言模型的对抗鲁棒性方法需要大量有害提示的数据集进行训练,但仍易受新型攻击和分布偏移的影响。本文提出了一种样本高效的防御方法——潜在人格对齐(LPA),通过在抽象人格特质而非具体有害行为上进行训练,实现模型的鲁棒性。LPA 在使用不到100条特质语句和潜在对抗训练的情况下,达到了与使用15万以上示例训练方法相当的攻击成功率,同时保持了优越的实用性,并在六个有害基准测试中显著提升了对未知攻击分布的泛化能力。
Comments published at Trustworthy AI Workshop, ICLR 2026