Contrastive Reasoning Alignment: Reinforcement Learning from Hidden Representations
对比推理对齐:从隐藏表示中学习强化学习
AI总结 本文提出了一种基于对比学习和强化学习的框架CRAFT,通过优化隐藏状态空间中的目标来提升对抗攻击的鲁棒性,核心贡献是通过隐藏空间的几何结构实现推理层面的安全对齐。
Comments International Conference on Machine Learning (ICML) 2026