Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling
超越基于VLM的奖励:扩散原生潜在奖励建模
AI总结 本文提出了一种基于扩散模型的原生潜在奖励模型DiNa-LRM,旨在解决扩散和流匹配模型在偏好优化中对奖励函数的需求。该方法直接在扩散过程的噪声状态上进行偏好学习,引入了与扩散噪声相关的不确定性校准的Thurstone似然函数,从而提升了奖励模型的判别鲁棒性和计算效率。实验表明,DiNa-LRM在图像对齐任务中显著优于现有的扩散奖励基线,并以更低的计算成本达到与最先进视觉语言模型相当的性能,同时提升了偏好优化的动态效率。