Actionable Activation Directions for Detecting and Mitigating Emergent Misalignment Across Language Model Families
可操作的激活方向:检测和缓解跨语言模型家族的突发性对齐失调
专题命中 安全评测 :研究微调导致的对齐失调,通过激活方向检测和缓解。
AI总结 通过差分均值方向在最终层实现99.6%的对齐/失调分离,因果干预将代码泄露降低21-51点;跨架构迁移虽有效但缺乏特异性,揭示了两层特异性结构。
Comments 12 pages, 2 figures