Dialectics of Alignment: Harnessing Unsafe Knowledge for Dynamic Safety Routing
对齐的辩证法:利用不安全知识实现动态安全路由
发表机构 * Chandar Research Lab(Chandar研究实验室) ; Mila – Quebec AI Institute(魁北克AI研究所) ; Université de Montréal(蒙特利尔大学) ; Microsoft Research(微软研究院) ; Polytechnique Montréal(蒙特利尔理工学院) ; Canada CIFAR AI Chair(加拿大CIFAR人工智能主席)
AI总结 提出SafeMoE框架,通过混合专家模型将不安全知识隔离到领域特定的低秩适配器中,并训练轻量级门控网络动态路由这些专家,在保持安全性的同时生成信息丰富的响应。