2601.15165
2026-06-09
cs.CL
cs.AI
cs.LG
版本更新
The Flexibility Trap: Rethinking the Value of Arbitrary Order in Diffusion Language Models
灵活性陷阱:重新思考扩散语言模型中任意顺序的价值
Zanlin Ni, Shenzhi Wang, Yang Yue, Tianyu Yu, Weilin Zhao, Yeguo Hua, Tianyi Chen, Jun Song, Cheng Yu, Bo Zheng, Gao Huang
发表机构
*
LeapLab, Tsinghua University(清华大学Leap实验室)
;
NLPLab, Tsinghua University(清华大学自然语言处理实验室)
;
Tsinghua University(清华大学)
;
Alibaba Group(阿里巴巴集团)
;
BNRist, Tsinghua University(清华大学北京研究院)
AI总结
本文发现,尽管扩散语言模型(dLLMs)允许任意生成顺序,但这种灵活性可能限制其推理能力,通过采用标准的Group Relative Policy Optimization(GRPO)方法,即JustGRPO,在保持并行解码能力的同时提升了推理性能。