Beyond Prediction: Tail-Aware Scheduling for LLM Inference
超越预测:面向LLM推理的尾延迟感知调度
发表机构 * Cornell University, Computer Science Department(康奈尔大学计算机科学系) ; Cornell University, Electrical and Computer Engineering Department(康奈尔大学电气与计算机工程系) ; Cornell University, Operations Research and Information Engineering Department(康奈尔大学运筹学与信息工程系) ; Microsoft Azure System Research(微软Azure系统研究) ; NVIDIA Corporation(英伟达公司)
专题命中 其他LLM :提出LLM推理调度框架,优化尾延迟
AI总结 针对LLM推理中长度预测调度在分布偏移和尾延迟控制上的脆弱性,提出无预测的分布感知调度框架,通过轻量统计信号实现软优先级提升,结合缓存感知抢占,在多种工作负载下将P99 TTLT降低35-50%,TTFT降低34-47%。
Journal ref Forty-Third International Conference on Machine Learning (2026)