2606.20474
2026-06-19
cs.LG
cs.AI
cs.PF
新提交
专题 70
UltraQuant: 4-bit KV Caching for Context-Heavy Agents
UltraQuant: 面向上下文密集型智能体的4位KV缓存
Inesh Chakrabarti, David Limpus, Aditi Ghai Rana, Bowen Bao, Spandan Tiwari, Thiago Crepaldi, Ashish Sirasao
专题命中
长上下文
:针对长上下文场景优化KV缓存,降低延迟。
AI总结
针对上下文密集型智能体场景,提出UltraQuant方法,通过4位KV缓存压缩、旋转量化和代码本量化,结合AMD GPU优化,在长上下文多轮任务中延迟降低3.47倍,吞吐量提升1.63倍。