2505.04021
2026-06-12
cs.DC
cs.AI
cs.LG
cs.PF
版本更新
Prism: Cost-Efficient Multi-LLM Serving via GPU Memory Ballooning
Prism: 通过GPU内存气球实现经济高效的多LLM服务
Shan Yu, Yifan Qiao, Mingyuan Ma, Yangmin Li, Shuo Yang, Xinyuan Tong, Yang Wang, Zhiqiang Xie, Yuwei An, Shiyi Cao, Ke Bao, Deepak Vij, Xiaoning Ding, Yichen Wang, Qingda Lu, Zhong Wang, Gao Gao, Harry Xu, Junyi Shu, Jiarong Xing, Ying Sheng
发表机构
*
UCLA(加州大学洛杉矶分校)
;
UC Berkeley(伯克利加州大学)
;
Harvard University(哈佛大学)
;
CMU(卡内基梅隆大学)
;
University of Edinburgh(爱丁堡大学)
;
Intel(英特尔)
;
Stanford University(斯坦福大学)
;
LMSYS(灵州市系统实验室)
;
ByteDance(字节跳动)
;
Alibaba Cloud(阿里云)
;
Tsinghua University(清华大学)
;
Novita AI
;
Rice University(里士满大学)
AI总结
针对多LLM服务中资源效率低下的问题,提出基于内存气球的内存中心化LLM协同服务框架Prism,统一空间与时间共享,已在10K+ GPU生产环境部署。