2605.09636
2026-05-12
cs.AI
PDEAgent-Bench: A Multi-Metric, Multi-Library Benchmark for PDE Solver Generation
Zhen Hang, Yushan Yashengjiang, Junhui Li, Huanshuo Dong, Yang Wei, Zhezheng Hao, Jiangtao Ma, Songlin Bai, Haozhong Kai, Xihang Yue, Gangzong Si, Dongming Jiang, Chao Yao, Zhanhua Hu, Jiangqing Zhang, Pengwei Liu, Yaomin Shen, Xingyu Ren, Lei Liu, Zikang Xu, Han Li, Qingsong Yao, Hande Dong, Hong Wang
发表机构
*
University of Science and Technology of China(中国科学技术大学)
;
Tencent(腾讯)
;
Beijing University of Posts and Telecommunications(北京邮电大学)
;
Shanghai Jiao Tong University(上海交通大学)
;
Zhejiang University(浙江大学)
;
National University of Singapore(新加坡国立大学)
;
Tsinghua University(清华大学)
;
University of Texas at Dallas(德克萨斯大学达拉斯分校)
;
Arizona State University(亚利桑那州立大学)
;
Rice University(里士满大学)
;
Technical University of Munich(慕尼黑技术大学)
;
Stanford University(斯坦福大学)
;
Alibaba Group(阿里巴巴集团)
AI总结
PDEAgent-Bench 是首个面向偏微分方程(PDE)求解器生成的多指标、多库基准测试平台,旨在评估从PDE描述自动生成数值求解代码的能力。该基准包含645个实例,涵盖6类数学问题和11类PDE,支持DOLFINx、Firedrake和deal.II等主流有限元库,并对生成代码的可执行性、数值精度和计算效率进行分阶段评估。实验表明,当前大型语言模型和代码生成代理虽能生成可运行代码,但在满足精度和效率要求时表现显著下降,突显了PDE求解器生成任务的挑战性与现有方法的不足。