2605.09636
2026-05-12
cs.AI
PDEAgent-Bench: A Multi-Metric, Multi-Library Benchmark for PDE Solver Generation
Zhen Hang, Yushan Yashengjiang, Junhui Li, Huanshuo Dong, Yang Wei, Zhezheng Hao, Jiangtao Ma, Songlin Bai, Haozhong Kai, Xihang Yue, Gangzong Si, Dongming Jiang, Chao Yao, Zhanhua Hu, Jiangqing Zhang, Pengwei Liu, Yaomin Shen, Xingyu Ren, Lei Liu, Zikang Xu, Han Li, Qingsong Yao, Hande Dong, Hong Wang
AI总结
PDEAgent-Bench 是首个面向偏微分方程(PDE)求解器生成的多指标、多库基准测试平台,旨在评估从PDE描述自动生成数值求解代码的能力。该基准包含645个实例,涵盖6类数学问题和11类PDE,支持DOLFINx、Firedrake和deal.II等主流有限元库,并对生成代码的可执行性、数值精度和计算效率进行分阶段评估。实验表明,当前大型语言模型和代码生成代理虽能生成可运行代码,但在满足精度和效率要求时表现显著下降,突显了PDE求解器生成任务的挑战性与现有方法的不足。