FormulaCode: Evaluating Agentic Optimization on Large Codebases
AI总结 本文提出FormulaCode,一个用于评估大语言模型(LLM)代理在真实大型代码库中进行多目标优化能力的基准。该基准基于从GitHub科学Python仓库中挖掘的957个性能瓶颈,每个瓶颈都配有专家编写的补丁和大量社区维护的性能测试任务,能够全面评估LLM在保证正确性与性能约束下的优化能力。实验表明,当前最先进的LLM代理在面对大规模、多目标优化任务时仍面临显著挑战。
Comments Preprint version