代码大模型 / AI 编程

2606.18733 2026-06-18 cs.SE cs.AI 新提交专题 90

SWE-Future: Forecast-Conditioned Data Synthesis for Future-Oriented Software Engineering Agents

SWE-Future: 面向未来软件工程智能体的预测条件数据合成

Qiao Zhao, JianYing Qu, Jun Zhang, Yehua Yang, Hanwen Du, Zhongkai Sun

专题命中软件智能体：面向未来软件工程智能体的数据合成。

AI总结提出SWE-Future方法，利用仓库历史证据预测未来任务类型（如功能实现、缺陷修复），并基于预测条件合成200个编码智能体任务，减少对历史PR回放的依赖，在80个仓库中达到58.1%的未来工作相关性。

URL PDF HTML

2606.15828 2026-06-18 cs.SE 新提交专题 90

Configuration Smells in AGENTS.md Files: Common Mistakes in Configuring Coding Agents

AGENTS.md 文件中的配置异味：配置编码代理的常见错误

Helio Victor F. dos Santos, Vitor Costa, Joao Eduardo Montandon, Luciana Lourdes Silva, Marco Tulio Valente

专题命中软件智能体：编码代理配置文件异味分析，软件工程

AI总结本文首次系统化编码代理配置文件（AGENTS.md/CLAUDE.md）的异味，通过灰文献综述和仓库挖掘识别出六种异味，并在100个开源仓库中验证其普遍性，其中Lint Leakage最常见（62%）。

URL PDF HTML

2602.02690 2026-06-18 cs.SE 版本更新专题 90

Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All

超越LLM截止日期：一个面向所有人的实时内核崩溃修复基准

Chenxi Huang, Alex Mathai, Feiyang Yu, Aleksandr Nogikh, Petros Maniatis, Franjo Ivančić, Eugene Wu, Kostis Kaffes, Junfeng Yang, Baishakhi Ray

专题命中软件智能体：LLM代理修复内核崩溃，评估框架

AI总结提出Live-kBench和kEnv框架，用于持续评估LLM代理修复新发现的Linux内核崩溃，实验显示代理在截止日期前修复率高出25%，但仅20%的补丁与开发者修复匹配。

URL PDF HTML

2606.19216 2026-06-18 cs.SE cs.HC 新提交专题 85

No Two Developers Think Alike: How Problem-Solving Styles and Experience Shape Needs in Conversational Interaction with Copilot

没有两个开发者想法相同：问题解决风格和经验如何塑造与 Copilot 对话交互中的需求

Jonan Richards, Bruno Alves de Oliveira, Iury Oliveira, Igor Wiese, Mairieli Wessel

专题命中软件智能体：研究开发者与Copilot的交互，属于AI编程

AI总结通过混合方法出声思考研究，识别出5种交互模式和10种需求，并建立概念模型，揭示认知多样性如何影响开发者与GitHub Copilot的交互。

Comments Accepted at the International Conference on Software Maintenance and Evolution (ICSME), 2026

URL PDF HTML

2606.19167 2026-06-18 cs.SE 新提交专题 85

Teaching Software Engineering with LLM and MCP Integration: From Classroom to Industry Practice

用LLM和MCP集成教学软件工程：从课堂到工业实践

Kehui Chen, Jacky Keung, Weining Li, Xiangbing Shao, Yishu Li, Xiaoxue Ma

专题命中软件智能体：将LLM和MCP集成到软件工程教学，提升编程和工具使用能力

AI总结本研究将LLM和MCP集成到软件工程协作教学模式中，通过嵌入驱动工具到教学、代码辅助和工程模拟，弥合传统教学与工业流程的差距，提升学生编程、问题解决和智能工具使用能力。

Comments Aceept by International Symposium on Educational Technology (ISET) 2026

URL PDF HTML

2411.19099 2026-06-18 cs.SE 版本更新专题 85

Enhancing Software Maintenance: A Learning to Rank Approach for Co-changed Method Identification

增强软件维护：一种用于共变方法识别的学习排序方法

Yiping Jia, Safwat Hassan, Ying Zou

专题命中软件智能体：学习排序方法识别共变方法，辅助软件维护

AI总结提出一种学习排序方法，结合源代码特征和变更历史，在拉取请求级别预测并排序共变方法，实验表明随机森林模型在NDCG@5上优于其他模型2.5-12.8%，并超过基线方法4.7-537.5%。

URL PDF HTML

2606.19191 2026-06-18 cs.CR 新提交专题 80

PhantomSkill: Malicious Code Injection in Agent Skill Ecosystems

PhantomSkill: 代理技能生态系统中的恶意代码注入

Yu-Ting Lin, Chia-Mu Yu

专题命中软件智能体：针对LLM编码代理的恶意代码注入攻击

AI总结提出PhantomSkill攻击框架，通过VulMask技术将恶意行为隐藏在技能的辅助资源中，利用漏洞形状的实现绕过检测，在保持良性功能的同时降低警告和恶意软件检测率。

URL PDF HTML

2602.04341 2026-06-18 cs.SE 专题 80

Model-Driven Legacy System Modernization at Scale

规模化遗留系统现代化的模型驱动方法

Tobias Böhm, Jens Guan Su Tien, Mohini Nonnenmann, Tom Schoonbaert, Bart Carpels, Andreas Biesdorf

专题命中软件智能体：模型驱动遗留系统现代化

AI总结本文提出一种模型驱动的遗留系统现代化方法，通过在遗留代码库和现代目标平台之间插入富化中间模型，实现了核心UI组件和页面结构的半自动化迁移，提升了可维护性和开发者体验。

Comments Accepted for publication at the 1st Workshop on Code Translation, Transformation, and Modernization (ReCode'26), co-located with ICSE 2026

Journal ref Proc. ReCode '26, ACM, New York, NY, USA (2026) 13-18

URL PDF HTML

2606.19121 2026-06-18 cs.SE cs.CL cs.HC 新提交专题 75

Written by AI, Managed by AI: Semantic Space Control and Index Sickness Elimination Across 391 Consecutive Sessions

由AI编写，由AI管理：跨越391个连续会话的语义空间控制与索引病消除

Hui Zhang, Shuren Song

专题命中软件智能体：长期LLM协作中的索引病问题，涉及代码工程

AI总结本文通过真实软件项目中的行动研究，发现长期LLM协作中增加形式约束反而导致“索引病”，提出“基线-日志物理分离”机制，有效消除该问题。

Comments 22 pages, 2 tables, 1 figure. Action research. Bilingual submission (Chinese companion version included as supplementary). Submitted to ICSE 2027 IOR track

URL PDF HTML

2606.18855 2026-06-18 cs.SE 新提交专题 70

Toward Semantically-Seeded, Graph-Propagated Impact Analysis Across Software Artifacts: A Vision

面向语义种子与图传播的跨软件制品影响分析：一个愿景

Momil Seedat

专题命中软件智能体：跨软件制品影响分析，融合语义与结构。

AI总结提出一种无需训练、可解释的融合方法，结合语义相似性与结构依赖，通过异构制品图与传播机制覆盖两种方法的盲点，实现跨需求-配置-服务-测试链的影响分析。

URL PDF HTML

2606.17510 2026-06-18 cs.SE cs.SY eess.SY 新提交专题 70

OmniDroneX: An LLM-Assisted Holistic Drone-as-a-Service Ecosystem

OmniDroneX: 一种LLM辅助的全方位无人机即服务生态系统

I-Ling Yen, Akeem Mohammed, Farokh Bastani, San-Yih Hwang

专题命中软件智能体：LLM用于服务组合和代码生成

AI总结提出OmniDroneX统一无人机即服务生态系统，通过libUAV接口和PT-SOA抽象模型连接底层物理与高层任务，利用大语言模型辅助功能识别、服务组合和自然语言任务定义，支持多种组合技术以实现可扩展、自演进的无人机系统。

Comments This manuscript is a full version of a paper accepted in shortened form by IEEE International Conference on Joint Cloud Computing

URL PDF HTML

2606.06133 2026-06-18 cs.SE cs.AI cs.LG cs.LO 版本更新专题 90

TLA-Prover: Verifiable TLA+ Specification Synthesis via Preference-Optimized Low-Rank Adaptation

TLA-Prover: 通过偏好优化低秩适配实现可验证的 TLA+ 规范合成

Eric Spencer, Arslan Bisharat, Brian Ortiz, Khushboo Bhadauria, TaiNing Wang, George K. Thiruvathukal, Konstantin Laufer, Mohammed Abuhamad

专题命中代码生成：TLA+形式化规范合成，偏好优化提升通过率

AI总结提出 TLA-Prover 模型，结合监督微调和基于修复的组相对策略优化，在 TLC 模型检查器上实现 TLA+ 规范合成，Gold/Diamond 级别通过率达 30%，约为未调优基线的 3.5 倍。

Comments 12 pages, 5 tables, 3 figures. Accepted at the 21st International Conference on Software Technologies (ICSOFT 2026)

URL PDF HTML

2606.18286 2026-06-18 cs.LG 新提交专题 85

CODEBLOCK: Learning to Supervise Code at the Right Granularity

CODEBLOCK: 学习在正确的粒度上监督代码

Zhijie Deng, Ling Li, Jinlong Pang, Kaiqin Hu, Qi Xuan, Zhaowei Zhu, Jiaheng Wei

专题命中代码生成：提出CodeBlock框架，结构感知稀疏监督提升代码生成微调。

AI总结提出CodeBlock框架，通过选择结构完整的代码块而非孤立token进行稀疏监督，在仅使用1.9%监督token的情况下，在六个代码生成基准上取得优于全token微调的效果。

URL PDF HTML

2511.00802 2026-06-18 cs.SE cs.CL cs.LG 版本更新专题 85

GrowthHacker: Automated Off-Policy Evaluation Optimization Using Code-Modifying LLM Agents

GrowthHacker: 使用代码修改型LLM代理的自动离线策略评估优化

Jie JW Wu, Ayanda Patrick Herlihy, Ahmad Saleem Mirza, Ali Afoud, Fatemeh Fard

专题命中代码生成：利用LLM代理自动修改代码优化离线策略评估。

AI总结提出GrowthHacker基准，利用LLM代理自动迭代修改代码以优化离线策略评估（OPE）实现，在Open Bandit Pipeline和Scope-RL上评估多种框架，证明基于LLM的代理可作为自动增长黑客持续改进OPE系统。

Comments Accepted for publication in ACM Transactions on Software Engineering and Methodology (TOSEM), 2026

URL PDF HTML

2606.19315 2026-06-18 cs.LG 新提交专题 80

Diffusion-Proof: Recipe for Formal Theorem Proving Beyond Auto-Regressive Generation

Diffusion-Proof：超越自回归生成的正式定理证明配方

Ruida Wang, Rui Pan, Pengcheng Wang, Shizhe Diao, Tong Zhang

专题命中代码生成：扩散语言模型用于形式定理证明

AI总结提出Diffusion-Proof框架，首次将扩散语言模型应用于形式定理证明，通过全证明生成和局部校正方法，在ProofNet和MiniF2F上分别提升1.61%和6.14%，并解决了一个DeepSeek-Prover-V2-7B无法解决的IMO问题。

URL PDF HTML

2606.19042 2026-06-18 cs.SE cs.AI 新提交专题 80

Where Did the Variability Go? From Vibe Coding to Product Lines by Regeneration

可变性去哪了？从氛围编码到通过再生的产品线

Xhevahire Tërnava

专题命中代码生成：AI驱动编程，可变性再生。

AI总结研究AI驱动编程（氛围编码）中可变性缺失问题，提出通过再生实现可变性（VbR）方法，让LLM作为推导引擎生成无死代码的变体二进制。

Comments VARIABILITY 2026

URL PDF HTML

2606.18293 2026-06-18 cs.SE cs.AI 新提交专题 80

Vibe Coding Ate My Homework: An evaluation of AI approaches to greenfield software engineering and programming

Vibe Coding 吃掉我的作业：AI 方法在全新软件工程与编程中的评估

Callum Barbour

专题命中代码生成：评估AI编程（vibe coding）在软件工程中的可行性。

AI总结本文评估了“氛围编码”（用自然语言提示编程）在全新软件工程任务中的可行性，并分析了现有基准，通过开发 Python 简单独立编程任务评估套件提供见解。

Comments 10 pages, 2 figures

URL PDF HTML

2606.19257 2026-06-18 cs.CL 新提交专题 70

DreamReasoner-8B: Block-Size Curriculum Learning for Diffusion Reasoning Models

DreamReasoner-8B：面向扩散推理模型的块大小课程学习

Zirui Wu, Lin Zheng, Jiacheng Ye, Shansan Gong, Xueliang Zhao, Yansong Feng, Wei Bi, Lingpeng Kong

专题命中代码生成：在代码推理基准上评估

AI总结提出块大小课程学习，通过从细粒度到粗粒度的渐进训练，解决块扩散语言模型在长链推理中性能差距问题，DreamReasoner-8B在数学和代码推理上达到与Qwen3-8B相当的水平。

URL PDF HTML

2606.18425 2026-06-18 cs.SE cs.AI cs.DC 新提交专题 70

From Specification to Execution: AI Assisted Scientific Workflow Management

从规范到执行：AI辅助的科学工作流管理

Komal Thareja, Hamza Safri, Rajiv Mayani, Anirban Mandal, Ewa Deelman

专题命中代码生成：利用LLM生成工作流代码

AI总结提出一种AI辅助方法，通过规范驱动的工作流生成、自动化调试和分布式执行，结合Pegasus与MCP层，实现从自然语言到大规模科学工作流的端到端管理。

URL PDF HTML

2606.18619 2026-06-18 cs.CR cs.AI cs.SE 新提交专题 85

Code-Augur: Agentic Vulnerability Detection via Specification Inference

Code-Augur：通过规约推断的智能体漏洞检测

Zhengxiong Luo, Mehtab Zafar, Dylan Wolff, Abhik Roychoudhury

专题命中程序修复：智能体漏洞检测，通过规约推断发现漏洞

AI总结提出安全规约优先范式，通过显式化智能体假设并运行时反证，结合引导式模糊测试提升漏洞检测能力，在真实项目中比现有智能体检测更多漏洞。

URL PDF HTML

2602.06774 2026-06-18 cs.AI 版本更新专题 85

Towards Understanding What State Space Models Learn About Code

理解状态空间模型在代码中学到了什么

Jiali Wu, Abhinav Anand, Shweta Verma, Mira Mezini

专题命中代码评测：SSM代码理解机制分析

AI总结本文首次系统分析状态空间模型（SSM）在代码理解中的学习机制，发现SSM在预训练时比Transformer更有效捕获语法和语义结构，但微调时会遗忘某些关系，并提出SSM-Interpret框架和架构改进，将NLCodeSearch的MRR提升高达6。

URL PDF HTML

2606.18284 2026-06-18 cs.LG cs.AI cs.CL 新提交专题 75

Breaking the Solver Bottleneck: Training Task Generators at the Learnable Frontier

打破求解器瓶颈：在可学习前沿训练任务生成器

Lorenz Wolf, Connor Watts, Roger Creus Castanyer, Geoffrey Bradway, Maxwill Lin, Augustine N. Mavor-Parker, Matthew Daborn-Sargent

专题命中代码评测：提出PROPEL框架，优化任务生成器用于代码和软件工程。

AI总结提出PROPEL框架，通过训练轻量级激活探针作为求解率代理，在无需重复求解器评估的情况下优化任务生成器，使生成任务集中在可学习前沿，提升数学、代码和软件工程任务的有效性。

Comments 30 pages, 9 figures, 12 tables

URL PDF HTML

2604.00730 2026-06-18 cs.CY cs.AI cs.LG cs.SE 版本更新专题 75

A CEFR-Inspired Classification Framework with Fuzzy C-Means To Automate Assessment of Programming Skills in Scratch

基于CEFR启发的模糊C均值分类框架：自动化评估Scratch编程技能

Ricardo Hidalgo-Aragón, Jesús M. González-Barahona, Gregorio Robles

专题命中代码评测：模糊C均值聚类评估Scratch编程技能

AI总结提出一种基于CEFR的Scratch项目评估框架，使用模糊C均值聚类对200万+项目分级，识别B2瓶颈并引入分类确定性指标以平衡自动反馈与人工审核。

Comments Best Paper Award CSEDU 2026 -Minor change FPC fix-

URL PDF HTML

2606.16000 2026-06-18 cs.CL cs.LG 新提交专题 70

GRACE-DS: a Guarded Reward-guided Agent Correction Environment in Data Science

GRACE-DS：数据科学中的受保护奖励引导智能体修正环境

Aleksandr Tsymbalov, Danis Zaripov, Artem Epifanov, Anastasiya Palienko

专题命中代码评测：评估代码生成和AutoML智能体性能

AI总结提出GRACE-DS，一个用于评估LLM驱动的AutoML智能体在部署前性能的隔离环境，通过隐藏的可执行验证器衡量预测性能、泄漏避免、可重复性等指标，实验证明其灵活迭代交互模式优于基线方法。

URL PDF HTML

2606.18536 2026-06-18 stat.AP cs.SE 新提交专题 60

Analytics for Quality Assurance for Item Pools (AQuAP): Monitoring and Maintaining Item Bank Health in AI-Driven Assessment Systems

题库质量保证分析（AQuAP）：AI驱动评估系统中题库健康的监控与维护

Alina A. von Davier, Xiaowan Zhang, Yigal Attali, Yena Park, Jacqueline Church, Andrew Runge, Geoff T. LaFlair, Alexander Tsigler

专题命中代码评测：AI评估系统中题库质量监控

AI总结提出AQuAP仪表盘环境，通过有效题库规模等指标监控题库质量，支持大规模自动与人工结合的试题开发，确保高利害测试的题库健康。

Comments 11 pages, 4 figures

URL PDF HTML

2606.18421 2026-06-18 cs.SE 新提交专题 60

Finding Compiler-Platform Interaction Bugs in Deep Learning Pipelines via Cross-Layer Constraints

通过跨层约束发现深度学习流水线中的编译器-平台交互错误

Yuxin Qiu, Jiyuan Wang, Ronak Badhe, Ben Limpanukorn, Miryung Kim, Qian Zhang

专题命中代码评测：测试深度学习编译器与平台交互错误

AI总结提出一种自动化框架XCheck，通过提取全栈约束生成测试模型，发现编译器与硬件平台交互导致的错误，并在三个编译器上发现2034个错误案例。

URL PDF HTML

2602.15149 2026-06-18 cs.CE cs.NA math.NA 版本更新专题 60

SoliDualSPHysics: An extension of DualSPHysics for solid mechanics with hyperelasticity, plasticity, and fracture

SoliDualSPHysics：一种用于固体力学的DualSPHysics扩展，支持超弹性、塑性及断裂

Mohammad Naqib Rahimi, George Moutsanidis

专题命中其他AI编程：开源软件扩展，涉及代码但非AI编程核心

AI总结本文提出SoliDualSPHysics，一种基于SPH的开源软件，扩展DualSPHysics以模拟超弹性、有限应变塑性及脆性断裂行为，采用总拉格朗日格式，支持动态加载下的裂纹萌生与扩展，验证了其准确性和可扩展性。

URL PDF HTML

1. 软件智能体 11 篇

SWE-Future: Forecast-Conditioned Data Synthesis for Future-Oriented Software Engineering Agents

Configuration Smells in AGENTS.md Files: Common Mistakes in Configuring Coding Agents

Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All

No Two Developers Think Alike: How Problem-Solving Styles and Experience Shape Needs in Conversational Interaction with Copilot

Teaching Software Engineering with LLM and MCP Integration: From Classroom to Industry Practice

Enhancing Software Maintenance: A Learning to Rank Approach for Co-changed Method Identification

PhantomSkill: Malicious Code Injection in Agent Skill Ecosystems

Model-Driven Legacy System Modernization at Scale

Written by AI, Managed by AI: Semantic Space Control and Index Sickness Elimination Across 391 Consecutive Sessions

Toward Semantically-Seeded, Graph-Propagated Impact Analysis Across Software Artifacts: A Vision

OmniDroneX: An LLM-Assisted Holistic Drone-as-a-Service Ecosystem

2. 代码生成 8 篇

TLA-Prover: Verifiable TLA+ Specification Synthesis via Preference-Optimized Low-Rank Adaptation

CODEBLOCK: Learning to Supervise Code at the Right Granularity

GrowthHacker: Automated Off-Policy Evaluation Optimization Using Code-Modifying LLM Agents

Diffusion-Proof: Recipe for Formal Theorem Proving Beyond Auto-Regressive Generation

Where Did the Variability Go? From Vibe Coding to Product Lines by Regeneration

Vibe Coding Ate My Homework: An evaluation of AI approaches to greenfield software engineering and programming

DreamReasoner-8B: Block-Size Curriculum Learning for Diffusion Reasoning Models

From Specification to Execution: AI Assisted Scientific Workflow Management

3. 程序修复 1 篇

Code-Augur: Agentic Vulnerability Detection via Specification Inference

4. 代码评测 6 篇

Towards Understanding What State Space Models Learn About Code

Breaking the Solver Bottleneck: Training Task Generators at the Learnable Frontier

A CEFR-Inspired Classification Framework with Fuzzy C-Means To Automate Assessment of Programming Skills in Scratch

GRACE-DS: a Guarded Reward-guided Agent Correction Environment in Data Science

Analytics for Quality Assurance for Item Pools (AQuAP): Monitoring and Maintaining Item Bank Health in AI-Driven Assessment Systems

Finding Compiler-Platform Interaction Bugs in Deep Learning Pipelines via Cross-Layer Constraints

5. 其他AI编程 1 篇

SoliDualSPHysics: An extension of DualSPHysics for solid mechanics with hyperelasticity, plasticity, and fracture