AI 大模型
代码大模型 / AI 编程
代码生成、软件工程智能体、程序修复、测试生成和开发者工具。
1. 代码评测 11 篇
Calibration Without Comprehension: Diagnosing the Limits of Fine-Tuning LLMs for Vulnerability Detection in Systems Software
无理解的校准:诊断微调大语言模型在系统软件漏洞检测中的局限性
专题命中 代码评测 :评估LLM在系统软件漏洞检测中的能力
AI总结 提出CWE-Trace框架,通过834个Linux内核样本和两个诊断指标(DFI和HDD)评估LLM漏洞检测能力,发现数据污染无实质帮助,微调仅改变输出阈值而非决策策略,模型缺乏真正的安全推理能力。
The Correctness Illusion in LLM-Generated GPU Kernels
LLM生成的GPU内核中的正确性错觉
专题命中 代码评测 :评估LLM生成GPU内核的正确性。
AI总结 通过高精度CPU参考和操作模式感知的模糊测试,发现现有基准测试中基于固定形状的allclose检查无法检测LLM风格的转录错误,提出一种新协议并验证其有效性。
Comments 10 pages, 2 figures, LNCS format. Companion papers to follow on arXiv next week; IDs will be added in a v2 replace
FineREX: Fine-Tuned NER-RE for Human Smuggling Knowledge Graphs
FineREX: 面向人口走私知识图谱的微调NER-RE
专题命中 代码评测 :微调LLM用于知识图谱构建中的NER和RE。
AI总结 提出FineREX,一个基于微调LLM的流水线,用于从法律文档中提取实体和关系构建知识图谱,在F1分数上分别提升15.50%和31.46%,并减少50%处理时间。
Comments Code available at https://github.com/ElijahFeldman7/FineREX
2. 软件智能体 6 篇
Before the Pull Request: Mining Multi-Agent Coordination
在拉取请求之前:挖掘多智能体协调
专题命中 软件智能体 :提出grite协调基板,减少多编码智能体冲突。
AI总结 针对自主编码智能体在拉取请求中协调不足的问题,提出基于git的协调基板grite,通过事件日志减少重复和冲突工作,提升吞吐量,并自动恢复多种故障模式。
Comments 9 pages, 2 tables. LNCS format. Code, dataset, and mining toolkit: https://github.com/neul-labs/grite
3. 代码生成 10 篇
CoRaCommit: A VS Code Extension for Commit Message Generation with Exemplar Retrieval
CoRaCommit: 一种基于范例检索的提交消息生成的 VS Code 扩展
专题命中 代码生成 :VS Code扩展,利用检索范例生成提交消息。
AI总结 提出 CoRaCommit VS Code 扩展,通过检索相似提交范例作为提示上下文、并行调用多个大语言模型生成候选消息并基于用户反馈动态推荐,在 ApacheCM 数据集上优于现有扩展。
Comments 17 pages, 6 images, 3 tables, Manuscript submitted to a Journal (2026)
Secure Coding Drift in LLM-Assisted Post-Quantum Cryptography Development: A Gamified Fix
LLM辅助后量子密码开发中的安全编码漂移:一种游戏化修复方案
专题命中 代码生成 :研究LLM辅助后量子密码开发中的安全编码漂移。
AI总结 提出LLM辅助PQC开发中的安全编码漂移模型,通过游戏化框架将LLM转变为主动安全协作者,以缓解长期依赖LLM导致的安全退化。
Comments Accepted for 2026 SIGIR Workshop on Vulnerabilities in Generative Systems for Information Retrieval track
4. 测试生成 1 篇
Library-Aware Doubles and Iterative Repair for Large Language Model-Generated Unit Tests in OpenSIL Firmware
面向OpenSIL固件中大语言模型生成的单元测试的库感知双打与迭代修复
专题命中 测试生成 :LLM引导的多智能体自动化单元测试生成与修复。
AI总结 针对OpenSIL固件单元测试因构建约束易失败的问题,提出LLM引导的多智能体自动化测试生成与迭代修复流程,在76个函数中73个生成可编译测试,行覆盖率达98.8%。
Comments 20 pages, 10 figures
5. 程序修复 2 篇
Seeing is Fixing: Cross-Modal Reasoning with Multimodal LLMs for Visual Software Issue Fixing
视觉即修复:基于多模态大语言模型的视觉软件问题修复
专题命中 程序修复 :多模态LLM修复视觉软件问题,属于程序修复。
AI总结 本文提出GUIRepair方法,通过多模态推理解决视觉软件问题,结合图像到代码和代码到图像的组件提升故障理解和修复验证。
Journal ref 2025 40th IEEE/ACM International Conference on Automated Software Engineering (ASE)