AI 大模型
AI Agent
智能体、工具调用、规划、工作流、多智能体和自主任务执行。
1. 软件智能体 9 篇
SkillRevise: Improving LLM-Authored Agent Skills via Trace-Conditioned Skill Revision
SkillRevise: 通过轨迹条件技能修订改进LLM撰写的智能体技能
专题命中 软件智能体 :智能体技能迭代优化,提升LLM agent成功率
AI总结 提出SkillRevise框架,通过执行证据诊断、修复原则检索和执行锚定编辑,迭代优化初始技能,在SkillsBench上将基础智能体成功率从36.05%提升至61.63%,并展现跨模型迁移性。
Comments 15 pages, 4 figures
WebSP-Eval: Evaluating Web Agents on Website Security and Privacy Tasks
WebSP-Eval:在网站安全与隐私任务上评估网络代理
专题命中 软件智能体 :评估Web Agent在安全隐私任务上的表现
AI总结 提出WebSP-Eval框架,通过200个任务实例和自动化评估器,测试多模态大模型在网站安全与隐私任务上的表现,发现状态UI元素(如开关)导致超过45%的任务失败。
Comments Accepted at PETS 2026. Project Page: https://wiscprivacy.com/webspeval/
CAPRA: Scaling Feedback on Software Architecture Deliverables with a Multi-Agent LLM System
CAPRA: 使用多智能体LLM系统对软件架构交付物进行反馈扩展
专题命中 软件智能体 :多智能体LLM系统自动生成软件架构反馈。
AI总结 提出CAPRA多智能体LLM系统,通过多模态文档提取、确定性证据锚定和一致性管理,自动生成软件架构交付物的个性化LaTeX反馈,在10份学生报告中满足88.8%的评估标准。
Comments Accepted for publication at the 38th International Conference on Software Engineering Education and Training
2. 工具调用 7 篇
ToolGrad: Efficient Tool-use Dataset Generation with Textual "Gradients"
ToolGrad:利用文本“梯度”高效生成工具使用数据集
专题命中 工具调用 :提出ToolGrad框架生成工具使用数据集
AI总结 提出ToolGrad框架,通过文本“梯度”引导的迭代过程先构建有效工具使用链再合成用户查询,实现低成本、高成功率的数据生成,训练模型性能超越基线。
Comments ACL 2026 Findings. Source code: https://github.com/zhongyi-zhou/toolgrad
3. 多智能体 8 篇
Leadership as Coordination Control: Behavioral Signatures and the Recovery-Advantage Boundary in Multi-Agent LLM Teams
领导力作为协调控制:多智能体LLM团队中的行为特征与恢复优势边界
专题命中 多智能体 :多智能体LLM团队中领导力作为协调控制
AI总结 研究多智能体LLM团队中过程级协调控制何时增加价值,通过行为特征和消融实验发现,控制器的优势仅在初始多数投票不可靠、任务可恢复且无指导交互无法修复时出现,验证了权变理论。
Comments 33 pages
Simulating Hate Speech Cascades with Multi-LLM Agents: Empirical Grounding, Modeling Fidelity, and Intervention Strategies
使用多LLM智能体模拟仇恨言论级联:实证基础、建模保真度与干预策略
专题命中 多智能体 :使用多LLM智能体模拟仇恨言论传播与干预策略。
AI总结 本研究通过多LLM智能体系统模拟在线仇恨言论传播,发现其能再现实证数据中的立场单一性和毒性同质性,并通过消融实验识别出智能体异质性为关键保真因素,提出针对密集网络的放大器干预策略。
4. 规划决策 2 篇
5. 工作流自动化 3 篇
LandslideAgent with Multimodal LandslideBench: A Domain-Rule-Augmented Agent for Autonomous Landslide Identification and Analysis
LandslideAgent与多模态LandslideBench:一种面向自主滑坡识别与分析的领域规则增强型智能体
专题命中 工作流自动化 :指令驱动智能体框架,自主识别分析滑坡
AI总结 提出指令驱动智能体框架,包含多模态数据集LandslideBench、滑坡专用视觉语言模型LandslideVLM及领域规则增强智能体LandslideAgent,实现自主滑坡识别与分析。