arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.15085 2026-05-15 stat.ML cs.LG stat.AP stat.ME

From Data to Action: Accelerating Refinery Optimization with AI

Dániel Pfeifer, Ábrahám Papp, Tibor Bernáth, Tamás Zoltán Varga, Márk Czifra, Botond Szilágyi, Edith Alice Kovács

AI总结本文研究了如何利用人工智能加速炼油厂优化过程，针对线性规划（LP）方法在实际应用中面临的解释与应用难题，提出结合机器学习的方法以提升决策支持。核心方法包括改进的异常检测工具和高维数据处理策略，有效识别了炼油厂调度与规划中的业务机会与数据供应错误，为优化结果的可信度提供了新的洞察。

Comments 34 pages, 17 figures

2605.15082 2026-05-15 stat.ML cs.LG math.ST stat.TH

Average Gradient Outer Product in kernel regression provably recovers the central subspace for multi-index models

Libin Zhu, Damek Davis, Dmitriy Drusvyatskiy, Maryam Fazel

AI总结本文研究了在样本数量少于精确预测所需的情况下，如何通过学习预测器发现数据中的低维结构。具体来说，考虑从有限数据对中恢复多指标多项式模型 $f^*(x)=h(Ux)$ 的问题，其中输入仅通过未知的 $r$ 维中心子空间的投影来影响输出。作者提出了一种简单方法：拟合核岭回归（KRR）并计算拟合预测器的平均梯度外积（AGOP），证明其前 $r$ 个特征向量可准确恢复该子空间，即使预测误差仍较大时也成立。研究还表明，当目标函数的低阶部分包含所有预测相关方向时，子空间恢复所需的样本量远低于精确预测所需的样本量，揭示了预测与表示之间的差异。

Comments 95 pages, 12 figures

2605.15058 2026-05-15 cs.NE cs.AI

NeuroTrain: Surveying Local Learning Rules for Spiking Neural Networks with an Open Benchmarking Framework

Alessio Caviglia, Filippo Marostica, Roberta Bardini, Alessandro Savino, Stefano Di Carlo

AI总结本文综述了脉冲神经网络（SNN）训练算法的最新进展，系统梳理了包括替代梯度反向传播、局部学习规则、生物启发可塑性机制等在内的多种方法，并提出了一个统一的分类体系。为支持可复现的研究，作者开发了开源框架NeuroTrain，实现了多种典型算法，提供了统一、模块化且可扩展的基准测试平台。该工作整合了分散的文献资源，明确了当前挑战与未来研究方向，为高效、可扩展的SNN训练提供了重要参考。

2605.15032 2026-05-15 eess.SP cs.LG

Multi-Block Attention for Efficient Channel Estimation in IRS-Assisted mmWave MIMO

Mehrdad Momen-Tayefeh, Mehrshad Momen-Tayefeh, Maryam Sabbaghian

AI总结本文研究了智能反射表面（IRS）辅助毫米波MIMO系统中的高效信道估计问题，提出了基于深度学习的多块注意力（MBA）框架，用于降低训练开销并提升估计精度。该方法通过选择性关闭IRS元素并结合两阶段网络结构，分别进行空间相关性恢复和噪声抑制，有效减少了信道估计中的误差传播。实验表明，MBA方法在保持低计算复杂度的同时，显著降低了导频开销并提升了信道估计性能。

详情

DOI: 10.1109/TCOMM.2025.3618696
Journal ref: IEEE Transactions on Communications, vol. 73, no. 12, pp. 13891-13903, Dec. 2025

英文摘要

Intelligent Reflecting Surfaces (IRSs) are a promising technology for enhancing the spectral and energy efficiency of millimeter-wave (mmWave) multiple-input multiple-output (MIMO) systems. In these systems, accurate channel estimation remains challenging due to the passive nature of IRS elements and the high pilot overhead in large-scale deployments. This paper presents a deep learning-based Multi-Block Attention (MBA) framework for efficient cascaded channel estimation in IRS-assisted mmWave MIMO systems that utilize orthogonal frequency division multiplexing (OFDM). First, we show the optimality of the discrete Fourier transform (DFT) and Hadamard matrices as phase configurations for least squares (LS) estimation. To reduce training overhead, we selectively deactivate IRS elements and compensate for induced feature loss using a two-stage architecture: (i) a Convolutional Attention Network (CAN) for spatial correlation recovery and (ii) a Complex Multi-Convolutional Network (CMN) for noise suppression. The MBA architecture mitigates error propagation through attention-guided feature refinement and denoising. Simulation results indicate that the MBA method reduces pilot overhead by up to 87% compared to the LS estimator. Additionally, at signal-to-noise ratios of 10 dB, our proposed method achieves approximately 51% lower normalized mean squared error (NMSE) than leading methods. It also maintains low computational complexity and adapts effectively to various propagation environments.

URL PDF HTML ☆

赞 0 踩 0

2605.15030 2026-05-15 cs.CR cs.AI

WARD: Adversarially Robust Defense of Web Agents Against Prompt Injections

Tri Cao, Yulin Chen, Hieu Cao, Yibo Li, Khoi Le, Thong Nguyen, Yuexin Li, Yufei He, Yue Liu, Shuicheng Yan, Bryan Hooi

AI总结本文提出WARD，一种针对网络代理的对抗性鲁棒防御方法，用于抵御HTML内容或视觉界面中的提示注入攻击。WARD基于大规模数据集WARD-Base和专门设计的攻击数据集WARD-PIG进行训练，并引入了A3T自适应对抗训练框架，通过记忆驱动的攻击者与防御者共进化过程提升模型鲁棒性。实验表明，WARD在分布外基准上实现了接近完美的召回率，保持较低的误报率，并在分布偏移和针对性攻击下仍表现出高效稳定的防御性能。

Comments Code and models: https://github.com/caothientri2001vn/WARD-WebAgent

2605.15026 2026-05-15 cs.OS cs.AI cs.PF

SemaTune: Semantic-Aware Online OS Tuning with Large Language Models

Georgios Liargkovas, Mihir Nitin Joshi, Hubertus Franke, Kostis Kaffes

AI总结 SemaTune 是一种基于大语言模型的语义感知在线操作系统调优框架，旨在提升长期运行服务的性能。该方法通过整合系统参数、监控数据、配置历史等信息构建决策上下文，结合快速和慢速反馈回路进行调优，并在更新前进行类型验证，从而在保证模型开销和系统稳定性的同时，实现对操作系统控制语义的理解。实验表明，SemaTune 在多个基准测试中显著优于传统方法，提升了稳定阶段的性能表现，并有效避免了系统性能的严重下降。

Comments 17 pages, 12 figures

2605.14983 2026-05-15 cs.GT cs.AI cs.CY cs.MA

Agreement, Diversity, and Polarization Indices for Approval Elections

Piotr Faliszewski, Jitka Mertlová, Krzysztof Sornat, Stanisław Szufa, Tomasz Wąs

AI总结本文研究了如何通过指数量化批准选举中选民之间的一致性、多样性和极化程度。提出了一系列归一化的指数，用于衡量选举中这些特征，并分析了它们的性质。研究还利用这些指数绘制了新的批准选举图谱，并比较了来自多个真实数据集的选举之间的异同。

2605.13338 2026-05-15 cs.CR cs.AI

Inducing Overthink: Hierarchical Genetic Algorithm-based DoS Attack on Black-Box Large Language Reasoning Models

Shuqiang Wang, Wei Cao, Jiaqi Weng, Jialing Tao, Licheng Pan, Hui Xue, Zhixuan Chu

AI总结本文研究了大型推理模型（LRMs）在面对不完整或逻辑不一致输入时容易“过度思考”的漏洞，该行为会导致推理过程冗长且耗能，可能被用于发起拒绝服务（DoS）攻击。作者提出了一种基于分层遗传算法的黑盒攻击框架，通过系统性地扰动输入问题的逻辑结构，诱导模型产生更长的推理过程。实验表明，该方法在多个先进推理模型上显著放大了输出长度，并具有良好的迁移性，凸显了“过度思考”作为现代推理系统共有的潜在安全风险。

Comments Accepted at ICML 2026. Code available at: https://github.com/EndlessCao/Overthink-HGA

2512.16768 2026-05-15 stat.ML cs.LG math.PR

On The Hidden Biases of Flow Matching Samplers

Soon Hoe Lim

AI总结本文研究了流匹配（Flow Matching）采样器在有限样本情况下的隐藏偏差问题。通过将总体期望替换为样本平均，并用有限样本替代目标分布，作者提出了一种经验流匹配模型的层次结构。针对仿射条件流，文中推导了精确的经验最小化解，并识别出一种平滑插值机制，使得终端分布恰好为核混合估计量。研究揭示了经验流匹配中的多重偏差来源，包括目标分布替换带来的统计目标变化、经验最小化解可能不是梯度场，以及边际路径无法唯一确定粒子动力学等问题。

Comments 41 pages

2502.03672 2026-05-15 physics.comp-ph cs.LG cs.NA math.NA

Physically consistent predictive reduced-order modeling by enhancing Operator Inference with state constraints

Hyeonghun Kim, Boris Kramer

AI总结本文提出了一种增强算子推断方法的新策略，通过在降阶模型中嵌入状态约束，以提高对复杂多物理系统（如焦炭燃烧）的预测稳定性与物理一致性。该方法引入基于关键性能指标的正则化超参数选择方式，并在实际应用中展示了其在稳定性、准确性和外推能力方面的优越性。

Comments 33 pages, 13 figures

2412.14291 2026-05-15 math.OC cs.LG stat.ML

Projected gradient methods for nonconvex and stochastic smooth optimization: new complexities and auto-conditioned stepsizes

Guanghui Lan, Tianjiao Li, Yangyang Xu

AI总结本文提出了一类新的投影梯度（PG）方法，用于在凸紧集上最小化光滑但不一定凸的目标函数。研究引入了“自适应条件化”投影梯度（AC-PG）方法，在无需输入梯度的Lipschitz常数或进行线搜索的情况下，达到了与现有最佳方法相当的迭代复杂度。此外，文章将PG方法推广到随机优化场景，提出了随机投影梯度（SPG）和方差缩减随机梯度（VR-SPG）方法，并在不同Oracle设置下获得了新的复杂度界，同时为这些方法设计了自适应步长策略，保证了收敛性。

2304.03641 2026-05-15 math.OC cs.LG cs.NA math.NA

A Block Coordinate Descent Method for Nonsmooth Composite Optimization under Orthogonality Constraints

Ganzhao Yuan

AI总结本文研究了在正交约束下的非光滑复合优化问题，这类问题在统计学习和数据科学中有广泛应用，但因其目标函数非光滑且约束非凸，求解较为困难。作者提出了一种基于块坐标下降的新方法OBCD，每次迭代更新解矩阵的$k$行（$k \geq 2$），通过求解一个小规模的非光滑优化子问题实现。该方法具有计算高效、可行性强的特点，并在理论上证明了其更新方案的完备性及收敛性，实验结果表明该方法优于现有方法。

Comments Future versions of this paper can be found at arXiv:2304.03641

2012.14425 2026-05-15 cs.CR cs.LG

Vendor-Conditioned Contrastive Learning for Predicting Organizational Cyber Threat Targets

Benjamin M. Ampel

AI总结该研究旨在识别网络攻击中针对的组织目标，提出了一种基于CySecBERT的对比学习框架TRACE，通过结合时间信息和供应商条件优化组织分类与表示学习，提升在时间分布偏移下的鲁棒性。研究利用涵盖九个漏洞数据库和黑客论坛的多源大规模语料库，构建了包含129,126个样本的七类组织数据集，在时间分布外测试中取得了97.00%的宏F1分数，显著优于多种经典机器学习和深度学习方法。

Comments 6 pages, 3 figures

2605.14960 2026-05-15 cs.GR cs.CG cs.CV

Meschers: Geometry Processing of Impossible Objects

Ana Dodik, Isabella Yu, Kartik Chandra, Jonathan Ragan-Kelley, Joshua Tenenbaum, Vincent Sitzmann, Justin Solomon

AI总结本文研究了如何用计算机准确表示“不可能物体”——一类在现实中无法存在但人类可以感知的几何构造。传统方法通过切割或弯曲深度轴来实现，但会导致局部几何变化或光照处理困难，影响后续图形处理。为此，作者提出了一种名为 Meschers 的网格表示方法，基于离散外微分几何理论，能够有效支持渲染、光照和距离计算等应用，并实现了对不可能物体的逆向渲染，优于传统方法。

2605.14941 2026-05-15 eess.SP cs.HC cs.LG

nASR: An End-to-End Trainable Neural Layer for Channel-Level EEG Artifact Subspace Reconstruction in Real-Time BCI

Shantanu Sarkar, Jose L. Contreras-Vidal

AI总结该研究提出了一种端到端可训练的神经网络层nASR，用于实时脑机接口（BCI）中的通道级EEG伪影子空间重构。传统ASR方法依赖固定阈值参数，易影响有效神经信号，而nASR通过引入两个可学习的阈值参数，实现了伪影检测与后续解码的联合优化，有效提升了信号质量与解码性能。实验表明，nASR在分类准确率和推理速度上均优于传统方法，适用于对延迟和性能要求较高的实时BCI应用。

Comments Preprint. Submitted to IEEE SMC 2026 (under review)

2605.14939 2026-05-15 physics.plasm-ph cs.LG

Real-time virtual circuits for plasma shape control via neural network emulators

Alasdair Ross, George K. Holt, Kamran Pentland, Adriano Agnello, Nicola C. Amorisco, Pedro Cavestany, Aran Garrod, Timothy Nunn, Charles Vincent, Graham McArdle

AI总结该研究旨在解决托卡马克等离子体形状控制中实时调节多个强耦合参数的问题，提出了一种基于神经网络的虚拟电路（VC）实时生成方法。通过构建包含一百多万个模拟Grad–Shafranov平衡态的数据库，研究开发了能够实时生成状态感知虚拟电路的神经网络模型，从而实现对等离子体形状参数的独立控制。该方法不仅提高了控制精度和鲁棒性，还为复杂等离子体场景下的实时控制提供了可扩展的解决方案。

2605.14883 2026-05-15 eess.SP cs.HC cs.LG

BCI-Based Assessment of Ocular Response Time Using Dynamic Time Warping Leveraging an RDWT-Driven Deep Neural Framework

Shantanu Sarkar, Sai Shashank Gandavarapu, Jeff Feng, Saurabh Prasad, Reza Khanbabaie, Jose L. Contreras-Vidal

AI总结该研究提出了一种基于脑机接口（BCI）的方法，用于评估眼部反应时间，以辅助轻度脑外伤（mTBI）的早期诊断。研究结合了脑电图（EEG）与增强现实（AR）引导的前庭/眼动筛查（VOMS）任务，利用冗余离散小波变换（RDWT）驱动的深度神经网络框架处理EEG信号，并通过动态时间规整（DTW）计算眼部反应时间。实验结果表明，该方法在区分不同受试者的眼动行为方面具有显著效果，尤其在追踪任务中表现出良好的时间差异识别能力，为多模态mTBI评估提供了新的技术途径。

Comments Submitted to IEEE SMC 2026 (under review)

2605.14879 2026-05-15 cs.MA cs.GT cs.LG

Temporal Fair Division in Multi-Agent Systems: From Precise Alternation Metrics to Scalable Coordination Proxies

Nikolaos Al. Papadopoulos

AI总结本文研究多智能体系统中时间维度上的公平分配问题，提出了一种新的度量方法——旋转周期性（RP），以及滑动窗口度量ALT，用于评估多智能体在重复资源竞争中的时间公平性。研究通过引入“完美交替”（PA）作为时间公平的典型解，将时间公平分解为旋转得分（RS）和等待期评估（WPE）两个子指标，显著提升了计算效率。实验表明，RP在保持高区分度的同时，相比ALT具有更高的计算效率，两者结合可为时间公平分配提供有效的诊断工具。

Comments 15 pages, 3 figures, 8 tables. Submitted to ACM Transactions on Economics and Computation, Special Issue on Fair Division

2605.14866 2026-05-15 cs.SE cs.AI

Towards In-Depth Root Cause Localization for Microservices with Multi-Agent Recursion-of-Thought

Lingzhe Zhang, Tong Jia, Kangjin Wang, Chiming Duan, Minghua He, Rongqian Wang, Xi Peng, Meiling Wang, Gong Zhang, Renhai Chen, Ying Li

AI总结随着微服务系统因动态交互和运行环境变化而日益复杂，故障频率不断上升，准确的根因定位（RCL）对系统可靠性至关重要。现有基于传统机器学习和深度学习的方法在可解释性和跨部署迁移能力方面存在不足，而基于大语言模型（LLM）的方法虽有所改进，但仍面临上下文爆炸和串行推理结构导致的诊断效率与准确性问题。本文提出RCLAgent，一个基于多智能体递归思维的微服务根因定位框架，通过并行推理分解诊断过程，显著提升了定位精度和推理效率。

2605.14860 2026-05-15 math.OC cs.LG

A Non-Monotone Preconditioned Trust-Region Method for Neural Network Training

Andrea Angino, Bindi Çapriqi, Shega Likaj, Ken Trotti, Rolf Krause

AI总结本文提出了一种非单调预条件信任区域方法（NAPTS），用于大规模神经网络训练。该方法基于加性预条件信任区域策略（APTS），引入非单调接受准则和非线性加性施瓦茨预条件子，结合并行子域修正与全局粗空间方向，有效提升了训练效率。实验表明，NAPTS在保持精度的同时，将CPU时间减少了30%，并显著降低了被拒绝的迭代步数。

Comments 7 pages, 2 figures,

2605.14851 2026-05-15 cs.MA cs.AI

IFPV: An Integrated Multi-Agent Framework for Generative Operational Planning and High-Fidelity Plan Verification

Zhigao Huang, Zhengqing Hu, Dong Chen, Shaohan Zhang, Zhao Jin, Bo Zhang, Han Wu, Mingliang Xu

AI总结本文提出了一种集成多智能体框架IFPV，用于生成作战计划并进行高保真度的计划验证。该框架包含两个紧密耦合的模块：多视角分层智能体MPHA用于生成作战行动序列，以及对抗认知仿真引擎ACSE用于高保真度的对抗验证。实验表明，IFPV在任务成功率和操作成本方面优于传统方法，验证模块也显著提升了对候选计划潜在漏洞的识别能力。

Comments Submitted to Neurocomputing

2605.14828 2026-05-15 stat.ML cs.LG stat.ME

K-Models: a Flexible and Interpretable Method for Ordinal Clustering with Application to Antigen-Antibody Interaction Profiles

Giulia Patanè, Alessandra Menafoglio, Alexander Krauth, Peter Fechner, Luca Dede', Bianca Maria Colosimo, Federica Nicolussi

AI总结该研究提出了一种名为K-Models的新型聚类方法，用于处理具有序数关系的函数型数据，旨在在保证聚类性能的同时提升模型的可解释性。该方法通过引入序数约束，估计生成观测函数型数据的随机过程中的关键要素，从而更准确地识别数据的内在结构。研究通过仿真和实际应用（如抗原-抗体相互作用的反射传感器数据）验证了该方法的有效性，展示了其在具有潜在序数结构的数据分析中的优越性和实用性。

2605.14786 2026-05-15 cs.CR cs.AI cs.HC cs.LG

Known By Their Actions: Fingerprinting LLM Browser Agents via UI Traces

William Lugoloobi, Samuelle Marro, Jabez Magomere, Joss Wright, Chris Russell

AI总结随着基于大语言模型（LLM）的智能体越来越多地代表用户浏览网页，一个自然的问题是：网站能否被动识别出驱动该智能体的底层模型？本研究发现，通过被动的JavaScript追踪器捕获智能体的动作和交互时间，可以以高达96%的F1分数识别出使用的模型。研究还表明，基于智能体行为训练的分类器能够跨不同规模和家族的模型泛化，并且仅需少量交互轨迹即可训练出高效的分类器。尽管引入随机时间延迟可以降低分类器性能，但重新训练后仍能恢复识别效果。

2605.14750 2026-05-15 cs.CR cs.AI

EVA: Editing for Versatile Alignment against Jailbreaks

Yi Wang, Hongye Qiu, Yue Xu, Sibei Yang, Zhan Qin, Minlie Huang, Wenjie Wang

AI总结大型语言模型（LLMs）和视觉语言模型（VLMs）虽然表现出色，但仍易受越狱攻击的影响，攻击者通过文本或视觉触发器绕过安全防护。为解决现有防御方法带来的计算开销大和性能下降问题，本文提出EVA框架，通过直接模型编辑技术精准修正模型中导致越狱行为的关键神经元，无需大规模重训练，从而在保持模型原有能力的同时有效消除有害行为。实验表明，EVA在多种模型上均优于现有方法，为部署后的安全对齐提供了高效且精确的解决方案。

Comments IEEE TPAMI 2026

2605.14741 2026-05-15 eess.SY cs.AI cs.SY

Addressing Terminal Constraints in Data-Driven Demand Response Scheduling

Maximilian Bloor, Martha White, Ehecatl Antonio del Rio Chanona, Calvin Tsay

AI总结本文研究了在数据驱动的需求响应调度中如何满足终端约束的问题，提出了一种结合目标空间规划（GSP）与深度确定性策略梯度（DDPG）的方法，通过学习离散子目标的时序抽象模型，有效传递长期价值，提升调度效果。该方法在模拟的空气分离系统中验证了其在提高样本效率和满足终端存储约束方面的优势，缓解了传统方法在长期约束处理上的不足。

Comments Accepted to IFAC World Congress 2026

2605.14731 2026-05-15 cs.GR cs.CV cs.SD

UMo: Unified Sparse Motion Modeling for Real-Time Co-Speech Avatars

Xiaoyu Zhan, Xinyu Fu, Chenghao Yang, Xiaohong Zhang, Dongjie Fu, Pengcheng Fang, Tengjiao Sun, Xiaohao Cai, Hansung Kim, Yuanqi Li, Jie Guo, Yanwen Guo

AI总结本文提出了一种统一的稀疏运动建模方法UMo，用于实现高保真、实时的共语义数字人动画生成。UMo通过统一处理文本、音频和运动信息，结合空间稀疏的专家混合框架和时间稀疏的关键帧设计，实现了高效实时的密集重建，能够在保证时间一致性和高保真度的同时提升生成质量。此外，UMo采用多阶段训练策略和针对性的音频增强方法，有效提升了语音-运动对齐的精度和语义一致性，为实时共语义动画提供了实用的解决方案。

2605.14671 2026-05-15 cond-mat.mtrl-sci cs.AI

Agentic Design of Compositional Descriptors via Autoresearch for Materials Science Applications

Matteo Cobelli, Stefano Sanvito

AI总结本文提出了一种基于自研（autoresearch）框架的智能代理系统Automat，用于材料科学中化学成分描述符的设计。该系统利用大型语言模型作为编码代理，自动生成仅基于化学公式的描述符，并通过随机森林进行评估，实现了对无机材料带隙和铁磁化合物居里温度的预测。研究显示，Automat在性能上优于传统基准方法，且生成的描述符具有化学可解释性，展示了无需人工特征工程即可设计任务特定材料描述符的潜力，同时也揭示了当前在描述符冗余和搜索策略等方面存在的挑战。

2605.14662 2026-05-15 math.OC cs.LG

Scalable Solution of the Stochastic Multi-path Traveling Salesman Problem via Neural Networks

Xiaochen Chou, Ludovica Di Marco, Enza Messina

AI总结本文研究了在智能城市和城市物流中出现的具有随机旅行成本的多路径旅行商问题，旨在寻找一条最小化期望总旅行成本的哈密顿回路。为解决该问题，作者提出了一种两阶段随机规划方法，并引入基于神经网络的代理模型来近似第二阶段的 recourse 问题，从而显著降低计算复杂度。实验表明，该方法在计算效率、解的质量和泛化能力方面表现良好，为处理不确定性下的复杂车辆路径问题提供了可扩展的解决方案。

2605.14629 2026-05-15 eess.IV cs.CV

Efficient Dense Matching for Enhanced Gaussian Splatting Using AV1 Motion Vectors

Julien Zouein, Vibhoothi Vibhoothi, François Pitié, Anil Kokaram

AI总结本文提出了一种基于AV1运动向量的高效密集匹配方法，用于提升高斯泼溅（3DGS）的初始点云质量。该方法利用AV1视频编解码器中的运动向量，避免了传统SfM方法中耗时的穷举匹配，显著降低了计算开销并提高了点云密度。实验表明，该方法生成的点云数量是传统SfM方法的八倍，有效提升了3DGS的重建精度和训练效率。

2605.14612 2026-05-15 cs.SE cs.AI

In-IDE Toolkit for Developers of AI-Based Features

Yaroslav Sokolov, Yury Khudyakov, Lenar Sharipov, Andrei Gasparian, Parth Tiwary, Artem Trofimov

AI总结本文提出了一种集成在JetBrains IDE中的AI Toolkit插件，旨在帮助非机器学习背景的软件工程师更便捷地测试、调试和评估基于大语言模型和智能体工作流的AI功能。该工具通过在运行/调试过程中实现追踪与评估，满足了开发者对可重复评估、实时追踪和简化设置的核心需求。实验表明，该工具能有效降低使用门槛，促进开发者形成规范的AI开发实践。

Comments Published at IDE'26 co-located with ICSE'26