arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.08388 2026-05-12 cs.AI

PLACO: A Multi-Stage Framework for Cost-Effective Performance in Human-AI Teams

Pranavkumar Mallela, Vinay Kumar, Shashi Shekhar Jha, Shweta Jain

AI总结本文提出了一种多阶段框架PLACO，旨在提升人类与AI协作团队的成本效益性能。该方法针对分类任务中人类与模型输出的融合问题，基于贝叶斯规则，在假设人类与模型输出在真实标签条件下条件独立的前提下，提出了一种结合确定性标签（人类）与概率性标签（模型）的有效策略。研究的核心贡献在于提供了一种更高效、更实用的标签融合方法，以提升整体系统性能。

2605.08386 2026-05-12 cs.AI

SkillLens: Adaptive Multi-Granularity Skill Reuse for Cost-Efficient LLM Agents

Yongliang Miao, Ziyang Yu, Liang Zhao, Bowen Zhu, Hasibul Haque

AI总结 SkillLens 是一种用于提升大语言模型智能体效率的自适应多粒度技能复用框架。该方法通过构建包含策略、策略、程序和原语的四层技能图谱，实现对技能的混合粒度检索与适配，从而在保证相关性的同时降低计算成本。SkillLens 通过语义相关性检索、图遍历扩展和验证器决策机制，实现对子技能的直接复用与局部修改，有效提升了任务执行的效率和准确性。实验表明，SkillLens 在多个基准测试中优于现有方法，显著提升了任务成功率和定位精度。

2605.08383 2026-05-12 cs.CL

Change My View? The Dynamics of Persuasion and Polarization in Online Discourse

David Freeborn, Malihe Alikani, Anthony Sicilia

AI总结本文研究了在线辩论中说服与极化现象的动态过程，通过分析Reddit平台上“ChangeMyView”论坛的讨论数据，探讨了哪些修辞策略更有可能促成观点改变。研究利用大型语言模型预测观点转变的可能性，并结合人工标注的十种修辞策略，发现让步和共情等策略显著提升观点转变的可能，而直接反驳、攻击可信度等策略则会削弱这种可能性。研究指出，有效的公共论证不仅依赖于证据内容，还与关系框架密切相关。

2605.08377 2026-05-12 cs.LG stat.ML

Embedding Dimension Lower Bounds for Universality of Deep Sets and Janossy Pooling

Ali Syed, Aditya Nambiar, Jonathan W. Siegel

AI总结本文研究了在点云数据中实现排列对称性的深度神经网络架构的通用性问题，重点分析了Deep Sets和Janossy Pooling方法所需的嵌入维度下界。通过提出一种新方法，作者证明了保证这些架构通用性的嵌入维度的新的下界，其中对于Deep Sets，结果在维度大于1时给出了正确的最小嵌入维度（相差常数因子），而对于$k$-元Janossy Pooling，这是首次证明了$k > 1$时的非平凡下界。

2605.08376 2026-05-12 cs.CV

UIESNN: A Scale-Aware Spiking Network for Underwater Image Enhancement

Shuang Chen, Ruochen Li, Zihan Zhu, Ronald Thenius, Farshad Arvin, Amir Atapour-Abarghouei

AI总结本文提出了一种面向水下图像增强的尺度感知脉冲神经网络UIESNN，旨在解决水下图像中大范围、低频退化问题，如波长依赖的颜色偏移和散射引起的雾化效应。核心方法是引入多尺度池化LIF块（MPLB），通过注入多尺度池化响应到膜电位动态中，扩大感受野并保持细节，同时激发异构的尺度依赖激活。基于MPLB设计的脉冲残差架构结合了频率分解和注意力细化，在全脉冲驱动流程中实现更优的增强效果。实验表明，UIESNN在多个基准数据集上取得了基于SNN方法的最先进性能，具有更高的颜色保真度和空间一致性。

2605.08373 2026-05-12 cs.CV cs.AI

NeuroGAN-3D: Enhancing Intrinsic Functional Brain Networks via High-Fidelity 3D Generative Super-Resolution

M. Moein Esfahani, Sepehr Salem Ghahfarokhi, Mohammed Alser, Jingyu Liu, Vince Calhoun

AI总结本文提出了一种名为NeuroGAN-3D的三维生成超分辨率模型，旨在提升静息态功能磁共振成像（rs-fMRI）空间图的分辨率，从而更精确地刻画大脑功能网络。该模型基于生成对抗网络架构，有效增强了脑功能图谱的空间细节，显著优于传统方法。研究为深入理解大脑结构与功能的关系，以及相关疾病机制提供了更精细的影像学工具。

Comments Accepted in ICCABS 2026: The 14th International Conference on Computational Advances in Bio and Medical Sciences

2605.08371 2026-05-12 cs.CV

PaceVGGT: Pre-Alternating-Attention Token Pruning for Visual Geometry Transformers

Haotang Li, Zhenyu Qi, Shaohan Henry Wang, Kebin Peng, Zi Wang, Qing Guo, Sen He, Huanrui Yang

AI总结本文提出了一种名为PaceVGGT的预交替注意力（AA）标记剪枝框架，旨在加速视觉几何变换器（VGGT）在处理长序列3D任务时的计算效率。该方法通过在冻结的VGGT模型中引入轻量级的标记评分器，在首次AA模块之前对DINO特征中的标记进行剪枝，从而减少输入序列长度。实验表明，PaceVGGT在保持重建质量的同时显著降低了推理延迟，尤其在ScanNet-50和7-Scenes数据集上表现优异。

2605.08368 2026-05-12 cs.AI cond-mat.stat-mech cs.LG

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Yuhao Li, Shengchao Liu

AI总结本文从自由能视角探讨了大语言模型后训练中“能力激发”与“能力创造”的区别。研究指出，后训练方法如监督微调（SFT）和强化学习（RL）并非本质区别，关键在于训练过程是重新权衡模型已有能力范围内的行为，还是扩展了模型可实现的行为空间。通过引入“可访问支持”概念，作者提出后训练应区分这两种机制，并认为核心问题不在于使用SFT还是RL，而在于训练是否扩展了模型的行为边界。

2605.08366 2026-05-12 cs.LG cs.SE

SWE Atlas: Benchmarking Coding Agents Beyond Issue Resolution

Mohit Raghavendra, Soham Dan, Miguel Romero Calvo, Yannis Yiming He, Johannes Baptist Mols, Gautam Anand, Cole McCollum, Edgar Arakelyan, Vijay Bharadwaj, Andrew Park, Jeff Da, MohammadHossein Rezaei, Bing Liu, Brad Kenstler, Yunzhong He

AI总结本文介绍了SWE Atlas，一个用于评估代码生成智能体的基准测试套件，涵盖代码库问答、测试编写和重构三个专业软件工程流程。该基准不同于以往的SWE基准，聚焦于实践中重要但较少被关注的任务类别，并采用更贴近现实场景的评估方式，综合考量代码功能正确性及软件工程质量。实验表明，尽管顶级模型在某些任务上表现优异，但在处理复杂运行时分析和遵循最佳实践方面仍存在明显不足。

Comments 10 pages

2605.08360 2026-05-12 cs.AI

Embeddings for Preferences, Not Semantics

Carter Blair, Ariel D. Procaccia, Milind Tambe

AI总结本文研究了如何将自由文本形式的意见嵌入向量空间，以支持集体决策中的偏好建模。传统文本嵌入关注语义相似性，而集体决策需要衡量偏好相似性，即意见之间的距离应反映参与者的认同程度。作者指出，现有嵌入方法因语义与偏好信号的混淆而存在偏差，并提出通过设计打破这种相关性的训练数据，可以显著提升偏好预测性能。

Comments 28 pages

2605.08354 2026-05-12 cs.AI

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

Juanxi Tian, Fengyuan Liu, Jiaming Han, Yilei Jiang, Yongliang Wu, Yesheng Liu, Haodong Li, Furong Xu, Wanhua Li

AI总结该研究旨在解决多模态生成模型与人类偏好对齐的问题，提出了一种名为Auto-Rubric as Reward（ARR）的框架，通过将隐式的偏好结构转化为显式的、可解释的评分标准，提升奖励信号的可靠性和可解释性。核心方法包括外部化视觉语言模型的偏好知识为具体评分细则，并引入Rubric Policy Optimization（RPO）优化生成策略，从而在生成训练中实现更稳定和高效的学习。实验表明，该方法在文本到图像生成和图像编辑任务中优于传统奖励模型，验证了显式结构化评分标准在提升多模态对齐效果中的有效性。

Comments 28 pages, 10 figures, 11 tables

2605.08348 2026-05-12 cs.CL

How Much Do Circuits Tell Us? Measuring the Consistency and Specificity of Language Model Circuits

Michael Li, Nishant Subramani

AI总结该研究探讨了语言模型中电路（circuit）的可重复性和任务特异性，发现同一任务内的电路组件高度重复，并且这些组件对任务表现至关重要。然而，不同任务之间的电路存在大量重叠，表明当前发现的电路并不具备明显任务特异性，这引发了关于电路能否支持针对性模型理解与干预的疑问。研究通过六项任务和七种模型的实验，揭示了电路在因果重要性上的普遍性与局限性。

2605.08346 2026-05-12 cs.CL cs.AI

Sanity Checks for Long-Form Hallucination Detection

Geigh Zollicoffer, Minh Vu, Hongli Zhan, Raymond Li, Manish Bhattarai

AI总结本文研究了大语言模型中长文本幻觉检测方法的有效性问题，指出现有方法可能依赖于最终答案的表面特征而非推理过程本身。为此，作者提出了一种可控不变性方法，通过两个实验（Force 和 Remove）区分模型是基于推理结构还是答案线索进行判断。研究进一步表明，去除答案相关干扰后，基于词法轨迹特征的轻量级检测方法 TRACT 在保持鲁棒性的同时，性能不逊于现有复杂模型，揭示了当前幻觉检测的核心挑战在于如何从最终答案线索中分离出有效的推理信号。

2605.08344 2026-05-12 cs.LG

What Time Is It? How Data Geometry Makes Time Conditioning Optional for Flow Matching

Alec Helbling, Sebastian Gutierrez Hernandez, Benjamin Hoover, Duen Horng Chau, Parikshit Ram

AI总结本文研究了在无需显式时间条件的情况下训练流匹配模型的可行性，挑战了传统观点认为时间插值对速度目标的歧义性消解是必要的。通过分解无时间感知的损失函数，作者识别出两种不可约误差来源，并发现高维数据的几何特性使得时间可以从噪声观测中直接识别。实验表明，耦合方式的选择对模型性能影响更大，而非时间条件本身。

2605.08343 2026-05-12 cs.LG cs.CR cs.DC

Private Vertical Federated Inference for Time-Series

Lucas Fenaux, Larris Xie, Aditya Bang, Alex Zhang, Kevin Wilson, Florian Kerschbaum

AI总结在多方协作处理时间序列数据时，隐私保护是一个重要挑战。本文提出了一种混合垂直联邦学习框架PPHH-VFL，通过将模型头部分为高效的明文公共部分和安全的轻量级MPC私有部分，兼顾了效率与隐私保护。实验表明，该方法在保持高下游任务性能的同时，显著提升了推理速度并大幅降低了通信开销。

2605.08334 2026-05-12 cs.CL

SalesSim: Benchmarking and Aligning Multimodal Language Models as Retail User Simulators

Yada Pruksachatkun, Elaine Wan, Lyanna Chen, Kai-Wei Chang, Chien-Sheng Wu

AI总结本文提出 SalesSim，一个用于评估多模态大语言模型在模拟真实零售场景中用户行为能力的框架和测试平台。研究通过构建多轮、多模态、工具增强的对话环境，模拟具有不同背景和偏好的购物者与销售代理的互动过程，并设计了一系列衡量决策一致性和对话质量的指标。实验发现现有模型在语言多样性、行为一致性等方面存在明显不足，为此作者提出 UserGRPO 强化学习方法，有效提升了模型的决策对齐度和对话质量，为多模态用户模拟器的研究提供了新的基准和改进方向。

2605.08333 2026-05-12 cs.LG cs.AI cs.CL cs.PF cs.SE

CDS4RAG: Cyclic Dual-Sequential Hyperparameter Optimization for RAG

Pengzhou Chen, Tao Chen

AI总结检索增强生成（RAG）系统对检索器和生成器的超参数高度敏感，但利用给定查询进行优化因交互复杂和评估成本高而极具挑战。本文提出CDS4RAG框架，通过一种新的循环双序优化方法，分别对检索器和生成器的超参数进行交替优化，提升了优化效率和效果。该框架具有算法无关性，能够与多种通用算法结合，并在多个基准测试中显著提升了生成质量，优于现有先进方法。

Comments Accepted by main track at IJCAI 2026

2605.08330 2026-05-12 cs.RO

Hierarchical Prompting with Dual LLM Modules for Robotic Task and Motion Planning

Karolina Źróbek, Tessa Pulli, Paweł Gajewski, Antonio Galiza Cerdeira Gonzalez, Bipin Indurkhya

AI总结本文提出了一种基于语言的分层框架，用于机器人任务与运动规划，旨在提升服务与辅助场景中人机交互的自然性和直观性。该方法采用两个大语言模型模块，高层规划代理负责处理自然语言指令并生成动作序列，底层空间推理模块则处理精确的空间操作，如物体放置。实验表明，该系统在24种测试场景中实现了86%的任务成功率，展示了其在复杂指令理解和执行方面的有效性。

2605.08329 2026-05-12 cs.CV eess.IV

An Efficient Token Compression Framework for Visual Object Tracking

Weijing Wu, Qihua Liang, Bineng Zhong, Haiying Xia, Zhiyi Mo, Shuxiang Song

AI总结本文提出了一种高效的视觉目标跟踪令牌压缩框架ETCTrack，旨在解决基于Transformer的跟踪器因使用大量历史模板帧而导致的计算负担重和性能下降问题。该方法通过自适应令牌压缩模块动态生成紧凑且具有判别力的模板令牌，并结合层次交互编码器实现与搜索区域特征的深度交互，从而在减少计算量的同时保持跟踪精度。实验表明，该方法在七个基准数据集上优于现有先进方法，模板令牌数量减少60%，计算量降低21.4%，精度仅下降0.4%。

Comments Accepted by CVPR2026

2605.08327 2026-05-12 cs.LG cs.AI

Interactive Critique-Revision Training for Reliable Structured LLM Generation

Fei Xu Yu, Zuyuan Zhang, Mahdi Imani, Nathaniel D. Bastian, Tian Lan

AI总结在结构化决策流程中，如表单填写、合规检查和维护报告，大语言模型（LLM）生成的内容需要满足局部正确、全局一致且可审计的要求。本文提出了一种名为DPA-GRPO的配对动作训练方法，通过生成器与验证器之间的博弈，结合结构化验证干预，提升模型输出的可靠性。实验表明，该方法在多个基准测试中显著提高了结构化决策的准确性，并增强了生成器与验证器的行为表现。

2605.08326 2026-05-12 cs.LG cs.AI

LLM Advertisement based on Neuron Auctions

Peiran Yun, Wenxin Xu, Jiayuan Liu, Yihang Zhang, Liang Zeng, Lingkai Kong, Tonghan Wang

AI总结随着大语言模型（LLM）逐渐应用于对话场景，生成式广告成为重要的变现方式，但如何在保持语义连贯性的同时平衡广告商收益、平台收入和用户体验仍是一个挑战。本文提出基于神经元拍卖的LLM广告方法，通过挖掘模型内部表示空间中的品牌特异性神经元，构建了一个连续的、可解耦的干预预算体系，并设计了一种保证策略证明性的菜单式拍卖机制，从而在保障对话质量的同时实现商业利益与用户满意度的最优平衡。

Comments 17 pages, 9 figures, including appendices

2605.08323 2026-05-12 cs.LG cs.AI

The Reciprocity Gradient

Yue Lin, Pascal Poupart, Shuhui Zhu, Dan Qiao, Wenhao Li, Yuan Liu, Hongyuan Zha, Baoxiang Wang

AI总结在战略交互中，沟通对于维持互惠与合作至关重要。本文提出了一种新的优化难题——影响归因问题，即智能体在决策时需考虑其行为对第三方声誉的间接影响，并据此调整自身策略。为此，研究引入了“互惠梯度”方法，通过对手策略的公共观测训练私有估计器，显式地将奖励梯度反向传播至声誉链中，从而在无需内在奖励的情况下联合优化动作与评价信号，实验表明该方法能有效学习接近最优的上下文敏感策略。

2605.08321 2026-05-12 cs.LG cs.AI cs.CY cs.HC cs.MA

LLM Wardens: Mitigating Adversarial Persuasion with Third-Party Conversational Oversight

Lennart Wachowiak, Scott D. Blain, David Williams-King, Samuele Marro

AI总结随着大型语言模型（LLM）在劝说方面的能力增强，如何保护用户免受操控成为一个重要问题。本文提出了一种“守卫者”模型（warden），它作为第三方实时监控人与AI的互动，并在检测到潜在操控时向用户发出非强制性建议。实验表明，这种机制能显著降低对抗性LLM的成功率，且即使守卫者模型能力弱于被监控模型，也能提供有效的防护，为大规模模型监督提供了可行路径。

2605.08317 2026-05-12 cs.LG cs.AI

RDKV: Rate-Distortion Bit Allocation for Joint Eviction and Quantization of the KV Cache

Junkai Zhang, Hang Guo, Luca Benini, Yawei Li

AI总结大型语言模型在处理长输入上下文时面临内存和带宽瓶颈，现有的KV缓存压缩方法通常单独考虑淘汰或量化策略。本文将KV缓存压缩建模为率失真问题，提出RDKV方法，统一优化淘汰与量化策略，通过计算每个token或通道的压缩失真权重，结合逆水位填充算法分配位宽，实验表明RDKV在保持性能的同时显著提升了推理速度和内存效率。

2605.08315 2026-05-12 cs.LG

Reflective Prompted Policy Optimization: Trajectory-Grounded Revision and Salience Bias

Rahaf Abu Hara, Vaibbhav Murarri, Claudio Zito

AI总结现有基于大语言模型（LLM）的策略优化方法仅依赖标量奖励信号，缺乏对策略执行轨迹的详细行为分析。本文提出了一种两阶段的LLM框架——Reflective Prompted Policy Optimization（R2PO），通过结合轨迹级别的行为证据，提升策略搜索的效果。R2PO引入搜索模型和评估模型分别生成策略参数和针对性改进建议，并通过轨迹统计分析和中位轨迹选择等机制缓解了显著性偏差问题，在多个环境中表现出更优的收敛速度和稳定性。

详情

英文摘要

Existing LLM-based policy optimizers see only scalar rewards: that a policy scored 0.45, but not whether the agent got stuck in a loop, fell into a hole on the third step, or performed well on 19 out of 20 rollouts and failed catastrophically on one. We propose Reflective Prompted Policy Optimization (R2PO), a two-stage LLM framework for policy search over compact policy classes that augments scalar reward feedback with trajectory-level behavioral evidence. A Search-LLM proposes candidate policy parameters; the environment executes them; a Critic-LLM inspects the resulting rollouts and proposes targeted revisions grounded in observed states, actions, and rewards. Across ten environments, ablations show R2PO's gains require separating global search from behavior-grounded revision and using selection to filter high-variance edits. We further identify a dominant failure mode, salience bias: when presented with multiple rollouts, the Critic-LLM fixates on improving a single failure even when most trajectories succeed. In a three-trajectory variant where the Critic-LLM sees the best, worst, and median rollout, this behavior explains 76.6% of regressions on CartPole. R2PO mitigates this by reasoning over aggregate rollout statistics, median-trajectory selection, and a revision rule. Using a 20B open-weight model, R2PO achieves the highest mean best reward across all ten environments, reaches near-optimal performance substantially earlier (e.g., near-maximum CartPole reward within ~500 episodes), and trains far more stably than both deep RL and prior LLM-based methods. These results show that treating trajectories as first-class in-context evidence, rather than artifacts reduced to scalar returns, changes how even comparatively small LLMs search over policy spaces, enabling them to learn faster, diagnose more precisely, and reliably improve external controllers.

URL PDF HTML ☆

赞 0 踩 0

2605.08314 2026-05-12 cs.LG cs.AI cs.PF

FlashSVD v1.5: Making Low-Rank Transformers Inference Actually Fast

Wenhao Wu, Zishan Shao, Kangning Cui, Jinhee Kim, Yixiao Wang, Hancheng Ye, Danyang Zhuo, Yiran Chen

AI总结本文研究了基于SVD的低秩压缩技术在实际大语言模型推理加速中的应用问题，指出尽管该方法在参数和计算量上有所减少，但实际推理速度提升有限。为此，作者提出了FlashSVD v1.5，一个统一的推理运行时系统，通过优化执行路径、融合特定阶段的内核以及利用CUDA图等技术，显著提升了低秩压缩模型的推理效率。实验表明，该方法在多个主流低秩压缩方案中实现了显著的解码和端到端加速效果，表明实际加速需要运行时与压缩算法的协同设计。

2605.08311 2026-05-12 cs.LG cs.CV

Revitalizing the Beginning: Avoiding Storage Dependency for Model Merging in Continual Learning

Xi Wang, Cheng Deng

AI总结在持续学习中，模型合并旨在将多个专家模型整合为统一的多任务模型，但受限于存储条件，难以有效保存多样化的历史知识。本文系统分析了现有合并方法的不足，发现其过度关注全局对齐，导致任务特定错误累积，并在新任务开始时因梯度消失而优化停滞。为此，提出轨迹正则化合并（TRM）框架，通过在扩展轨迹子空间中进行优化，同时实现任务对齐、预测一致性和梯度响应，有效保持模型历史稳定性并重新激活优化过程，实验表明该方法在多个基准上达到先进水平。

2605.08308 2026-05-12 cs.LG cs.AI eess.SP

Practical Wi-Fi-based Motion Recognition Under Variable Traffic Patterns

Guolin Yin, Junqing Zhang, Guanxiong Shen, Simon L. Cotton

AI总结本文研究了在变通量Wi-Fi传输环境下实现高效人体运动识别的问题，提出了基于Transformer架构的采样率自适应神经网络（SRV-NN），以应对不规则的采样率和信号长度。通过引入动态采样率增强策略，该方法在多种采样条件下均表现出优异的性能和稳定性，实验结果表明其在平均准确率上显著优于传统方法。

Comments 17 Pages

2605.08305 2026-05-12 cs.LG cs.AI cs.CL cs.PF cs.SE

LLMSYS-HPOBench: Hyperparameter Optimization Benchmark Suite for Real-World LLM Systems

Siyu Wu, Yulong Ye, Zezhen Xiang, Pengzhou Chen, Gangda Xiong, Tao Chen

AI总结本文介绍了LLMSYS-HPOBench，这是首个针对真实世界大语言模型（LLM）系统的超参数优化（HPO）基准测试套件。该基准涵盖了从实际运行中采集的超参数配置及其性能指标、保真度因素和成本数据，包含数十万条配置记录和多种评估指标，旨在为AutoML社区提供一个用于验证现有HPO算法并探索新研究方向的平台。

2605.08303 2026-05-12 cs.LG cs.AI

GNN for Structural Displacement Prediction

Hung-Fu Chang, Tzu-Kang Lin, Yung-Li Cheng

AI总结本文研究了基于图神经网络（GNN）的结构位移预测方法，旨在解决传统有限元方法计算成本高、不适用于实时监测的问题。该方法将结构系统建模为图，节点表示连接点，边表示结构构件，并结合几何与力学特性进行数据驱动的预测。实验表明，与传统神经网络相比，所提出的GNN框架在预测精度上更具优势，展示了其作为高效替代方案的潜力。

Comments 12 pages