arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.12350 2026-05-15 cs.LG cs.AI

A New Technique for AI Explainability using Feature Association Map

Sayantani Ghosh, Amit Kumar Das, Amlan Chakrabarti

AI总结本文提出了一种基于特征关联图（FAM）的新型可解释人工智能算法FAMeX，用于解释AI系统的决策过程。该方法通过构建特征之间的关联图，从图论角度分析特征的重要性，从而更准确地揭示模型的决策依据。实验表明，FAMeX在分类任务中优于现有的可解释性算法如PFI和SHAP，展现出更高的解释能力和有效性。

2605.12055 2026-05-15 cs.CL

Do Language Models Encode Knowledge of Linguistic Constraint Violations?

Hardy, Sebastian Padó

AI总结本研究探讨了大型语言模型（LLMs）是否在其参数中编码了对语言约束违反的表征，并在处理不合语法的句子时选择性激活这些表征。研究采用稀疏自编码器分解多义激活，提取可能与违反相关的特征，并引入敏感性评分以识别这些特征在违反约束输入中的激活情况。实验结果显示，现有语言模型中并未形成统一的语法违反检测机制，不同语言现象之间也缺乏共享的特征一致性。

2605.11853 2026-05-15 cs.LG cs.AI cs.CL

GEAR: Granularity-Adaptive Advantage Reweighting for LLM Agents via Self-Distillation

Sijia Li, Yuchen Huang, Zifan Liu, Yanping Li, Jingjing Fu, Li Zhao, Jiang Bian, Ling Zhang, Jun Zhang, Rui Wang

AI总结该论文提出了一种名为GEAR的粒度自适应优势重加权方法，旨在提升大语言模型代理在强化学习中的训练效果。GEAR通过自蒸馏技术，利用token级和段级信号对轨迹级优势进行重加权，从而实现更细粒度的信用分配。该方法通过比较策略网络与教师模型的差异，动态调整信用区域的粒度，有效提升了长期轨迹中的策略更新效率。实验表明，GEAR在多个数学推理和工具使用基准中优于现有方法，尤其在基础较弱的基准上表现突出。

2605.11775 2026-05-15 cs.LG cs.CL

Entropy Polarity in Reinforcement Fine-Tuning: Direction, Asymmetry, and Control

Jiazheng Zhang, Ziche Fu, Junrui Shen, Yunbin Zhao, Yunke Zhang, Zhiheng Xi, Long Ma, Chenxin An, Zhihao Zhang, Shichun Liu, Dingwei Zhu, Shihan Dou, Shaofan Liu, Han Li, Wiggin Zhou, Aiden Adams, Tao Gui, Fei Huang, Qi Zhang, Xuanjing Huang

AI总结本文研究了强化学习中策略熵的极性特性，提出了熵极性这一新的概念，用于预测策略更新对熵的影响方向。通过理论分析，揭示了熵变化的结构不对称性，并基于此提出了一种新的策略优化方法PAPO，通过优势重加权实现对熵的精确控制。实验表明，PAPO在数学推理和智能体基准任务中表现出更优的训练效率和奖励提升效果。

2605.11611 2026-05-15 cs.AI

CuSearch: Curriculum Rollout Sampling via Search Depth for Agentic RAG

Jianghan Shen, Siqi Luo, Xinyu Cheng, Jing Xiong, Yue Li, Jiyao Liu, Jiashi Lin, Yirong Chen, Junjun He

AI总结本文提出了一种名为 CuSearch 的课程式 rollout 采样框架，用于改进基于可验证奖励的强化学习（RLVR）中智能体检索增强生成（RAG）系统的训练。该方法通过搜索深度（search depth）来动态调整 rollout 采样策略，更关注那些包含更多检索决策点、提供更密集监督的深层搜索轨迹。实验表明，CuSearch 能够显著提升不同模型和检索框架下的性能，为 RLVR 训练提供了一种无需人工标注的有效优化手段。

2605.11459 2026-05-15 cs.RO cs.AI cs.CV cs.LG

Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models

Yanyan Zhang, Chaoda Song, Vikash Singh, Xinpeng Li, Kai Ye, Zhe Hu, Zhongzhu Pu, Yu Yin, Vipin Chaudhary

AI总结视觉-语言-动作（VLA）模型在灵活性和泛化能力方面表现出色，但大多数现有模型由于采用单帧观测范式，无法感知时间动态变化，导致在非静态环境中性能显著下降。本文提出了一种无需训练的“节奏与路径校正”方法，通过在推理阶段对分块动作的VLA模型进行闭式修正，有效补偿动态变化带来的影响。该方法从单一二次成本函数出发，通过联合优化得到两个正交分解的通道，分别用于压缩执行节奏和调整空间路径，从而在动态环境中显著提升任务成功率。

2605.11410 2026-05-15 cs.AI

What Do EEG Foundation Models Capture from Human Brain Signals?

Ling Tang, Qian Chen, Jilin Mei, Houshi Xu, Quanshi Zhang, Jing Shao, Na Zou, Xia Hu, Dongrui Liu

AI总结该研究探讨了EEG基础模型从人类脑电信号中学习到了哪些信息，并分析了其表征与传统手工特征之间的关系。通过层间岭回归、跨协方差子空间擦除等方法，研究发现EEG基础模型在多个临床任务中表现出色，其优势主要来源于频率域特征及其他多种手工特征的组合。研究还揭示了不同任务中模型性能的差异，并为未来特征发现提供了明确方向。

2605.10664 2026-05-15 cs.CL cs.AI

Prompt-Activation Duality: Improving Activation Steering via Attention-Level Interventions

Diancheng Kang, Zheyuan Liu, Ningshan Ma, Yue Huang, Zhaoxuan Tan, Meng Jiang

AI总结该论文研究了如何在对话场景中更有效地控制语言模型的行为，提出了一种新的激活引导方法，以解决传统方法在长对话中累积失效的问题。作者发现，键值缓存污染是导致引导效果下降的主要原因，并提出了一种基于门控裁剪注意力差值的引导方法（GCAD），通过系统提示对自注意力机制的影响进行引导信号提取，并在词元级别进行门控处理。实验表明，该方法在保持角色特征控制的同时，显著提升了长对话中的连贯性与角色表现能力。

Comments 23 pages, 5 figures. This paper proposes GCAD, an attention-level activation steering method for more stable multi-turn behavior control

2605.10550 2026-05-15 cs.CL

Multi-domain Multi-modal Document Classification Benchmark with a Multi-level Taxonomy

Denghao Ma, Qing Liu, Zulong Chen, Chuanfei Xu, Jia Xu, Zhibo Yang, Wei Shao, Zhao Li

AI总结本文提出一个名为MMM-Bench的多领域、多模态文档分类基准，旨在解决现有文档分类基准过于简化的问题。该基准构建了一个包含五个层级的深度分类体系，并收集了来自阿里巴巴12个商业领域的5990份真实多模态文档，每份文档均由领域专家标注完整的层次路径。研究通过建立全面的基线模型，系统分析了该基准中的四个核心挑战，并提出了相应的研究见解，为多层级、多领域文档分类的研究提供了坚实的基础。

2605.10496 2026-05-15 cs.CV

M$^2$E-UAV: A Benchmark and Analysis for Onboard Motion-on-Motion Event-Based Tiny UAV Detection

Weiqi Yan, Lixin Chen, Xiangrui Hou, Zhipeng Cai, Youbiao Wang, Yangyang Shi, Yu Zang, Cheng Wang

AI总结本文提出M$^2$E-UAV，首个针对运动中事件相机的微型无人机检测数据集与基准，旨在解决在观察者与目标同时运动的情境下，无人机检测面临的背景事件干扰严重、目标稀疏等问题。该数据集包含同步的事件流和IMU数据，并提供了基于时间传播的无人机前景标注，适用于多种表示方法的模型评估。实验表明，现有方法在面对稀疏目标和密集背景事件时仍存在较大局限。

2605.10364 2026-05-15 cs.LG

DeepLévy: Learning Heavy-Tailed Uncertainty in Highly Volatile Time Series

Yang Yang, Du Yin, Hao Xue, Flora Salim

AI总结本文研究了在具有重尾分布的高波动时间序列中建模不确定性这一关键问题，提出了一个名为DeepLévy的深度学习框架。该方法利用Lévy稳定分布的特性，通过最小化经验特征函数与参数化特征函数之间的差异来学习混合Lévy分布，从而有效捕捉极端事件的不确定性。实验表明，DeepLévy在尾部风险指标上优于现有先进方法，尤其在高波动环境下表现突出。

2605.10310 2026-05-15 cs.AI cs.CY cs.HC q-bio.NC

Positive Alignment: Artificial Intelligence for Human Flourishing

Ruben Laukkonen, Seb Krier, Chloé Bakalar, Shamil Chandaria, Morten Kringelbach, Adam Elwood, Daniel Ford, Fernando Rosas, Maty Bohacek, Matija Franklin, Nenad Tomašev, Stephanie Chan, Verena Rieser, Roma Patel, Michael Levin, Arun Rao

AI总结本文提出“积极对齐”（Positive Alignment）的概念，旨在开发能够主动支持人类和生态繁荣的人工智能系统，同时保持安全与合作。与现有聚焦于安全与风险防范的对齐研究不同，积极对齐强调系统应具备多元、去中心化、情境敏感及用户主导的特性，并通过培养美德、促进人类福祉来解决当前对齐中的诸多问题。文章还提出了在大语言模型和智能体生命周期中的一系列技术方向与设计原则，以推动分歧包容与去中心化治理。

2605.10289 2026-05-15 cs.LG stat.ML

Sample-Mean Anchored Thompson Sampling for Offline-to-Online Learning with Distribution Shift

Bochao Li, Yao Fu, Wei Chen, Fang Kong

AI总结本文研究了在分布偏移场景下的离线到在线学习问题，旨在利用离线数据提升在线决策性能。为了解决传统汤普森采样（TS）在处理分布偏移时的估计偏差问题，作者提出了基于样本均值锚定的汤普森采样（Anchor-TS），通过引入中位数锚定规则，有效校正了分布偏移带来的估计偏差，提升了算法的稳定性和性能。理论分析表明该方法能够安全利用离线数据加速在线学习，并通过实验验证了其在多种场景下的优越性。

2605.10195 2026-05-15 cs.LG

Breaking the Reward Barrier: Accelerating Tree-of-Thought Reasoning via Speculative Exploration

Shuzhang Zhong, Haochen Huang, Shengxuan Qiu, Pengfei Zuo, Runsheng Wang, Meng Li

AI总结树-of-Thought（ToT）推理通过树状搜索结构提升大语言模型在复杂任务中的表现，但其效率受限于奖励依赖性屏障带来的同步瓶颈。本文提出SPEX方法，通过推测性探索打破该限制，引入路径选择、资源分配和早停机制等关键技术，显著提升ToT推理效率。实验表明，SPEX在多种ToT算法和模型上实现了1.2到3倍的加速，并与令牌级推测解码结合后最高达到4.1倍的加速效果，为高效可扩展的ToT推理提供了重要进展。

Comments OSDI 2026

2605.09825 2026-05-15 cs.LG cs.AI

Pretraining large language models with MXFP4 on Native FP4 Hardware

Musa Cim, Poovaiah Palangappa, Miro Hodak, Ravi Dwivedula, Meena Arunachalam, Mahmut Taylan Kandemir

AI总结本文研究了在原生FP4硬件上使用MXFP4量化进行大语言模型预训练时出现的训练不稳定性问题。通过控制实验，逐步启用FP4在前向传播、激活梯度和权重梯度中，发现权重梯度的量化是导致收敛性能下降的主要原因。研究进一步表明，确定性哈达玛旋转能够有效恢复稳定优化，而随机化方法则无法做到这一点，揭示了训练不稳定性源于敏感梯度路径上的结构化微缩误差，而非随机性不足。实验在AMD Instinct MI355X GPU上进行，无需依赖软件模拟即可验证这些结论。

2605.09094 2026-05-15 cs.LG

A Tale of Two Problems: Multi-Task Bilevel Learning Meets Equality Constrained Multi-Objective Optimization

Zhiyao Zhang, Myeung Suk Oh, Zhen Qin, Jiaxiang Li, Xin Zhang, Jia Liu

AI总结本文研究了多任务双层学习（MTBL）问题，并首次在弱化下层目标泛凸性假设的前提下，将其转化为等式约束多目标优化（ECMO）问题。为了解决ECMO这一新型问题，作者提出了基于KKT条件的帕累托平稳性收敛标准，并设计了一种加权切比雪夫惩罚算法，该算法在确定性和随机性设置下均具有有限时间收敛性。该方法能够系统探索帕累托前沿，且原问题与ECMO问题的解具有直接对应关系，从而建立了双层优化与多目标优化之间的理论联系。

2605.09038 2026-05-15 cs.AI

SearchSkill: Teaching LLMs to Use Search Tools with Evolving Skill Banks

Jinchao Hu, Meizhi Zhong, Kehai Chen, Min Zhang

AI总结本文提出了一种名为SearchSkill的框架，旨在教会大语言模型更有效地使用搜索工具，特别是在开放域问答任务中。该方法通过可复用的搜索技能库显式规划查询过程，模型在每一步先选择一个技能，再根据该技能生成搜索或回答动作。技能库会随着训练过程中的失败模式不断进化和优化，从而提升搜索效率和答案准确性。实验表明，SearchSkill在多个知识密集型问答基准上提升了精确匹配率，并改善了搜索行为，如减少复制初始查询、生成更聚焦的查询以及在有限搜索预算下获得更准确的答案。

2605.09028 2026-05-15 cs.LG

Diagnosing and Mitigating Domain Shift in Permission-Based Android Malware Detection

Md Rafid Islam

AI总结本文研究了基于权限的Android恶意软件检测模型在面对领域偏移时的性能下降问题，通过两个互补数据集和五种集成分类器，揭示了模型在不同领域间表现的显著不对称性，并发现特征重要性在不同领域间高度不稳定。研究进一步提出了一种基于共性特征的混合训练策略，有效提升了跨领域检测性能，为构建鲁棒的恶意软件检测系统提供了重要参考。

2605.09027 2026-05-15 cs.CL cs.AI cs.LG cs.MA

GAMBIT: A Three-Mode Benchmark for Adversarial Robustness in Multi-Agent LLM Collectives

Alexandre Le Mercier, Chris Develder, Thomas Demeester

AI总结在多智能体系统中，一个欺骗性智能体可能破坏整个智能体集体的性能并绕过防御机制。为解决现有研究在对抗性鲁棒性评估上的不足，本文提出GAMBIT基准，包含三种评估模式和两种独立评分，用于评估伪装智能体检测器的性能，特别关注其在分布偏移和新型攻击下的适应能力。GAMBIT基于国际象棋构建，引入了可泛化的自适应欺骗智能体，并提供了27,804个标注样本，揭示了零样本评估在面对自适应对手时可能产生误导性结果，同时展示了快速校准方法在对抗性系统中的有效性。

Comments 46 pages, 16 figures

详情

英文摘要

In multi-agent systems (MAS), a single deceptive agent can nullify all gains of an agentic AI collective and evade deployed defenses. However, existing adversarial studies on MAS target only shallow tasks and do not consider adaptive adversaries, which evolve their strategies to evade the very detectors trained to catch them. To address that gap, we introduce GAMBIT, a benchmark with three evaluation modes and two independent scores for evaluating imposter detectors: the first two modes measure zero-shot detection under increasing distribution shift, and a third recalibration mode measures how quickly a detector adapts to novel attacks from just 20 labeled examples. The benchmark comes with a dataset of 27,804 labeled instances spanning 240 co-evolved imposter strategies. Our contributions are threefold: (1) Using chess as a substrate deep reasoning problem and Gemini 3.1 Pro for agents, we release GAMBIT and its dataset to evaluate imposter detectors under realistic constraints against a stealthy adaptive imposter; (2) We introduce an adaptive imposter agent based on an efficient evolutionary framework, generalizable beyond chess, that collapses collective task performance while remaining essentially undetectable (50.5% F1-score with a Gemini-based detector); (3) We show that zero-shot evaluation can be highly misleading for adaptive adversaries: two detectors with near-identical zero-shot scores differ by 8x on few-shot adaptation, while the meta-learned variant converges 20x faster, a gap only visible in the recalibration mode. Altogether, GAMBIT provides the first multi-agent benchmark where adversarial attacks and defenses co-evolve, with an imposter framework generalizable beyond our use case, and promising techniques for fast recalibration in a rapidly evolving adversarial system. Code and data: https://anonymous.4open.science/r/gambit.

URL PDF HTML ☆

赞 0 踩 0

2605.08913 2026-05-15 cs.LG cs.AR cs.CL cs.PF

Non-Monotonic Latency in Apple MPS Decoding: KV Cache Interactions and Execution Regimes

Willy Fitra Hendria

AI总结本文研究了在苹果MPS后端进行Transformer解码时出现的非单调延迟现象，即随着解码长度增加，延迟并非平稳增长，而是在某些配置下突然大幅上升。通过多类模型实验，发现延迟峰值可达正常情况的21倍，且该现象主要发生在解码阶段，与内存压力无关，并在CPU和NVIDIA CUDA后端未出现。研究进一步揭示了键值缓存（KV Cache）与异常执行模式之间的复杂交互，强调了硬件特性对长上下文推理性能的重要影响。

Comments 9 pages, 5 figures, 6 tables

2605.08888 2026-05-15 cs.CL cs.CV

DocScope: Benchmarking Verifiable Reasoning for Trustworthy Long-Document Understanding

Xiang Feng, Jiawei Zhou, Zhangfeng Huang, Kewei Wang, Shanshan Ye, Jinxin Hu, Zulong Chen, Yong Luo, Jing Zhang

AI总结 DocScope 是一个用于评估多模态大语言模型在长篇视觉丰富文档中进行可验证推理能力的基准测试。该研究将长文档问答问题转化为结构化的推理轨迹预测任务，要求模型输出证据页面、支持区域、相关事实陈述和最终答案，并通过四阶段评估协议对推理过程进行细致检验。实验表明，仅凭答案准确性无法全面评估模型可靠性，证据链完整率普遍较低，且区域定位和跨文档证据整合是当前的主要挑战。

Comments 50pages, 25 figures, 14 tables;

2605.08851 2026-05-15 cs.CV cs.AI cs.LG

Geometrically Constrained Stenosis Editing in Coronary Angiography via Entropic Optimal Transport

Jialin Li, Zhuo Zhang, Yue Cao, Guipeng Lan, Jiabao Wen, Shuai Xiao, Jiachen Yang

AI总结该研究针对冠状动脉造影中狭窄病变检测数据不足的问题，提出了一种基于熵最优传输的几何约束狭窄编辑方法。通过将局部编辑建模为受几何信息引导的熵最优传输问题，该方法实现了更精确的结构控制和图像生成。实验表明，该方法生成的图像显著提升了狭窄检测性能，在公开数据集和多中心数据集上分别取得了27.8%和23.0%的相对性能提升。

Comments Accepted to ICML 2026

2605.08825 2026-05-15 cs.CV

Rethinking Event-Based Object Dtection through Representation-Level Temporal Aggregation and Model-Level Hypergraph Reasoning

Meisen Wang, Hao Deng, Wei Bao, Ma Yuanxiao, Chengjie Wang, Zhiqiang Tian, Shaoyi Du, Siqi Li

AI总结该论文针对基于事件相机的物体检测（EOD）任务，提出了一个统一的检测框架Ev-DTAD，旨在解决现有方法在表示层和模型层上的不足。通过引入层次化时间聚合（HTA）和频率感知超图时间融合（FHTF）模块，分别在表示层面显式编码时间信息，并在模型层面进行高阶关系推理，从而更有效地整合碎片化事件响应。实验表明，Ev-DTAD在多个数据集上实现了更高的检测精度和效率，验证了其方法的有效性。

2605.08698 2026-05-15 cs.CV cs.LG

Supersampling Stable Diffusion and Beyond: A Seamless, Training-Free Approach for Scaling Neural Networks Using Common Interpolation Methods

Md Abu Obaida Zishan, Jannatun Noor, Annajiat Alim Rasel

AI总结本文提出了一种无需训练即可提升Stable Diffusion等扩散模型生成高分辨率图像能力的方法，通过插值扩展卷积核来解决传统方法中因分辨率提升导致的物体重复伪影问题。该方法数学上证明了在乘以常数系数的情况下，插值能够正确扩展卷积核，并在生成超训练分辨率图像时取得了与现有方法相当的实验效果。此外，该方法还展示了在全连接层上的应用潜力，并可有效降低神经网络训练的内存占用。

Comments Updated the title for clarity. Removed background and redundant text from section 4.2,5. Improved organization in section 4 and clarity of text in Section 4.3

2605.08522 2026-05-15 cs.CL

Coordinates of Capability: A Unified MTMM-Geometric Framework for LLM Evaluation

Adib Sakhawat, Tahsin Islam, Takia Farhin, Syed Rifat Raiyan, Hasan Mahmud, Md Kamrul Hasan

AI总结本文提出了一种统一的多特质多方法（MTMM）几何框架，用于评估大语言模型（LLM）的能力。该方法将现有的九种评估指标（如改写不稳定性、漂移分数等）统一到一个共享的潜在坐标空间中，将其解释为几何度量而非孤立的标量值。通过这一框架，模型行为被分解为三个正交的潜在维度，从而有效区分任务无关的扰动与真实能力范围，为构建稳健且经验稳定的评估基准提供了理论依据。

Comments The paper has mistake of undertaking political spaces to semantic dimensions. This needs to be removed because this is a fetal flaw in consideration. The initial hypothesis and premise needs to be rigorously formulated within the political landscape not generalizing the metrics. Hence a withdrawal for now is necessary

2605.08506 2026-05-15 cs.LG

Learning Polyhedral Conformal Sets for Robust Optimization

Shuyi Chen, Wenbin Zhou, Shixiang Zhu

AI总结该研究旨在解决鲁棒优化中不确定性集选择的问题，提出了一种面向决策的符合预测框架，通过数据驱动的方式学习与优化目标对齐的多面体不确定性集。该方法利用数据驱动的超平面参数化不确定性集的几何结构，并通过最小化鲁棒损失来学习其形状，同时通过符合校准保证统计有效性。研究还引入了独立数据集的再校准步骤以修正数据依赖性选择带来的偏差，最终在保持计算可行性的同时，实现了方向性和各向异性不确定性的建模，并提供了有限样本下的覆盖率保证和次优性界分析。

2605.08374 2026-05-15 cs.AI

MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs

Junwei Liao, Haoting Shi, Ruiwen Zhou, Jiaqian Wang, Shengtao Zhang, Wei Zhang, Ying Wen, Zhiyu Li, Feiyu Xiong, Bo Tang, Weinan Zhang, Muning Wen

AI总结本文提出了一种名为MemQ的新型记忆代理框架，通过将Q学习机制引入基于溯源DAG的记忆系统，解决了现有方法在处理记忆依赖关系时的不足。MemQ利用TD($λ$)资格迹对记忆Q值进行更新，并通过溯源DAG反向传播信用，使记忆之间的依赖关系得到更准确的评估。实验表明，MemQ在六个不同领域的基准测试中均表现出优越的泛化能力和运行时学习效果，尤其在涉及多步骤任务的场景中提升显著。

Comments 22 pages, 11 figures (containing 43 individual image panels total)

2605.08278 2026-05-15 cs.LG cs.AI cs.CR

Trapping Attacker in Dilemma: Examining Internal Correlations and External Influences of Trigger for Defending GNN Backdoors

Fan Yang, Binyan Xu, Di Tang, Kehuan Zhang

AI总结本文研究了图神经网络（GNN）在面对后门攻击时的防御问题，提出了一种名为PRAETORIAN的新防御方法。该方法通过分析潜在触发子图的内部关联和外部节点影响，检测异常注入结构并识别具有不成比例影响的触发节点，从而有效识别攻击。实验表明，PRAETORIAN在保持较高干净数据准确率的同时显著降低了攻击成功率，且对多种自适应攻击仍保持有效性，迫使攻击者陷入效用与可检测性之间的不利权衡。

2605.07594 2026-05-15 cs.RO

MemCompiler: Compile, Don't Inject -- State-Conditioned Memory for Embodied Agents

Xin Ding, Xinrui Wang, Yifan Yang, Hao Wu, Shiqi Jiang, Qianxi Zhang, Liang Mi, Hanxin Zhu, Kun Li, Yunxin Liu, Zhibo Chen, Ting Cao

AI总结本文提出了一种名为 MemCompiler 的新型记忆系统，用于具身智能体，旨在解决现有记忆注入方法在动态环境中与智能体状态不匹配的问题。该方法通过将记忆利用重新定义为基于状态的记忆编译，利用学习得到的记忆编译器根据智能体当前状态动态选择并编译相关记忆，生成可执行的指导信息。实验表明，MemCompiler 在多个任务环境中显著提升了智能体性能，并降低了计算延迟，验证了其在效果与效率上的双重优势。

2605.06132 2026-05-15 cs.CL

MemReranker: Reasoning-Aware Reranking for Agent Memory Retrieval

Chunyu Li, Mengyuan Zhang, Jingyi Kang, Ding Chen, Jiajun Shen, Bo Tang, Xuanhe Zhou, Feiyu Xiong, Zhiyu Li

AI总结在智能体记忆系统中，重排序模型是连接用户查询与长期记忆的关键桥梁。现有方法多采用“检索-重排序”两阶段范式，但通用重排序模型依赖语义相似度匹配，缺乏真正的推理能力，导致检索结果虽语义相关却无法提供回答问题所需的关键信息。为此，本文提出MemReranker，一种基于Qwen3-Reranker并通过多阶段知识蒸馏构建的重排序模型家族，通过多教师对比生成校准标签、BCE点wise蒸馏优化得分分布、InfoNCE对比学习增强难例区分能力，并结合通用语料与包含时间约束、因果推理等场景的多轮对话数据进行训练，在多个基准测试中表现出色，尤其在推理能力和推理效率方面显著优于现有模型。