Deepchecks: Evaluating Retrieval-Augmented Generation (RAG)
AI总结 本文介绍了 Deepchecks,一个用于评估检索增强生成(RAG)系统的综合性框架。该框架通过多方面的方法、根本原因分析和生产监控,应对RAG系统评估中的复杂挑战,旨在确保评估结果与具体应用需求一致,从而提升系统在可靠性、相关性和用户满意度方面的表现。
AI总结 本文介绍了 Deepchecks,一个用于评估检索增强生成(RAG)系统的综合性框架。该框架通过多方面的方法、根本原因分析和生产监控,应对RAG系统评估中的复杂挑战,旨在确保评估结果与具体应用需求一致,从而提升系统在可靠性、相关性和用户满意度方面的表现。
AI总结 本文研究了长时序自回归视频生成中的误差累积和上下文丢失问题,提出了一种名为Head Forcing的训练无需额外训练的框架。该方法通过识别并区分扩散变压器中注意力头的不同功能,分别为局部细节优化、结构稳定和长程上下文聚合的头分配定制化的键值缓存策略,从而提升生成质量和效率。实验表明,该方法在不增加训练成本的情况下显著延长了视频生成时长,并支持多提示交互合成,优于现有基线方法。
AI总结 随着AI生成图像的滥用日益严重,亟需具备广泛适用性的图像检测技术。本文提出了一种基于GAN的上采样方法,以生成与重建方法对齐但具有更多样化伪影模式的假图像,从而弥补现有方法在多样性方面的不足。为了解决不同生成方法之间的领域偏移问题,研究引入了分离专家融合(SEF)框架,通过领域特定专家模型和门控网络实现特征的互补融合,显著提升了模型在多种生成方法上的检测性能和泛化能力。
Comments preprint
AI总结 LEMON 是一种基于大语言模型的多智能体协调器,通过反事实强化学习生成可执行的多智能体协调规范。该方法通过整合任务特定角色、职责分配、能力等级和依赖结构,提升系统整体的执行效率与解题质量。LEMON 在六个推理与编程基准测试中表现出色,取得了当前多智能体协调方法中的最佳性能。
Comments Submitted to Neurips 2026
AI总结 本文提出了一种名为EvoLib的测试时学习框架,使大型语言模型能够在不更新参数或依赖外部监督的情况下,跨问题实例积累、复用和演化知识。该方法通过维护一个共享的知识库,自动从模型自身的推理轨迹中提取模块化技能和反思性见解,并引入一种机制以平衡即时效用与长期价值,从而实现知识的持续优化与泛化。实验表明,EvoLib在数学推理、代码生成和多轮智能体环境中显著优于现有的测试时学习方法。
AI总结 GeoVista 是一种面向超高分辨率遥感图像理解的视觉引导主动感知框架,旨在解决现有方法在探索大场景时易丢失全局上下文、重复访问或遗漏关键区域的问题。该方法通过构建全局探索计划并多分支验证候选区域,结合显式的证据状态管理,实现跨区域的信息聚合与去重。GeoVista 引入了 APEX-GRO 轨迹语料库和 Observe-Plan-Track 机制,有效提升了遥感图像的语义理解和问答性能,在多个基准测试中取得了最先进的结果。
AI总结 本文提出了一种针对高度不平衡数据集的正例与未标记例(PU)学习新方法,旨在解决在标注数据有限的情况下,如疾病基因识别、欺诈检测等实际问题中的分类难题。该方法通过引入一种聚焦的经验风险估计器,结合正例和未标记例训练二分类模型,有效提升了在不平衡数据下的分类性能。实验表明,该方法在多种不平衡数据集上表现优异,并在财务舞弊检测等实际应用中展现出良好的应用价值。
AI总结 该研究针对结构化表格中多步骤推理的问题,提出了一种名为TABALIGN的新框架,旨在解决推理过程中规划与执行之间缺乏明确的单元格对齐机制的问题。其核心方法结合了双向去噪的扩散语言模型(DLM)作为规划器,生成二进制单元格掩码表示推理步骤,并引入一个轻量级验证器TABATTN,基于大量人工验证的注意力标准对每一步进行评分。实验表明,TABALIGN在多个基准测试中显著提升了推理准确性,并加快了后续推理的执行速度。
AI总结 本文研究如何从单目视频中重建具有物理合理性的4D人-物交互(HOI)动画,以支持3D内容生成和仿真学习等应用。为了解决现有方法在交互一致性、接触稳定性和物理合理性方面的不足,作者提出了HA-HOI框架,采用“以人为先,物体跟随”的策略,以人体运动为交互锚点,重建并优化物体的运动轨迹,并将其映射到物理仿真中进行验证。该方法在多个基准和真实视频上显著提升了人-物对齐、接触一致性及仿真适用性,推动了从视觉合理到物理合理的交互动画生成。
AI总结 ClickRemoval 是一个基于预训练 Stable Diffusion 模型的开源交互式工具,旨在解决扩散模型中对象移除的难题。该工具仅需用户点击操作即可定位目标对象并修复背景,无需手动绘制掩码或输入文本描述。通过在去噪过程中进行自注意力调制,ClickRemoval 在复杂场景中实现了高效且自然的移除效果,实验表明其在定量指标和用户研究中均表现优异。
Comments 5 pages, 4 figures. Open-source software paper
AI总结 OmniDrop 是一种用于多模态大语言模型的层间 token 剪枝方法,旨在解决高分辨率音频和视频输入导致的 token 爆炸问题。该方法通过在解码器各层逐步剪枝,而非在输入嵌入层进行,从而更有效地保留多模态信息融合,并利用文本查询指导剪枝过程以提升任务适应性。实验表明,OmniDrop 在多个基准测试中表现优异,显著降低了预填充延迟和内存消耗。
AI总结 本文提出了一种名为“智能影响商”(IIQ)的综合指标,用于量化人工智能系统在组织工作流程中的集成深度及其影响。IIQ结合了多种因素,如新颖性加权的令牌库存、使用频率、近期使用情况、组织杠杆效应、任务复杂度和自主性,生成可用于比较不同用户和单位的原始智能采纳指数(IAI)和标准化的0-1000分IIQ指数。该框架旨在为AI在工作流程中的部署提供一种可跟踪的测量工具,而非直接衡量模型能力或替代因果生产力评估。
AI总结 随着AI代理从聊天界面扩展到处理隐私数据、调用工具和执行多步骤工作流的系统,安全防护机制成为防止实际部署中危害的最后一道防线。传统防护机制难以应对复杂多变的现实场景,而LiSA(Lifelong Safety Adaptation)提出了一种保守策略归纳框架,通过结构化记忆提升固定基础防护策略的适应能力。LiSA能够将偶发的失败转化为可复用的策略抽象,结合冲突感知的本地规则和基于证据的置信度门控机制,有效提升在稀疏反馈和噪声环境下的安全性和泛化能力。
Comments 27 pages, 3 figures
AI总结 本文研究了大语言模型中幻觉检测的问题,提出了一种名为QAOD的单次推理框架,通过将答案表示中与问题对齐的部分分解出去,提取出与问题正交的成分以抑制领域相关的变化。该方法结合多样性惩罚的费舍尔评分和判别神经元选择,设计了两种互补的探测策略,分别用于提升领域内检测性能和跨领域泛化能力,在多个基准测试中表现出色,尤其在跨领域场景下显著优于现有方法。
AI总结 该研究提出了一种名为Think When Needed(TWN)的统一多模态嵌入框架,旨在通过自适应推理机制提升多模态嵌入的质量与效率。TWN采用双LoRA架构,将推理和嵌入适配器附加到共享的冻结主干模型上,以减少参数开销并避免梯度冲突。通过自监督路由门机制,模型能够根据输入内容决定是否生成链式推理(CoT),从而避免冗余推理带来的性能下降,并显著降低推理成本。实验表明,TWN在MMEB-V2的78个任务中取得了最先进的嵌入质量,同时在参数和推理效率方面优于现有生成式方法。
Comments 30 pages, preprint
AI总结 本文提出了一种名为FrontierSmith的系统,用于大规模合成开放性编程问题,以提升大型语言模型在开放性编码任务上的表现。该系统通过迭代演化方式,从现有的封闭性编程任务(如竞赛编程题目)生成开放性问题变体,并利用定量指标筛选出能激发多样化解题思路的问题。实验表明,使用该系统合成的数据进行训练,显著提升了模型在多个开放性编程基准测试中的性能。
AI总结 该研究针对冻结的“黑盒”大语言模型(LLM)中的提示工程问题,提出了一种基于强化学习的框架,通过迭代经验蒸馏训练可学习的提示策略。该方法利用对比经验缓冲区,结合标量奖励和密集文本批评,使轻量级提示模型能够优化以最大化任务奖励,从而在单次策略权重中实现迭代提示的高效优化。实验表明,该方法在多步骤推理和工具使用任务中显著提升了性能,且相比现有进化基线方法具有更高的样本效率。
Comments 10 pages and reference, appendix
AI总结 本文研究了在部分可观察马尔可夫决策过程(POMDP)中如何合成具有形式化保证的策略,针对采样方法缺乏形式正确性保证、形式合成方法可扩展性差的问题,提出了一种结合采样、自动机学习和模型检测的综合框架。该方法借鉴Angluin的$L^*$算法,利用采样作为成员查询,模型检测作为等价性查询,能够在采样策略满足正则性条件时合成有限状态控制器,并证明了该框架的相对完备性。实验表明,该方法在解决现有工具难以处理的阈值安全问题上表现良好。
Comments Paper accepted at 38th International Conference on Computer Aided Verification (CAV 2026), Lisbon, Portugal, July 2026
AI总结 BEAM(二值专家激活掩码)是一种用于动态路由的新型方法,旨在提升Mixture-of-Experts(MoE)架构在大语言模型中的推理效率。该方法通过可训练的二值掩码实现对每个token的专家动态选择,结合直通估计器和辅助正则化损失,在端到端训练中诱导专家稀疏性,同时保持模型性能。实验表明,BEAM在保持超过98%原始模型性能的同时,显著减少了MoE层的计算量,提升了推理速度和吞吐量,是一种高效且易于集成的实用解决方案。
Comments 22 pages, 12 figures
AI总结 本文提出了一种基于微积分的框架,用于确定端到端自动语音识别(ASR)系统中的词汇量大小。该方法通过拟合训练数据,并利用一阶和二阶导数测试原理,正式估计词汇量这一关键超参数。实验表明,该方法在标准Librispeech语料库上有效,能够优化词汇量选择,从而提升ASR系统的性能。本文的主要贡献在于为端到端ASR系统提供了确定词汇量大小的系统化方法。
Comments 8 pages, is an extension of the paper S. K. Kopparapu and A. Panda, A cost minimization approach to fix the vocabulary size in a tokenizer for an end-to-end ASR system, in Proceedings of the 2024 International Conference on Pattern Recognition, Kolkata, India, 2024
AI总结 本文研究了在异构环境中实现协作与个性化策略训练的问题,提出了一种单时间尺度的联邦演员-评论家框架。该方法通过共享一个公共的线性子空间表示,同时保留各智能体的个性化策略组件,实现了策略的协作优化与个性化平衡。理论分析表明,该方法在有限时间内具有收敛性,并且随着智能体数量的增加表现出线性加速效果,实验验证了其在联邦强化学习任务中的有效性。
AI总结 本文研究了在文本条件下的反事实时间序列预测问题,旨在应对未来事件对时间序列预测的影响,提升预测模型在复杂和随机条件下的适应能力。为解决传统方法忽视反事实场景及条件结构单一的问题,作者提出了一个包含事实与反事实设置的综合评估框架,并设计了一种文本归因机制,用于区分可变与不可变因素,从而提高预测精度。该方法在无真实时间序列标签的情况下也能有效评估模型性能,具有重要的实际应用价值。
AI总结 当前大型语言模型(LLMs)通常依赖于粗粒度的国家标签进行多元价值观对齐,但这种宏观层面的监督往往掩盖了国家内部的价值观异质性,导致对齐效果松散。为此,研究提出DVMap框架,通过多维人口统计约束识别具有可预测、高共识价值观偏好的群体,实现细粒度的多元价值观对齐。该方法引入人口统计原型提取策略和结构化思维链机制,并结合群体相对策略优化技术,有效提升了模型在跨人口统计、跨国家和跨价值观场景下的泛化能力与鲁棒性。
Comments Accepted to the Main Conference of ACL 2026
AI总结 本文提出了一种基于知识嵌入的强化学习统一框架,用于解决具有容量限制的车辆路径问题(CVRP)。该框架结合了路线优先、聚类次优的启发式策略,并引入动态规划解决子问题,同时利用历史增强的上下文处理模块应对分解带来的部分可观测性问题。实验表明,该方法在多种CVRP变体中均能取得优于现有学习方法的解质量,且与经典启发式方法的差距更小,展现出良好的泛化能力。
AI总结 该论文提出了一种基于类内马哈拉诺比斯距离方差的新型分布外检测方法MahaVar。研究发现,对于分布内样本,类内马哈拉诺比斯距离呈现出明显的尖锐最小值结构,导致类间距离方差较大,而分布外样本则表现出较弱的结构特征和较小的距离方差。基于这一现象并结合神经崩溃理论,作者提出了MahaVar方法,在传统马哈拉诺比斯距离基础上引入类内距离方差作为判别依据,有效提升了分布外检测性能,在多个基准数据集上取得了当前最优结果。
Comments 29 pages, 8 figures
AI总结 该研究探讨了具有柔顺足部的四足机器人能否在保证运动稳定性的同时提升运动效率。通过将足部柔顺性引入强化学习控制器,研究发现适中的足部刚度可以有效减少每米行走的机械能耗,实验表明相较于过于刚硬或过于柔软的足部,中间刚度的足部可使能耗降低约17%。这一结果表明,合理设计足部柔顺性有助于提高四足机器人的能量效率。
Comments 29 pages, 7 figures, supplemental videos link is mentioned in the paper
AI总结 本文探讨了人工智能在数字任务中常被忽视的“中间地带”——Metis AI,这类任务虽可在计算机上完成,但因涉及机构、社会和规范层面的复杂性,难以被算法可靠自动化。研究提出了Metis AI的五个结构性特征,并指出应对策略应是人类主导、AI辅助的“半人马架构”,而非单纯提升自动化水平。
AI总结 GeoViSTA 是一种结合遥感图像和表格数据的多模态模型,旨在学习统一的地理空间表征。该模型通过双边交叉注意力机制,在图像和表格数据之间交换空间与语义信息,并借助地理感知的注意力机制对齐图像块与不规则的统计区域。GeoViSTA 在自监督的联合掩码重建任务中进行训练,显著提升了在疾病死亡率和火灾风险等关键任务上的预测性能,展示了其在综合地理空间推理中的强大能力。
AI总结 该论文研究了如何通过局部相空间信息训练出统计上准确的混沌系统代理模型。作者提出了一种新框架,旨在结合精确的雅可比矩阵和长期统计特性,通过构建相空间中混沌吸引子的局部覆盖,并最小化代理模型与真实动力学在这些覆盖上的分布差异来训练模型。实验表明,该方法在提升雅可比矩阵准确性的同时,仍能与现有最先进的统计动力学学习方法保持竞争力。
AI总结 随着大型语言模型在商业服务中的广泛应用,其可能引发的隐私泄露问题日益突出。本文针对多语言场景下的机器遗忘(MMU)评估不足的问题,提出了两个新的评估指标——知识可分性得分(KSS)和知识持续性得分(KPS),用于衡量多语言环境下信息去除的效果与一致性。研究通过这些指标对多种遗忘方法进行了评估,揭示了多语言机器遗忘中特有的现象,并为该领域的评估提供了新视角。