Designing Datacenter Power Delivery Hierarchies for the AI Era
为AI时代设计数据中心电力交付层级
发表机构 * Stanford University(斯坦福大学) ; Microsoft Azure Research(微软Azure研究院)
AI总结 本文研究了AI时代数据中心电力交付层级设计的挑战,提出了一种评估框架,结合吞吐量、功率和成本指标,分析多资源短缺对部署容量、资本支出和性能的影响。
为AI时代设计数据中心电力交付层级
发表机构 * Stanford University(斯坦福大学) ; Microsoft Azure Research(微软Azure研究院)
AI总结 本文研究了AI时代数据中心电力交付层级设计的挑战,提出了一种评估框架,结合吞吐量、功率和成本指标,分析多资源短缺对部署容量、资本支出和性能的影响。
一种生成式AI框架用于智能用电量分析和可持续资源优化
发表机构 * Independent Research, India(印度独立研究) ; Independent Research, Germany(德国独立研究)
AI总结 本文提出一个生成式AI框架,整合四个生产级能力,实现自然语言账单生成、消费预测及碳排放优化。
AI介导的交流可以引导集体意见
发表机构 * Hasso Plattner Institute(哈索普兰特纳研究所) ; Oxford Internet Institute, University of Oxford(牛津互联网研究所,牛津大学) ; Weizenbaum Institute(魏泽纳姆研究所)
AI总结 本文研究AI在人类间交流中对集体意见形成的影响,通过实证和理论分析展示AI引入的方向性偏见如何通过网络放大并改变集体观点,探讨平台如何控制此类偏见。
离线语义引导用于高效视觉-语言-动作策略蒸馏
发表机构 * Department of Mechanical Engineering(机械工程系) ; University College London(伦敦大学学院) ; Department of Engineering Science(工程科学系) ; University of Oxford(牛津大学)
AI总结 本文提出VLA-AD框架,利用视觉-语言模型作为离线语义监督者,将大规模VLA教师模型蒸馏为轻量学生策略,通过高阶语义指导提升效率与鲁棒性。
前瞻性多病原体疾病预测使用自主LLM引导的树搜索
发表机构 * Google Research(谷歌研究) ; School of Engineering and Applied Sciences, Harvard University(哈佛大学工程与应用科学学院) ; Google Deepmind(谷歌Deepmind) ; University of Massachusetts(马萨诸塞大学)
AI总结 本文提出自主系统,利用LLM引导树搜索生成、评估和优化可执行预测软件,在2025-2026年美国呼吸道季节中实现了流感、新冠和呼吸道合胞病毒的多方法模型,其集成模型在样本外表现优于CDC标准模型。
FORGE:无权重更新的自演化代理记忆
发表机构 * Carleton University(卡尔顿大学)
AI总结 FORGE通过群体广播机制实现无梯度更新的自生成记忆,提升层次ReAct代理决策能力,在CybORG CAGE-2任务中显著提高性能并降低失败率。
智能能源基础设施的统一生成式AI框架:智能燃气分配、公用事业计费、碳分析和量子启发优化
发表机构 * Independent Research, India(印度独立研究) ; Independent Research, Germany(德国独立研究)
AI总结 本文提出一种统一的生成式AI框架,整合智能燃气分配、计费、碳分析和量子优化,以提升能源管理效率与环境责任。
确认正确,遗漏其余:LLM辅导代理在反馈最关键的地方表现不佳
发表机构 * North Carolina State University(北卡罗来纳州立大学)
AI总结 本文研究了LLM在逻辑推理中的辅导性能,发现其在区分最优解、次优解和错误解方面存在系统性偏差,影响适应性教学效果。
Comments 22 pages, 20 fgures
上下文、推理与层次:在对抗性POMDP中的复合LLM代理设计成本-性能研究
发表机构 * Carleton University(卡尔顿大学)
AI总结 研究探讨了在对抗性部分可观测序贯环境中,复合LLM代理设计的上下文、推理和层次分解对性能与成本的影响,发现程序化状态抽象在成本效率上表现最佳,而分层分解无需推理可获得最佳性能。
形式方法与大语言模型交汇:面向高级AI系统合规性的审计、监控与干预
发表机构 * University of Toronto, Vector Institute(多伦多大学,向量研究所)
AI总结 本文提出结合形式方法与机器学习的审计和监控技术,用于检测AI系统中时间扩展行为约束的违规,实验表明其在检测违规方面优于LLM基方法,且能有效降低LLM代理的违规率。
为LLM-代理可操作论文的协调约定
发表机构 * arquicanedo
AI总结 本文提出paper.json文件,通过稳定声明ID、明确不声明列表、精确图示命令和稳定定义ID等约定,解决LLM代理在阅读学术论文时的重复失败问题。
二阶多级方差校正用于多模态模型中的模态竞争
发表机构 * University of Oxford, Oxford, United Kingdom(牛津大学,英国)
AI总结 本文提出ML-FOP-SOAP框架,通过多级方差校正提升多模态对齐稳定性,实验显示在Janus和Emu3数据集上,该方法提高了样本效率和训练速度,适用于大规模多模态基础模型。
双人道德理论的代数阐释
AI总结 本文通过代数方法阐述双人道德理论,提出三种心理运算符以扩展结构因果模型,解决双人限制下的可扩展性问题,并应用于AI政策设计,通过节点压缩和顺序处理实现道德认知。
先看再跳:面向LLM代理的自主探索
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Meituan(美团)
AI总结 本文提出自主探索能力,通过探索检查点覆盖率指标,改进LLM代理在陌生环境中的适应性,采用探索与执行交替训练策略,提升任务执行的泛化能力。
用几何感知的尖锐性最小化导航坑洞
发表机构 * Mila, Université de Montréal(Mila,蒙特利尔大学) ; Samsung – SAIL Montreal(三星–SAIL蒙特利尔)
AI总结 本文提出LLQR+SAM方法,结合学习预条件器与尖锐性最小化,通过双时间尺度结构提升模型鲁棒性,实验证明其在视觉和序列建模任务中表现优异。
熵跨桥梁:用于流和薛定谔采样的条件-边缘离散化
发表机构 * NVIDIA Corporation(NVIDIA公司) ; University of Oxford(牛津大学) ; Donders Institute for Brain, Cognition, and Behaviour(大脑与行为研究所) ; AITHYRA, Research Institute for Biomedical AI(生物医学人工智能研究所)
AI总结 本文提出一种基于熵率的目标,用于桥-aware的离散化,通过分离端点条件桥几何和边缘流演变,提升低预算下的高维桥和流采样性能。
GenShield:面向AI生成图像的统一检测与伪影校正
发表机构 * School of Electronic and Computer Engineering, Peking University(北京大学电子与计算机工程学院) ; Tencent Youtu Lab(腾讯优图实验室)
AI总结 本文提出GenShield框架,通过闭环诊断与修复流程实现可解释的AI生成图像检测与可控伪影校正,结合视觉链式推理课程学习策略,提升校正效果与泛化能力。
ShopGym: 一个集成框架,用于电子商务网络代理的现实模拟和可扩展基准测试
发表机构 * North Carolina State University(北卡罗来纳州立大学) ; Shopify
AI总结 本文提出ShopGym框架,通过模拟层ShopArena和基准层ShopGuru,实现电子商务网络代理的现实模拟与可扩展基准测试,验证了合成商店在结构属性和代理性能上的有效性。
Comments 32 pages, 10 figures
DebiasRAG: 通过检索增强生成实现大型语言模型中公平生成的无调优路径
发表机构 * Huawei(华为)
AI总结 本文提出DebiasRAG,一种基于检索增强生成的无调优动态查询特定去偏框架,通过生成查询特定去偏候选、构建上下文候选池和梯度更新去偏引导上下文重排序三阶段,提升生成公平性并保留LLM固有属性。
动态图变换器中的注意力分散:诊断与可迁移的修复
发表机构 * Beijing Institute of Technology(北京理工大学) ; University of Toronto(多伦多大学) ; Hong Kong Baptist University(香港 Baptist 大学)
AI总结 本文识别动态图变换器在时间分布偏移下的注意力分散问题,并提出可迁移的差分注意力机制以提升性能,尤其在高偏移数据集上表现显著。
符号分离的有限时间误差分析Q学习
发表机构 * Department of Electrical Engineering(电气工程系)
AI总结 本文提出符号分离的有限时间误差分析方法,用于常步长Q学习。通过切换系统表示,将误差分解为负和正部分,负部分由固定最优策略关联的线性时不变系统主导,正部分由线性切换系统控制。分析揭示了Q学习误差动态中的最大诱导不对称性,并提供确定性和随机性常步长递推的有限时间界。
联邦学习下的异构特征空间中的缺失值填补
发表机构 * SnT, University of Luxembourg, Luxembourg(卢森堡大学SnT学院,卢森堡) ; FSTM/DCS, University of Luxembourg, Luxembourg(卢森堡大学FSTM/DCS学院,卢森堡)
AI总结 本文提出FedHF-Impute框架,通过共享全局特征图实现跨客户端知识传递,提升联邦填补效果,在模拟数据集上优于基线方法。
GeoGS-CE: 利用3D高斯分布学习延迟-波束信道先验以应对高机动场景
发表机构 * iComAI Lab, HKUST(iComAI实验室,香港科技大学)
AI总结 本文提出GeoGS-CE框架,通过3D高斯分布建模高机动场景中的信道特性,利用延迟-波束功率谱作为先验信息,提升稀疏试点下的信道频率响应重建精度。
集中式与去中心化联邦学习:性能权衡分析
发表机构 * University of Luxembourg(卢森堡大学)
AI总结 本文通过Fedstellar模拟器、MNIST数据集和MLP分类器,对比分析集中式、去中心化和半去中心化联邦学习架构的性能权衡,揭示不同应用场景下的优劣势。
基于组合层次图的多级自监督预训练用于分子性质预测
发表机构 * School of Mathematical Sciences(数学科学学院) ; University of Electronic Science and Technology of China(电子科技大学) ; Department of Computer Science and Engineering(计算机科学与工程系) ; Oakland University(奥克兰大学)
AI总结 本文提出MolCHG框架,通过多级自监督预训练提升分子性质预测性能,采用组合层次图组织分子结构,引入bond graph增强bond信息,实现原子与bond语义的平等聚合。
Comments 11pages, 4 figures
面向关系数据库的foundation models的语言模型与图神经网络方法
发表机构 * University of Stuttgart, Stuttgart, Germany(斯图加特大学) ; Internet Science Research Group, University of Southampton, Southampton, United Kingdom(互联网科学研究组,南安普顿大学)
AI总结 本文提出结合语言模型和图神经网络的混合架构,通过关系实体图建模提升关系数据库的预测性能,实验表明其在多个任务中表现优异,接近监督基线并缩小与RDL的差距。
Comments 15 pages, 7 figures, 4 tables. Preprint of a paper accepted at the 1st Workshop on Extraction from Triplet Text-Table-Knowledge Graph and associated Challenge (TRIPLET), co-located with ESWC 2026
VideoSeeker:通过原生代理工具调用激励实例级视频理解
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Xiaohongshu Inc.(小红书公司) ; East China Normal University(华东师范大学) ; Xi’an Jiaotong University(西安交通大学)
AI总结 VideoSeeker通过整合代理推理与实例级视频理解任务,提升视频理解精度,实验表明其在实例级任务中比基线模型提升13.7%,超越GPT-4o和Gemini-2.5-Pro。
Comments Project Page: https://gaotiexinqu.github.io/VideoSeeker/
AgriMind:一种用于多类植物疾病分类的集成深度学习框架
发表机构 * RTM Al-Kabir Technical University(RTM阿克比爾技術大學) ; North East University Bangladesh(東北大學(孟加拉國))
AI总结 本文提出AgriMind框架,利用ResNet50、EfficientNet-B0和DenseNet121模型集成,通过转移学习实现对15种植物疾病的高精度分类,集成模型在测试集上达到99.23%的准确率。
鲁棒的先验引导分割用于可编辑的3D高斯散射
发表机构 * University of Surrey(萨里大学)
AI总结 本文提出利用SAM-HQ生成准确2D掩码,通过先验引导标签重新分配实现鲁棒的3D分割,提升编辑任务的精度和效率。
Comments Accepted at IEEE International Conference on Image Processing 2026, 6 pages
Ada-Diffuser: 面向决策制定的潜在意识自适应扩散模型
发表机构 * University of California San Diego(加州大学圣地亚哥分校) ; Carnegie Mellon University(卡内基梅隆大学) ; MBZUAI ; Stanford University(斯坦福大学) ; Johns Hopkins University(约翰霍普金斯大学)
AI总结 本文提出Ada-Diffuser,通过显式建模潜在动态过程,提升决策制定的精度与适应性,实验验证其在模拟控制与机器人基准中的有效性。
Comments ICLR 2026
理由者还是翻译者?面向污染的评估与税法中的神经符号鲁棒性
发表机构 * Bloomberg(彭博社) ; Michigan State University(密歇根州立大学)
AI总结 本文研究了税法推理中LLM性能受数据污染影响的问题,提出神经符号框架提升法律AI的可靠性与鲁棒性。
循环SSM:用于时间序列分类的深度递归与输入重塑
发表机构 * TU Wien(维也纳技术大学) ; MIT CSAIL(麻省理工学院计算机科学与人工智能实验室) ; Liquid AI
AI总结 本文探讨了循环SSM在时间序列分类中的应用,展示了深度递归和输入重塑对模型性能的提升作用,通过实验验证了这两种方法的有效性。
XSearch: 通过概念到代码对齐实现可解释的代码搜索
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Shanghai Innovation Institute(上海创新研究院) ; National University of Singapore(新加坡国立大学) ; Huawei Technologies Co., Ltd(华为技术有限公司)
AI总结 本文提出XSearch框架,通过将代码搜索转化为概念对齐问题,提升代码搜索的可解释性和泛化能力,在分布偏移基准测试中性能提升显著。
Comments Accepted to ISSTA 2026
RecMem:基于递归的记忆巩固用于高效且有效的长运行LLM代理
发表机构 * Department of Computer Science and Engineering, The Chinese University of Hong Kong(香港中文大学计算机科学与工程系) ; School of Computer Science, Beijing University of Posts and Telecommunications(北京邮电大学计算机学院) ; Huawei Cloud(华为云) ; Huawei Theory Lab(华为理论实验室) ; Institute for Math and AI, Wuhan University(武汉大学数学与人工智能研究院)
AI总结 RecMem通过递归机制优化内存巩固,减少token消耗并提升准确性,有效解决长运行LLM代理的内存管理问题。
Comments Accepted to ACL 2026 Findings
从人类遥控数据中学习双臂绳子操作的模拟 grounded 策略
发表机构 * Technical University of Darmstadt(德累斯顿技术大学) ; German Research Center for Artificial Intelligence (DFKI)(德国人工智能研究中心) ; Robotics Institute Germany (RIG)(德国机器人研究所) ; Centre for Cognitive Science(认知科学研究中心) ; Honda Research Institute Europe GmbH(本田欧洲研究院)
AI总结 本文研究了基于视觉的策略在解结任务中泛化能力不足是否源于观察空间而非策略架构或数据规模,通过比较两种基于动作分块与变压器的策略,发现基于物理状态的策略在预测初始抓取和拉拽动作时L1误差降低了30.8%。
Comments Accepted to the Beyond Teleoperation Workshop at ICRA 2026, 5 pages, 2 figures
谁拥有这个智能体?追溯AI智能体回其所有者
发表机构 * Ben-Gurion University of the Negev Beer-Sheva Israel ; Center for Cybersecurity Systems \& Networks, Amrita Vishwa Vidyapeetham Amritapuri India ; Northeastern University Boston Massachusetts USA ; Ben-Gurion University of the Negev ; Center for Cybersecurity Systems \& Networks, Amrita Vishwa Vidyapeetham ; Northeastern University
AI总结 本文提出了一种基于canary的智能体归属追踪方法,解决无法追溯恶意或误配置智能体所有者的问题,展示了其在实际场景中的可靠性与鲁棒性。
Comments Under Review
从平铺语言标签到类型学先验:面向多语言语音到语音翻译的结构化语言条件化
发表机构 * School of Information Science and Electrical Engineering, Kyushu University(九州大学信息科学与电子工程学院) ; Recho Inc.(Recho公司) ; National Institute of Informatics(国家信息研究所) ; Interdisciplinary Research Centre on Security, Reliability and Trust (SnT), University of Luxembourg(卢森堡大学安全、可靠性与信任跨学科研究中心) ; Donghua University(东华大学) ; Department of Computer Science, The University of Tokyo(东京大学计算机科学系) ; Department of Electrical and Computer Engineering, University of Alberta(阿尔伯塔大学电子与计算机工程系)
AI总结 本文提出S2ST-Omni 2框架,通过结构化类型学先验改进多语言语音到语音翻译,实验显示其在多个评估指标上表现优异,且在数据受限条件下仍能提升翻译效率。
Comments Submitted to IEEE/ACM TASLP. This work extends S2ST-Omni, accepted to Findings of ACL 2026
ScreenSearch: 带有不确定性的操作系统探索
发表机构 * Microsoft(微软)
AI总结 ScreenSearch通过结合结构化屏幕检索与基于不确定性的PUCT图强化学习,在大规模桌面探索中有效平衡探索与承诺,生成具有跨应用多样性的探索语料库。
Comments 14 pages, 9 figures, 4 tables
视觉语言模型在数学教育中能否具备适应性?一种基于学习者模型的评分研究
发表机构 * McGill University(麦吉尔大学) ; Mila – Quebec AI Institute(魁北克AI研究院) ; Canada CIFAR AI Chair(加拿大CIFAR人工智能 chair)
AI总结 本文探讨视觉语言模型在数学教育中的适应性,提出基于学习者模型的评分框架,评估模型在认知、动机和复杂度方面的适应性,并发现现有模型在有限学习者信息下难以产生一致的指导响应。
受限潜在状态建模:在竞争约束下表示学习的统一视角
发表机构 * LaTIM UMR 1101
AI总结 本文提出受限潜在状态建模(CLSM),统一了表示学习中在竞争约束下的核心原则与方法,揭示了潜在状态的内在耦合关系与根本权衡。
Comments Resources and model cards: https://github.com/gwenole-quellec/clsm
超越内容:一个综合的语音毒性数据集和检测框架,结合副语言线索
发表机构 * The State Key Laboratory of Blockchain and Data Security(区块链与数据安全国家重点实验室) ; Hangzhou High-Tech Zone (Binjiang) Institute of Blockchain and Data Security(杭州高新区(滨江)区块链与数据安全研究院) ; School of Cyber Science and Engineering(网络安全科学与工程学院)
AI总结 本文提出ToxiAlert-Bench数据集和双头神经网络框架,通过整合副语言线索提升语音毒性检测性能,实验显示方法在多个指标上优于现有基线。
基于Petri网的启发式搜索用于资源受限调度
发表机构 * Bar-Ilan University(巴伊兰大学)
AI总结 本文将资源受限项目调度问题建模为Timed Transition Petri网的可达图最优搜索,采用相对延迟令牌实现调度决策与状态空间转换的对应关系,通过结合关键路径和资源下界启发式函数的A*算法,证明其一致性,并在PSPLIB基准测试中优于MIP基线方法。
Comments Accepted at the International Symposium on Combinatorial Search (SoCS 2026)
执法ontology:用于执法报告中语义理解和推理的概念知识学习
发表机构 * Law Enforcement Agencies(执法机构)
AI总结 本文提出利用符号方法将执法报告中的叙述转化为证据关联事实,通过消除个人标识、语义解析、谓词映射到本体和推理,提高对事件细节的恢复能力,并构建包含时间线索和领域公理的时间图。
Comments 13 pages, 8 figures, 9 tables
无需参考的强化学习微调用于机器翻译:序列到序列视角
发表机构 * Universitat Politècnica de Catalunya Barcelona(巴塞罗那理工大学)
AI总结 本文提出一种无需参考的强化学习微调方法,应用于序列到序列模型,针对13种语言在无平行数据情况下提升翻译质量,尤其在形态复杂语言中表现优异。
确定性事件-图子结构作为世界模型用于反事实推理
发表机构 * Tesseract Academy(Tesseract学院)
AI总结 本文提出事件图子结构作为世界模型,通过结构化干预词汇fork日志来回答反事实查询,证明了解释性与反事实性查询的对偶性,并在CLEVRER验证规模上评估了基于领域无关子结构运行时的C++解释器。
Comments 10 pages, 3 figures, 2 tables
PAGER:弥合点精确几何GUI控制中的语义-执行鸿沟
发表机构 * University of Chinese Academy of Sciences(中国科学院大学) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; China University of Petroleum-Beijing(中国石油大学(北京))
AI总结 本文提出PAGER,通过依赖结构规划与像素级执行,解决对点精确几何GUI任务的需求,提升任务成功率至62%以上,填补语义-执行鸿沟。
Comments 27 pages, 11 figures, 3 tables
何时以及为何对抗训练能提升PINNs:神经 tangent 核视角
发表机构 * School of Mathematics and Statistics, Beijing Institute of Technology, China(北京理工大学数学与统计学院,中国) ; School of Professional Education and Executive Development The Hong Kong Polytechnic University, China(香港理工大学专业教育学院及管理发展学院,中国) ; Department of Computer Science & UCL AI Centre, University College London, UK(伦敦大学学院计算机科学系及UCL人工智能中心,英国)
AI总结 本文从神经 tangent 核角度分析对抗训练提升PINNs的机制,提出理论框架并设计高效算法,实验证明能显著改善PINNs训练病理,提升模型精度。
分解式视觉-语言对齐用于细粒度开放词汇分割
发表机构 * Aerospace Information Research Institute, Chinese Academy of Sciences(中国科学院航空航天信息研究所) ; University of Chinese Academy of Sciences(中国科学院大学) ; Zhejiang University(浙江大学)
AI总结 本文提出分解式视觉-语言对齐框架,通过将文本提示分解为概念令牌和多个属性令牌,实现细粒度开放词汇分割中对未见属性-类别组合的泛化提升。
LoCO:低秩组合旋转微调
发表机构 * Korea University(韩国大学) ; KAIST(韩国科学技术院) ; INEEJI
AI总结 LoCO提出一种低秩组合旋转微调方法,通过低秩斜对称矩阵构建正交变换,实现高效参数微调,适用于多领域模型适应,展现优于传统正交和非正交方法的性能。
Comments IJCAI 2026
SLIP与伦理:面向AI情感伴侣的渐进干预
发表机构 * HUA Labs(HUA实验室)
AI总结 本文提出SLIP与ETHICS框架,通过渐进干预方法解决AI情感伴侣的安全与亲和力矛盾,实验显示在高能量状态下干预不足,但提升模型能力可改善检测效果。
Comments Accepted to PervasiveHealth 2026. 11 pages, 2 figures, 4 tables. Proc. of the 20th EAI International Conference on Pervasive Computing Technologies for Healthcare (PervasiveHealth 2026)
RaPD:通过语义增强的隐式表示实现分辨率无关的像素扩散
发表机构 * College of Electronic and Information Engineering, Tongji University(同济大学电子与信息工程学院) ; vivo Mobile Communication Co., Ltd.(vivo移动通信有限公司) ; Nanjing University(南京大学)
AI总结 RaPD通过语义表示引导和坐标查询注意力渲染器,在连续神经图像场的潜在空间中实现分辨率无关的像素扩散,解决了重建与生成之间的差距,提升了生成质量和分辨率扩展能力。
生成长期用户兴趣建模用于点击通过率预测
发表机构 * MeiTuan Beijing China(美团北京中国)
AI总结 本文提出GenLI模型,通过生成兴趣模块、行为检索模块和兴趣融合模块,提升CTR预测的准确性和效率,解决传统方法中长期兴趣建模不完整和效率低的问题。
基于CBAM增强的EfficientNet和证据深度学习的不确定性意识卫星图像野火烟密度分类
发表机构 * Kent State University(肯特州立大学)
AI总结 本文提出一种概率框架,通过CBAM增强的EfficientNet和证据深度学习,对卫星图像中的烟雾密度进行分类,并提供分解的epistemic和aleatoric不确定性。模型在16298个真实卫星图像块上达到93.8%的加权测试准确率。
辛神经算子用于学习无限维哈密顿系统
发表机构 * Graduate School of Science(理学研究科) ; Kobe University(Kobe大学) ; NTT Communication Science Laboratories(NTT通信科学实验室) ; Faculty of Information Science and Technology(信息科学和技术学部) ; Hokkaido University(北海道大学) ; Institute of Mathematics for Industry(工业数学研究所) ; Kyushu University(九州大学)
AI总结 本文提出辛神经算子,用于解决无限维哈密顿系统建模与模拟中的计算与结构挑战,通过保持辛结构提升长期稳定性与能量行为。
FSCM:频率增强的空间-频谱耦合Mamba用于红外超光谱图像着色
发表机构 * School of Electronic and Optical Engineering, Nanjing University of Science and Technology(南京理工大学电子与光学工程学院) ; School of Mechanical Engineering, University of Science and Technology Beijing(北京科技大学机械工程学院) ; School of Instrument and Electronics, North University of China(北方大学仪器与电子学院)
AI总结 本文提出FSCM框架,通过频率增强的空间-频谱状态空间生成器和双流混合门控模块,提升红外超光谱图像着色的视觉质量和语义一致性。
Shapley神经元值用于持续学习:哪些神经元最为关键?
发表机构 * Department of Electrical and Computer Engineering, Aarhus University, Denmark(电气与计算机工程系,奥胡斯大学,丹麦)
AI总结 本文提出Shapley神经元估值框架,通过量化持续学习中神经元重要性,实现无缓冲的持续学习,实验显示其在类别增量学习和任务增量学习中分别提升准确率2.88%和6.46%。
Comments This paper has been accepted to ICML 2026
代理发现神经架构:AIRA-Compose和AIRA-Design
发表机构 * FAIR at Meta(Meta的FAIR)
AI总结 本文提出AIRA-Compose和AIRA-Design框架,通过自主设计神经网络架构,实现超越标准Transformer的基础模型,提升模型性能和效率。
Comments 55 pages, 28 figures, 21 tables
GAP:用于操作任务数据高效视觉运动学习的几何锚预训练
发表机构 * Department of Control and Computer Engineering, Polytechnic University of Turin(控制与计算机工程系,都灵理工大学)
AI总结 本文提出GAP,通过预训练空间适配器生成稳定的几何锚点,提升在稀疏数据下的视觉运动策略学习性能,实验显示其在多个任务中优于其他方法。
Comments Project webpage at https://lambdavi.github.io/gap
将音乐建模为时频图像:一种用于音乐生成的2D分词器
发表机构 * Department of Music AI and Information Technology, Central Conservatory of Music(音乐人工智能与信息技术系,中央音乐学院) ; Zhipu AI(智谱AI)
AI总结 本文提出BandTok,一种面向生成的2D梅尔频谱分词器,通过单个共享码本生成梅尔频带token,提升自回归建模能力,实验表明其在数据有限情况下表现优异。
通过跨时间情感建模实现自然和陪伴型虚拟代理
发表机构 * Communication University of China(中国通信大学) ; Microsoft Research Asia(微软亚洲研究院) ; Institute of Artificial Intelligence, China Telecom(中国电信人工智能研究院)
AI总结 本文提出CTEM框架,通过链接长期行为历史与即时情感表达,提升虚拟代理的自然性和情感和谐度,实验显示在21天的真实场景中效果显著。
Comments 21 pages, published in CHI '26
Journal ref Proceedings of the 2026 CHI Conference on Human Factors in Computing Systems (CHI '26), ACM, 2026
通过结构推断理解Grokking:Transformer需要贝叶斯彩票
发表机构 * Department of Computer Science(计算机科学系) ; University of Washington(华盛顿大学) ; Seattle, WA 98195(西雅图, WA 98195)
AI总结 研究探讨了Transformer在延迟泛化现象中的结构推断机制,提出贝叶斯彩票理论,解释了泛化延迟与结构学习的关系。
一种面向拓扑的时空切换框架用于连续多无人机跟踪
发表机构 * KIOS Research and Innovation Centre of Excellence (KIOS CoE)(KIOS研究与创新中心(KIOS CoE)) ; University of Cyprus(塞浦路斯大学)
AI总结 本文提出一种实时多摄像头多车辆跟踪系统,通过拓扑基于的时空切换机制解决多无人机视角下的身份持续性问题,实验显示其切换成功率高达99.8%,优于传统Re-ID方法。
Journal ref 2026 International Conference on Unmanned Aircraft Systems (ICUAS)
CLOVER:端到端自动驾驶规划的闭环价值估计与排序
发表机构 * Department of Automation, University of Science and Technology of China(中国科学技术大学自动化系) ; Institute for AI Industry Research, Tsinghua University(清华大学人工智能产业研究院) ; School of Electronic Information Engineering, Beihang University(北航电子信息技术学院) ; National College for Excellent Engineers, Beihang University(北航卓越工程师学院)
AI总结 CLOVER通过闭环价值估计与排序框架,解决端到端自动驾驶规划中训练与评估不匹配的问题,通过生成器和评分器的轻量级架构提升规划器性能,实现更准确的候选轨迹排序。
为离线策略评估设计日志策略
发表机构 * New York University(纽约大学) ; Spotify
AI总结 本文研究如何设计日志策略以最小化OPE误差,探讨了奖励与覆盖之间的根本权衡,并在不同信息场景下提出了最优策略。
CrystalReasoner: 基于推理和强化学习的性质条件晶体结构生成
发表机构 * Tsinghua University(清华大学) ; Radical AI ; New York University(纽约大学)
AI总结 CrystalReasoner通过引入物理先验和强化学习,实现从自然语言指令生成稳定且具有特定性质的晶体结构,提升了生成精度和科学合理性。
Comments Our work is available at https://crystalreasoner.github.io/, with code at https://github.com/wyy603/CrystalReasoner
主动学习者作为高效的PRP重排序器
发表机构 * ELIAS Lab, Departamento de Ingeniería, Universidad de San Andrés(ELIAS实验室,工程系,圣安德烈大学)
AI总结 本文将PRP重排序问题重新定义为从噪声成对比较中进行主动学习,证明主动排序器在受限调用下能提升NDCG@10性能,并引入随机方向oracle以降低计算成本。
Comments 13 pages, 7 figures. Preprint
PanoWorld:迈向360度全景世界的空间超感知
发表机构 * Zhejiang University(浙江大学) ; University of California, San Diego(加州大学圣地亚哥分校) ; University of California, Irvine(加州大学伊维特分校) ; The University of Hong Kong(香港大学)
AI总结 本文提出PanoWorld,通过构建全景原生理解能力,解决传统多模态大模型在空间感知上的不足,通过全景空间交叉注意力机制提升3D空间推理能力,并建立PanoSpace-Bench基准测试,验证了全景原生监督的有效性。
Comments Project page: https://wcpcp.github.io/PanoWorld
确保雾中的逻辑:带有LTL目标的可靠POMDP综合
发表机构 * Imperial College London(伦敦帝国理工学院) ; University College London(伦敦大学学院)
AI总结 本文提出一种新的可靠奖励塑造机制,用于在部分可观测马尔可夫决策过程中实现LTL目标的合成,通过增强的蒙特卡洛规划框架提升在部分可观测环境中的导航能力。
Comments Accepted by IJCAI-ECAI 2026, the 35th International Joint Conference on Artificial Intelligence
表示高阶网络:基于图的框架综述
AI总结 本文综述了用于表示高阶网络的图基框架,探讨了多方式、分层、时间、多层、递归和张量交互等方法,旨在提供统一视角以比较不同模型并识别合适工具。
Comments 170 pages. Peer-Reviewed Book. Publisher: Neutrosophic Science International Association (NSIA) Publishing House. ISBN: 978-1-59973-881-9
BEACON:一个用于从游戏数据中学习行为指纹的多模态数据集
AI总结 BEACON数据集通过高精度运动技能和认知负荷,为行为生物特征的鲁棒性测试提供严格压力测试,支持连续认证、行为建模和多模态学习。
NanoResearch: 为个性化研究自动化共进化技能、记忆与政策
发表机构 * Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; The Hong Kong University of Science and Technology(香港科技大学) ; Peking University(北京大学) ; Zhejiang University(浙江大学) ; Xi'an Jiaotong University(西安交通大学) ; East China University of Science and Technology(东华大学) ; The Chinese University of Hong Kong(香港中文大学)
AI总结 本文提出NanoResearch框架,通过三重共进化解决研究自动化中的个性化需求,提升研究效率与用户体验。
Comments 40 pages, 14 figures, 7 tables
HYPERPOSE:超几何运动相空间注意力用于3D人体姿态估计
AI总结 HYPERPOSE提出一种在双曲空间内进行时空推理的3D人体姿态估计框架,通过超几何运动相空间注意力机制保留人体骨骼的树状结构,提升几何精度和时间动态建模。
稀疏性推动计算:FFN架构如何重塑小规模Transformer中的注意力
发表机构 * University of Michigan(密歇根大学)
AI总结 研究通过单层Transformer在数字加法、模运算和直方图计数中发现,稀疏MoE路由将计算从FFN转移到注意力,且GLU门控旋转任务相关傅里叶结构至分布式子空间。
Comments Preprint
在人格坐标中线性探针是否表现得更优?
发表机构 * Independent Researcher(独立研究者) ; University of Manchester(曼彻斯特大学)
AI总结 本文研究了在人格坐标中是否存在能更稳健地捕捉有害行为的低维子空间,通过对比人格特定向量的PCA得到主成分,发现基于人格-PC投影训练的探针在多个数据集上表现更优。
Comments 15 pages, preprint. Revised version: corrected references and citation links; results unchanged
AIPO: 通过主动交互学习推理
发表机构 * Department of Data Science and AI, Faculty of Information Technology, Monash University, Australia(数据科学与人工智能系,信息科技学院,墨尔本大学,澳大利亚)
AI总结 AIPO通过主动多智能体交互提升大语言模型推理能力,引入三个协作代理解决推理瓶颈,改进探索效率并扩展能力边界。
Comments Preprint
通过视觉手写特征的证据深度回归进行历史手稿的概率年代测定
发表机构 * Kent State University(肯特州立大学)
AI总结 本文提出一种基于视觉特征的深度回归方法,用于确定历史手稿的年代,通过分解不确定性提升预测精度,实验显示模型在测试集上取得优异性能。
ProCompNav:基于比较判断的主动实例导航
发表机构 * GSAI, POSTECH(POSTECH人工智能研究所) ; CSE, POSTECH(POSTECH计算机科学与工程系) ; Oracle(Oracle公司)
AI总结 ProCompNav通过两阶段框架解决用户查询歧义问题,通过比较判断逐步缩小候选集,提升导航成功率并减少用户响应长度。
Comments Project page: https://tree-jhk.github.io/procompnav/ . Code: https://github.com/tree-jhk/procompnav/
FutureWorld: 一个用于预测代理的实时强化学习环境,具有现实世界结果奖励
发表机构 * College of Software, Nankai University(南开大学软件学院) ; Academy of Mathematics and Systems Science, Chinese Academy of Sciences(中国科学院数学与系统科学研究院) ; School of Computer Science and Technology, University of Science and Technology of China(中国科学技术大学计算机科学与技术学院) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; IIIS, Tsinghua University(清华大学智能系统与信息工程研究院) ; Zhongguancun Academy, Beijing, China(北京中关村学院)
AI总结 本文提出FutureWorld,一个实时强化学习环境,通过闭环预测、结果实现与参数更新,提升预测准确性与校准能力。
Comments The code will be released in the near future. The experiments are currently ongoing
基于神经方法和结构方法的命令式程序图构建与匹配
发表机构 * Maynooth University(梅诺思大学)
AI总结 本文提出通过神经和结构方法构建命令式程序图,实现跨语言和注释风格的图表示一致性,为语义丰富和近似图匹配提供基础。
Comments 20 Pages. Technical Report. Maynooth University, Ireland. Submitted on 29 April 2026
CAP:用于大语言模型中去学习的可控对齐提示
发表机构 * School of Information and Software Engineering, University of Electronic Science and Technology of China(电子科技大学信息与软件学院)
AI总结 本文提出CAP框架,通过强化学习将去学习过程转化为可学习的提示优化,实现可控的去学习,无需更新模型参数,解决了现有方法的计算成本高、遗忘边界不可控等问题。
Comments Accpeted to ACL 2026 Main Conference
基于3D医学影像的区域 grounded 报告生成:一个细粒度数据集和图增强框架
发表机构 * AI4LIFE, Hanoi University of Science and Technology, Vietnam(AI4LIFE,河内科学技术大学,越南) ; SAMOVAR, Télécom SudParis, Institut Polytechnique de Paris, France(SAMOVAR,Telecom SudParis,巴黎理工学院,法国) ; Military Central Hospital, Vietnam(108军区中央医院,越南)
AI总结 本文提出VietPET-RoI数据集和HiRRA框架,通过图增强模块捕捉RoI属性依赖,提升3D PET/CT报告生成的临床可靠性,实验表明其在BLEU、ROUGE-L和临床指标上均优于现有方法。
Comments 16 pages; Accepted to appear in ACL 2026
A3-FPN:渐近内容感知金字塔注意力网络用于密集视觉预测
发表机构 * Henan Engineering Research Center for Artificial Intelligence Theory and Algorithms(人工智能理论与算法河南省工程研究中心) ; Henan University(河南大学) ; Faculty of Computer Science and Control Engineering(计算机科学与控制工程学院) ; Shenzhen University of Advanced Technology(深圳先进技术大学) ; Department of Electrical and Electronic Engineering(电子与电气工程系)
AI总结 本文提出A3-FPN,通过渐近解耦框架和内容感知注意力模块增强多尺度特征表示,提升密集预测任务中小物体的识别性能。
Journal ref Pattern Recognition, 2026, 113793
边缘目标检测在故障注入下的硬件利用与推断性能
发表机构 * Hamm-Lippstadt University of Applied Sciences (HSHL)(哈姆-利普施塔特应用科学大学(HSHL))
AI总结 研究通过故障注入测试评估了TensorRT优化的YOLO模型在边缘平台上的硬件行为,发现其在资源降级下保持稳定性能,为边缘推断可靠性提供硬件层面的视角。
KV缓存卸载用于上下文密集型任务
发表机构 * HSE(俄罗斯人民友谊大学) ; Yandex ; NSU(俄罗斯国立核能研究大学梅利科夫)
AI总结 本文研究了KV缓存卸载在上下文密集型任务中的应用,通过Text2JSON基准测试发现,该方法在Llama 3和Qwen 3模型上导致性能下降,分析指出低秩投影和不可靠地标是主要问题,并提出更简单的替代策略以提升准确性。
Comments Preprint
人类和人工神经系统的语言构造收敛表征
发表机构 * Department of English and American Studies, University Erlangen-Nuremberg(英语与美国研究系,埃尔朗根-纽伦堡大学) ; Pattern Recognition Lab, University Erlangen-Nuremberg(模式识别实验室,埃尔朗根-纽伦堡大学) ; Neuromodulation and Neuroprosthetics, University Hospital Mannheim, University Heidelberg(神经调控与神经假体,曼海姆大学医院,海德堡大学) ; BGU Ludwigshafen, Germany(吕贝克大学吕贝克分校,德国) ; Neuroscience Lab, University Hospital Erlangen(神经科学实验室,埃尔朗根大学医院)
AI总结 研究通过EEG验证人类神经活动对语言构造的表征,发现句末alpha波段出现构造特异性神经签名,与人工语言模型的构造表征模式相似,支持语言构造作为形式-意义映射的神经编码。
大语言模型作为优化控制器:SIMP拓扑优化的自适应延续
发表机构 * Department of Mechanical Engineering, Santa Clara University(圣克拉拉大学机械工程系)
AI总结 本文提出利用大语言模型作为SIMP拓扑优化的在线自适应控制器,通过实时状态条件参数决策替代传统固定调度延续方法,提升优化效果。
Comments 32 pages, 11 figures
IndicSafe:评估南亚多语言大语言模型安全性的基准
发表机构 * Oracle America Inc.(Oracle美洲公司)
AI总结 本文提出IndicSafe基准,评估12种南亚语言中LLM的安全性,发现跨语言一致性仅12.8%,安全率波动超17%,揭示多语言LLM安全泛化缺口。
MESD:一种用于跨交集子组解释公平性的风险敏感度度量
AI总结 本文提出MESD,一种衡量不同交集子组解释质量差异的程序公平度量,结合标签感知聚合、经验贝叶斯收缩和CVaR加权,通过多目标优化框架UEF优化效用、结果公平和程序公平。
在部分可观测性下对手状态推断:一种用于2026年F1能源策略的HMM-POMDP框架
发表机构 * Independent Researcher(独立研究者)
AI总结 本文提出HMM-POMDP框架用于2026F1能源策略,通过HMM推断对手状态并利用DQN决策,解决部分可观测博弈问题,检测反收割陷阱。
Comments 17 pages. v3: editorial corrections and bibliographic updates. Pre-registered theoretical framework; empirical calibration on 2026 race telemetry from Australian Grand Prix (8 March 2026) onwards
Brain-OF:一种适用于fMRI、EEG和MEG的多功能基础模型
发表机构 * INM-4, Forschungszentrum Jülich, Germany(Jülich 研究中心 INM-4 实验室,德国) ; Department of Computer Science(计算机科学系) ; Software Engineering, RWTH Aachen University, Germany(软件工程,亚琛工业大学,德国) ; INM-7, Forschungszentrum Jülich, Germany(Jülich 研究中心 INM-7 实验室,德国) ; Institute of Systems Neuroscience, Heinrich Heine University, Germany(系统神经科学研究所,海因里希·海涅大学,德国) ; Department of Neurology, RWTH Aachen University, Germany(神经病学系,亚琛工业大学,德国) ; JARA-BRAIN-Translational Medicine, Germany(JARA-BRAIN 转化医学,德国) ; INM–11, JARA, Forschungszentrum Jülich, Germany(JARA-INM-11 实验室,Jülich 研究中心,德国) ; IAS-6, Forschungszentrum Jülich, Germany(IAS-6 实验室,Jülich 研究中心,德国) ; Department of Psychiatry, Psychotherapy and Psychosomatics, RWTH Aachen University, Germany(精神病学、心理治疗和精神病理学系,亚琛工业大学,德国)
AI总结 Brain-OF通过联合预训练fMRI、EEG和MEG数据,解决多模态数据语义异质性和分辨率差异问题,提升跨模态数据处理能力。
当AI说服人:对抗性解释攻击对人类信任AI辅助决策的影响
发表机构 * Clemson University(克莱姆森大学)
AI总结 本文研究了对抗性解释攻击如何通过操控LLM生成的解释框架,影响人类对AI输出的信任,揭示了认知层的新型安全风险。
小规模可泛化提示预测模型可引导大推理模型的高效强化学习后训练
发表机构 * Department of Automation, Tsinghua University, Beijing, China(自动化系,清华大学,北京,中国) ; LLM Department, Tencent, Beijing, China(大模型部门,腾讯,北京,中国)
AI总结 本文提出GPS方法,通过轻量级生成模型进行提示难度的贝叶斯推断,结合中间难度优先和历史锚定多样性,提升大模型强化学习后的训练效率和测试效率。
所有个体层都有帮助吗?视觉-语言模型中任务干扰层的实证研究
发表机构 * Harbin Institute of Technology, Shenzhen(哈尔滨工业大学(深圳)) ; Harbin Institute of Technology(哈尔滨工业大学) ; Southeast University(东南大学) ; Central South University(中南大学) ; National University of Singapore(新加坡国立大学) ; The Hong Kong University of Science and Technology, Guangzhou(香港科学与技术大学(广州))
AI总结 研究通过层干预发现部分层阻碍下游任务,提出任务自适应层剔除方法提升性能,揭示预训练VLM的意外模块化特性。
ExplainerPFN:迈向无模型零样本特征重要性估计的表格基础模型
发表机构 * INESC-ID ; New York University(纽约大学)
AI总结 本文提出ExplainerPFN,一种基于TabPFN的表格基础模型,通过预训练合成结构因果数据实现无模型零样本特征重要性估计,展示了其在真实和合成数据集上的竞争力。
Comments 35 pages, 11 figures
稳健的AI安全与对齐:一项西西弗斯式的努力?
发表机构 * CSD/ITL(计算机科学与技术实验室)
AI总结 本文通过扩展哥德尔不完全性定理,探讨了AI安全与对齐的理论极限,并提出应对挑战的实践方法,揭示了AI系统认知推理的局限性。
Comments 17 pages, 1 figure. This version will appear in IEEE Security $ Privacy in June 2026
图正则化稀疏自编码器用于LLM安全引导
发表机构 * ELLIS Institute Tübingen(图宾根ELLIS研究所) ; Max Planck Institute for Intelligent Systems(智能系统马克斯·普朗克研究所) ; Intesa Sanpaolo(Intesa Sanpaolo公司) ; University of Southern California(南加州大学)
AI总结 本文提出图正则化稀疏自编码器,通过在神经元共激活图上平滑解码器向量并应用方向库,提升安全引导效果,在多个基准测试中显著提高有害请求拒绝率。
LLM-EDT: 基于大语言模型的跨领域序列推荐增强方法与双阶段训练
发表机构 * City University of Hong Kong Hong Kong China ; Xi'an Jiaotong University \& City University of Hong Kong Xi'an China ; University of Science ; Independent Researcher Beijing China ; Tsinghua University Beijing China ; City University of Hong Kong ; Xi'an Jiaotong University \& City University of Hong Kong ; Independent Researcher ; Tsinghua University
AI总结 本文提出LLM-EDT,通过双阶段训练策略解决跨领域序列推荐中的领域不平衡和过渡问题,引入可转移物品增强器和领域感知配置模块,提升推荐效果。
数据库中的充分解释及其与数据库修复的关系
发表机构 * Carleton University, Canada \& IMFD, Chile. University of Edinburgh, UK.
AI总结 研究数据库中充分解释的概念及其与数据库修复的联系,提出基于答案集程序计算充分解释和度量的方法。
前沿大语言模型与最先进的规划器相媲美
发表机构 * University of Oxford(牛津大学) ; Federal University of Rio Grande do Sul(里约格兰德杜斯尔大学) ; Linköping University(林霍普大学)
AI总结 研究显示前沿大语言模型在规划任务中超越传统规划器, Gemini 3.1 Pro在标准任务中表现突出,GPT-5表现接近基线,且在符号规划中仍具竞争力,揭示了大语言模型规划能力的提升趋势。
SemanticOpt: 向基于LLM的语义黑盒优化迈进
发表机构 * MIT(麻省理工学院) ; MIT-IBM Watson AI Lab(麻省理工-IBM沃森人工智能实验室)
AI总结 SemanticOpt利用LLM处理语义信息,通过微调结构化贝叶斯优化轨迹与自然语言上下文,提升黑盒优化性能,在多个实际问题中优于传统方法和现有LLM方法。
单调和可分离的集合函数:特征化与神经模型
发表机构 * IIT Bombay(印度理工学院班加罗尔分校) ; Technion(技术学院)
AI总结 本文研究了保持集合自然偏序的集合到向量函数设计,提出弱MAS属性模型,展示了其在集合包含任务中的优势。
ADMIT: RAG基事实核查中的少样本知识污染攻击
发表机构 * Deakin University(德金大学) ; Fudan University(复旦大学) ; City University of Hong Kong(香港城市大学)
AI总结 ADMIT提出一种无需访问目标模型的少样本攻击方法,通过注入真实证据来翻转事实核查决策,实验显示其在多种系统中成功率达86%,揭示了RAG事实核查系统的重大漏洞。
UniShield: 一种适应性多智能体框架用于统一的伪造图像检测与定位
发表机构 * School of Electronic and Computer Engineering, Peking University(北京大学电子与计算机工程学院) ; School of Future Technology, South China University of Technology(华南理工大学未来技术学院) ; School of Electronic and Information Engineering, South China University of Technology(华南理工大学电子与信息工程学院) ; Guangdong Provincial Key Laboratory of Ultra High Definition Immersive Media Technology, Shenzhen Graduate School, Peking University(北京大学深圳研究生院超高清沉浸媒体技术省重点实验室)
AI总结 UniShield通过多智能体框架实现跨领域伪造图像检测与定位,提升检测的适应性和实用性。
如何训练你的导师:通过导师模型引导黑盒大语言模型
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Bespoke Labs(Bespoke实验室)
AI总结 本文提出Advisor Models,通过训练小型开放权重模型生成动态个性化建议,提升黑盒前沿模型性能,实验显示在多个任务中效果显著,且具有良好的迁移性和鲁棒性。
Comments International Conference on Machine Learning (ICML) 2026
BioBlobs:无监督发现蛋白质功能预测的的功能子结构
发表机构 * Vanderbilt University(范德比大学) ; Yale University(耶鲁大学)
AI总结 BioBlobs通过无监督方法发现蛋白质的功能子结构,利用端到端可微分框架压缩蛋白质为少量连贯子结构并预测功能,实现了对功能区域的候选识别。
动态树RPO:通过结构化采样打破独立轨迹瓶颈
发表机构 * Sun Yat-sen University(中山大学) ; Tsinghua University(清华大学) ; Beijing University of Chemical Technology(北京化工大学)
AI总结 本文提出动态树RPO,通过树状结构采样策略和动态噪声强度,提升文本到图像生成的质量与效率,同时结合层调优强化学习方法,在多个基准测试中表现出色。
Comments Fig.3 updated
无痛激活导向:一种自动化、轻量级的微调大型语言模型方法
发表机构 * Yale University(耶鲁大学)
AI总结 本文提出Painless Activation Steering,一种自动化方法,无需人工干预即可利用标注数据提升模型性能,尤其在行为任务中表现优异,但对智能任务效果有限。
假设逻辑:从零到全面知识的神经符号整合
发表机构 * University of Padua(帕多瓦大学) ; Fondazione Bruno Kessler(布鲁诺·科斯勒基金会) ; University of Bozen-Bolzano(博赞-博尔扎诺大学)
AI总结 本文提出LoH语言,结合数据驱动规则学习与符号先验和专家知识,实现神经符号整合的灵活统一,并通过模糊逻辑实现可微计算图编译。
精度降低可能更可靠:对VLMs量化影响的系统评估
发表机构 * Computer Vision Center(计算机视觉中心)
AI总结 本文系统评估了量化对VLMs可靠性的影响,发现量化能提升准确率、校准、异常检测和抗噪能力,但不改善协变量偏移或虚假相关性。
Comments Accepted at ICML 2026
自引导在线数据精炼用于扩散模型训练
发表机构 * University of Glasgow(格拉斯哥大学) ; Dotphoton
AI总结 本文研究自引导和在线数据选择方法对扩散模型训练效率的影响,通过合成数据任务验证了自引导在样本质量和多样性上的优势。
Comments Accepted non-archival paper at ICCV 2025 Workshop on Curated Data for Efficient Learning (CDEL)
CIS-BWE: 基于混沌的语音带宽扩展
发表机构 * Chittagong University of Engineering and Technology(奇坦加大学工程与技术学院) ; George Mason University(乔治·梅森大学)
AI总结 本文提出NDSI-BWE框架,利用六种基于非线性动力学系统的判别器捕捉语音的复杂时间行为,通过深度卷积实现参数减少,提升语音带宽扩展性能。
可扩展的多语言模型协作系统:基于检索的选择与探索-利用驱动增强
发表机构 * Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; The Chinese University of Hong Kong(香港中文大学) ; Fudan University(复旦大学) ; Shanghai Jiao Tong University(上海交通大学)
AI总结 本文提出SMCS系统,通过检索优先选择模块和探索-利用驱动后验增强模块,有效协调多个开源语言模型,实验显示其在多个任务中优于闭源模型,且在不同数据集上超越开源模型的平均最佳结果。
通过大语言模型实现人类样式的规划
发表机构 * Navy Center for Applied Research in AI, US Naval Research Laboratory(美国海军人工智能应用研究中心)
AI总结 本文研究如何结合自然语言接口与拖放界面,利用大语言模型生成人类风格的动作序列,并与手工指定的动作序列进行比较。
Comments Accepted by the 2025 34th IEEE International Conference on Robot and Human Interactive Communication (RO-MAN)
COCO-Inpaint:用于检测和定位基于修补的图像篡改的基准
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Ant Group(蚂蚁集团)
AI总结 本文提出COCO-Inpaint基准,用于检测和定位基于修补的图像篡改,通过高质样本、多样场景和大规模覆盖,揭示修补与真实区域的内在不一致。
Comments 6 pages, 8 figures
中国模型会说中文吗?
发表机构 * Cornell University(康奈尔大学)
AI总结 本文通过比较中西方开源大模型的多语言能力,发现中国模型在多数语言上表现与西方模型相似,但对部分中国少数民族语言识别能力较弱,揭示了多语言发展中的优先级与权衡。
Comments First and second author contribute equally
Tube Loss:预测区间估计的一种新方法
发表机构 * Dhirubhai Ambani University (Formerly DA-IICT)(迪鲁巴希阿米大学(原达乌学院)) ; Indian Institute of Technology, Delhi(印度理工学院德里分校)
AI总结 本文提出Tube Loss损失函数,用于回归任务中同时估计预测区间边界。该方法能渐近达到指定置信水平,允许用户调整区间位置以优化覆盖范围和宽度,适用于偏斜分布。
通用大型语言模型对加拿大新移民融入社会的潜在风险
发表机构 * National Research Council Canada(加拿大国家研究委员会) ; Mila - Quebec Artificial Intelligence Institute(魁北克人工智能研究所)
AI总结 研究探讨通用大语言模型在移民安置领域可能带来的风险,强调需开发定制化AI工具以确保人类监督与责任。
Comments 26 pages, 8 figures
FM-G-CAM:计算机视觉中可解释AI的综合方法
发表机构 * Department of Computer Science Nottingham Trent University(计算机科学系诺丁汉特大学)
AI总结 本文提出FM-G-CAM方法,通过综合考虑多个预测类别,提供CNN模型决策的全面解释,改进传统Grad-CAM的局限性。
联邦学习中的近似和加权数据重建攻击
发表机构 * Division of Mathematical Sciences, School of Physical and Mathematical Sciences, Nanyang Technological University(南洋理工大学数学科学学院,物理与数学科学学院) ; Chair for Dynamics, Control, Machine Learning and Numerics – Alexander von Humboldt Professorship, Department of Mathematics, Friedrich-Alexander-Universität Erlangen-Nürnberg(动态、控制、机器学习和数值学主席职位,数学系,埃尔兰根-纽伦堡弗里德里希-亚历山大大学) ; Chair of Computational Mathematics, Fundación Deusto(计算数学主席,德乌斯基金会) ; Departamento de Matemáticas, Universidad Autónoma de Madrid(数学系,马德里自治大学)
AI总结 本文提出了一种基于插值的近似方法,用于攻击联邦学习中的联邦平均场景,通过生成客户端本地训练过程中的中间模型更新,改进数据重建质量,并通过实验验证了其在图像数据重建中的优越性。
生成语义通信:扩散模型超越位恢复
发表机构 * Dept. of Information Engineering, Electronics, and Telecommunication, Sapienza University of Rome(信息工程、电子与电信系,罗马萨皮恩扎大学)
AI总结 本文提出一种新的生成扩散框架,利用扩散模型合成多媒体内容并保留语义特征,通过空间自适应归一化生成语义一致的场景,提升在信道噪声下的图像生成质量。
Journal ref IEEE Transactions on Cognitive Communication and Networking, 2026
认知蒙特卡洛树搜索
发表机构 * Delft University of Technology(代尔夫特理工大学)
AI总结 本文提出Epistemic MCTS,通过考虑认知不确定性提升搜索效率,在代码编写等稀疏奖励任务中表现更优。
动态环境中的拉马克继承:关键变量如何影响进化动态
发表机构 * Department of Informatics, University of Oslo, Norway(奥斯陆大学信息学院) ; RITMO, University of Oslo, Norway(奥斯陆大学RITMO)
AI总结 本文研究动态环境中关键变量对进化动态的影响,通过虚拟软机器人和两种学习方法,发现拉马克继承在环境变化冲突且不可预测时表现欠佳,但添加环境感知传感器可恢复其优势。
GRASP:学习多个人非语言互动中的社会推理
发表机构 * University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; Georgia Institute of Technology(佐治亚理工学院) ; Amazon AGI Korea University(亚马逊AGI韩国大学)
AI总结 GRASP通过连接高层社会问答与细粒度目光和指代手势事件,提升多个人非语言互动的社会推理能力,包含290万对问题-答案对,提出Social Grounding Reward提升模型性能。
Comments Project page: https://social-reaoning.github.io/grasp/
CompactQE: 通过小规模开源大语言模型实现可解释的翻译质量估计
发表机构 * Laniqo ; Faculty of Mathematics and Computer Science, Adam Mickiewicz University(亚当·密茨凯维奇大学数学与计算机科学学院)
AI总结 本文提出CompactQE,利用小规模开源大语言模型实现翻译质量估计,生成质量评分、错误标注、修正建议和完整润色,其性能优于传统指标和人类标注。
BiomedAP: 一种基于视觉的双锚框架与门控跨模态融合用于鲁棒的医学视觉-语言适应
发表机构 * Wenzhou University(温州大学) ; Wenzhou Business College(温州商务学院)
AI总结 BiomedAP通过门控跨模态融合和双锚约束机制,提升医学视觉-语言模型在提示变化下的鲁棒性,实验显示其在多个基准上均优于基线方法。
Comments CVPR2026 Workshop
我们能否信任AI推断的用户状态。一种用于验证由LLMs在操作环境中对用户状态分类的可靠性的人格测量框架
发表机构 * Orange Research, AI Center(Orange研究院、人工智能中心)
AI总结 本文通过实证测试检验了使用大语言模型评估用户状态的假设,探讨了AI测量在人格测量中的可靠性问题,并提出可复制的评估框架以提高适应性系统的AI设计可靠性。
Comments Full survey article with data tables for futher possible replicabilty and comparison
在启发式世界模型中的结构抽象与泛化
发表机构 * Peking-Tsinghua Center for Life Sciences, Academy for Advanced Interdisciplinary Studies, IDG/McGovern Institute for Brain Research, Center of Quantitative Biology, School of Psychological and Cognitive Sciences, Key Laboratory of Machine Perception (Ministry of Education), Peking University(北京大学-清华大学生命科学中心,先进跨学科研究院,IDG/麦克戈文脑科学研究院,定量生物学中心,心理与认知科学学院,机器感知重点实验室(教育部),北京大学)
AI总结 本文提出了一种脑启发的分层模型,通过逆向模型提取潜在转换并构建预测视觉世界模型,展示了在连续高维动态中同时提取抽象结构的能力,实现了结构泛化。
Comments Project page: https://hpc-mec-worldmodel.github.io/
DecomPose:解耦跨类优化冲突以实现类别级6D物体姿态估计
发表机构 * Hubei Key Laboratory of Intelligent Robot, Wuhan Institute of Technology, Wuhan, Hubei, China(智能机器人湖北省重点实验室,武汉理工大学,武汉,湖北,中国) ; University of Science(科学技术大学) ; Peking University, Beijing, China(北京大学,北京,中国)
AI总结 本文提出DecomPose框架,通过数据驱动的难度代理和不对称分支策略,解耦跨类优化冲突,提升类别级6D姿态估计性能。
走出舒适区:为RLVR的高效策略引导探索
发表机构 * KAIST(韩国科学技术院)
AI总结 本文提出NudgeRL框架,通过策略引导实现结构化和多样性探索,提升RLVR在数学基准上的表现,相比标准GRPO和oracle引导方法更高效。
Comments 28 pages, 7 figures
DiLA:解耦的潜在动作世界模型
发表机构 * Peking-Tsinghua Center for Life Sciences, Academy for Advanced Interdisciplinary Studies, IDG/McGovern Institute for Brain Research, Peking University(北京大学-清华生命科学中心,先进跨学科研究院,IDG/麦克戈文脑科学研究院,北京大学) ; Center of Quantitative Biology, Peking University(北京大学定量生物学中心) ; School of Psychological and Cognitive Sciences, Key Laboratory of Machine Perception (Ministry of Education), Peking University(心理与认知科学学院,机器感知重点实验室(教育部),北京大学)
AI总结 DiLA通过内容-结构解耦解决动作抽象与生成保真度的平衡问题,实现高质量视频生成和动作迁移。
Comments Project Page: http://disentangled-latent-action-world-models.github.io
双向融合引导心脏模式用于半监督ECG分割
发表机构 * VUNO Inc.(VUNO公司)
AI总结 本文提出CardioMix框架,通过心脏模式引导的双向CutMix策略提升ECG分割性能,实验表明其在多种数据集和标注比例下均优于现有方法。
Comments 11 pages, 6 figures, 6 tables
位置:标注流程早期阶段的质量保证比后期验证更具成本效益
发表机构 * Centific AI Research(科学人工智能研究)
AI总结 本文指出标注流程早期质量保证比后期验证更有效,强调时间因素对误差率和成本的影响,提出三种质量保证触发点并建议改进研究和实践方法。
Comments 8 pages
学习动态抓取与放置用于四足机械臂
发表机构 * Robotics and Artificial Intelligence Lab, KAIST(机器人与人工智能实验室,韩国科学技术院)
AI总结 本文提出一种分层强化学习框架,用于四足机械臂的动态抓取与放置任务,通过模拟和现实实验验证了其在不同负载和工作空间下的高成功率。
Comments Accepted to IEEE Robotics and Automation Letters 2026
Journal ref IEEE Robotics and Automation Letters, vol. 11, no. 6, pp. 7652-7659, 2026
反馈世界模型使扩散策略获得精准指导
发表机构 * MARS Lab, Nanyang Technological University(南洋理工大学MARS实验室)
AI总结 本文提出反馈世界模型,通过实时反馈修正预测误差,提升机器人决策性能,实验显示在分布偏移下预测准确率和策略表现显著提升。
Comments 21 pages, 9 figures
H-Mem: 一种通过混合结构进化和检索智能体记忆的新型记忆机制
发表机构 * The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳)) ; Huawei Cloud Computing Technologies CO., LTD.(华为云计算技术有限公司)
AI总结 H-Mem通过混合结构有效建模智能体记忆的长期演化并高效检索记忆数据,提升问答任务性能。
$α$-TCAV:基于概念激活向量的测试统一框架
发表机构 * Department of Computer Science(计算机科学系) ; Department of Artificial Intelligence(人工智能系) ; Aalto University(阿alto大学) ; Fraunhofer Heinrich Hertz Institute(弗劳恩霍夫海因里希·赫兹研究所) ; Department of Artificial Intelligence, Fraunhofer HHI(人工智能系,弗劳恩霍夫HHI研究所) ; Huawei Noah’s Ark Lab(华为诺亚实验室) ; Department of EECS, Technische Universität Berlin(电子工程与计算机科学系,柏林技术大学)
AI总结 本文提出$α$-TCAV框架,解决传统TCAV方法中因指示函数不连续导致的方差问题,通过参数化平滑函数统一概率表述,并提供参数调优指导,挑战现有实践惯例。
Comments 44 pages, 12 figures
群体属性中的交互感知影响函数
发表机构 * GSAI, POSTECH(POSTECH 人工智能研究所) ; CSE, POSTECH(POSTECH 计算科学与工程系)
AI总结 本文提出交互感知影响函数,通过考虑样本间相互作用来改进群体属性评估,实验显示其在多个任务中优于传统方法。
VLMs 跟踪无需跟踪:诊断视觉路径跟随中的失败
发表机构 * Yonsei University(延世大学)
AI总结 研究VLMs在视觉路径跟随任务中的表现,发现其在面对局部相似干扰时易切换路径,揭示局部竞争导致的失败原因。
PRISM:通过迭代模拟和监控实现提示的可靠性用于企业对话式AI
AI总结 PRISM通过持续模拟和监控,将提示工程视为可靠性工程问题,提升企业对话式AI的可靠性,减少提示开发时间并修复生产中的回归问题。
Comments 12 pages, 1 figure, 5 tables. arXiv preprint
VAGS:图像编辑与生成的速率自适应引导尺度
发表机构 * Harvard AI and Robotics Lab(哈佛人工智能与机器人实验室) ; Harvard University(哈佛大学) ; School of Computing and Data Science(计算与数据科学学院) ; The University of Hong Kong(香港大学) ; Kempner Institute for the Study of Natural and Artificial Intelligence(自然与人工智能研究学院)
AI总结 VAGS通过自适应引导尺度提升图像编辑和生成的结构保真度和生成质量,无需微调或额外计算。
TFZ-Tree:一种面向资源受限设备的超轻量波形分类框架
发表机构 * x86 platform(x86平台) ; Einstein-sworder
AI总结 本文提出TFZ-Tree框架,通过时间频率多维特征和优化的Z检验树实现超轻量波形分类,实现在资源受限设备上实时识别十种物联网波形类型,测试精度达99.5%。
Logit固定点的尖锐谱阈值
发表机构 * Southeast University(东南大学)
AI总结 研究探讨了logit反馈系统稳定性问题,提出新的欧几里得阈值条件以扩展稳定性保证,识别相变点。
ColPackAgent:基于代理技能的硬粒子蒙特卡罗工作流程用于胶体堆积
发表机构 * Neutron Scattering Division, Oak Ridge National Laboratory, Oak Ridge, TN 37831, USA(奥克勒德国家实验室中子散射部)
AI总结 ColPackAgent通过MCP工具服务器和代理技能实现胶体堆积模拟的自主工作流程,展示了如何利用LLM代理执行模拟任务并评估不同模型的性能。
潜在视频预测学习更好的世界模型
发表机构 * The University of Melbourne(墨尔本大学) ; Monash University(莫纳什大学)
AI总结 本文系统研究了潜在预测模型在世界模型中的鲁棒性,发现其在特征可区分性、抗污损性、细粒度辨别、遮挡鲁棒性和时间方向敏感性等方面表现优异,优于其他视频基础模型。
几块GPU,大量规模:PrismLLM实现忠实的LLM训练仿真
发表机构 * Alibaba Group(阿里巴巴集团) ; Harvard University(哈佛大学) ; Shanghai Jiao Tong University(上海交通大学) ; Zhejiang University(浙江大学)
AI总结 PrismLLM通过切片方法构建高保真执行图,使工程师能用少量GPU模拟大规模训练行为,准确复现性能和内存表现,节省集群访问成本。
Comments 13 pages body, 21 pages total
TopoEvo: 一种面向拓扑的自演化多智能体框架用于微服务中的根本原因分析
发表机构 * School of Artificial Intelligence, Beihang University Beijing, China(人工智能学院,北京航空航天大学,北京,中国)
AI总结 针对微服务中观测数据异质性、故障传播和拓扑漂移问题,TopoEvo通过多模态对齐、拓扑约束推理和自演化机制,提升根本原因分析的鲁棒性与准确性。
Comments 12 pages
离线强化学习中的通用时间 horizon 模型
发表机构 * Interdisciplinary Program in Artificial Intelligence and ASRI, Seoul National University(人工智能交叉学科项目及首尔国立大学ASRI) ; Department of Electrical and Computer Engineering, Seoul National University(电气与计算机工程系,首尔国立大学)
AI总结 本文提出通用时间 horizon 模型,通过灵活预测任意时间 horizon 的未来状态,改进了传统几何时间 horizon 模型在远期状态建模上的不足,并在100个OGBench任务中验证了其有效性。
Comments ICML 2026
在编码前看到:学习视觉先验以生成空间感知的教育动画
发表机构 * Wuhan University(武汉大学) ; University of Chinese Academy of Sciences(中国科学院大学)
AI总结 本文提出OmniManim框架,通过视觉规划和反馈机制提升教育动画生成质量,改进渲染效果和教学效果。
Comments 21 pages, 4 figures
STAR: 一种针对微服务中RCA代理的阶段属性分诊与修复框架
发表机构 * School of Artificial Intelligence, Beihang University Beijing, China(人工智能学院,北京航空航天大学,北京,中国)
AI总结 本文提出STAR框架,通过将RCA流程分解为四个阶段,提升微服务中RCA代理的可靠性与自修复能力。
Comments 11 pages
通过代理程序分析检测多语言微服务中的特权提升
发表机构 * Columbia University(哥伦比亚大学) ; Johns Hopkins University(约翰霍普金斯大学)
AI总结 本文提出Neo框架,结合LLM和经典程序分析,解决微服务中特权提升检测的复杂性问题,发现24个零日漏洞,精度和召回率均优于现有方法。
Comments In Proceedings of the 47th IEEE Symposium on Security and Privacy (S&P)
位置:人工智能需要元智能——元认知AI的案例
发表机构 * University of Texas Rio Grande Valley, Edinburg, TX, USA(德克萨斯大学里奥格兰德谷分校) ; Rochester Institute of Technology, Rochester, NY, USA(罗切斯特理工学院) ; Syracuse University, Syracuse, NY, USA(锡拉库萨大学)
AI总结 本文主张将元认知作为设计更准确、安全和高效AI的通用原则,通过联邦学习案例展示元认知提升学习效率和安全性的方法,提出新的软件框架用于实现元认知AI。
Comments This is a preliminary version accepted for presentation and publication at the 43rd International Conference on Machine Learning (ICML26). The modified final version will be available in the conference proceedings
AstraFlow:面向代理大语言模型的数据流强化学习
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; University of Michigan(密歇根大学) ; UC Berkeley(加州大学伯克利分校) ; Meta
AI总结 AstraFlow通过数据流导向的强化学习系统,实现复杂多策略协作训练和高效利用异构计算资源,提升代理LLM的推理与工具使用能力。
CTF4Nuclear: 用于核裂变和核聚变模型的通用任务框架
发表机构 * Autodesk Research(Autodesk研究院) ; Department of Energy, Nuclear Engineering Division, Politecnico di Milano(能源部,核工程系,米兰理工学院) ; Nuclear Science and Engineering, Massachusetts Institute of Technology(核科学与工程,麻省理工学院) ; Department of Applied Mathematics, University of Washington(应用数学系,华盛顿大学) ; Department of Electrical and Computer Engineering, University of Washington(电气与计算机工程系,华盛顿大学) ; High Performance Machine Learning, SURF(高性能机器学习,SURF) ; Distyl AI ; Department of Computer Science, Columbia University(计算机科学系,哥伦比亚大学) ; Department of Mechanical Engineering, University of Washington(机械工程系,华盛顿大学) ; Department of Mechanical Engineering, Politecnico di Milano(机械工程系,米兰理工学院) ; Department of Mathematics, American University in Beirut(数学系,贝鲁特美国大学) ; Department of Mechanical Engineering, American University in Beirut(机械工程系,贝鲁特美国大学) ; Department of Applied Mathematics and Theoretical Physics, University of Cambridge(应用数学与理论物理系,剑桥大学)
AI总结 本文提出CTF4Nuclear框架,用于核工程中机器学习方法的标准化评估,通过12个指标和稀疏测量系统监控,提升核工业科学ML的严谨性和可重复性。
基于词嵌入技术的领域无关游戏抽象
发表机构 * CMU Strategic Machine, Inc.(CMU战略机器公司) ; Strategy Robot, Inc.(策略机器人公司) ; Optimized Markets, Inc.(优化市场公司)
AI总结 本文提出一种基于自然语言处理的词嵌入技术进行游戏抽象的方法,通过将动作视为词,利用词向量表示和聚类实现领域无关的游戏抽象,实验表明该方法有效但不如专用算法。
DRS-GUI: 动态区域搜索用于无训练的GUI定位
发表机构 * Nankai University(南开大学) ; Institute of Information Engineering, Chinese Academy of Sciences(中国科学院信息工程研究所)
AI总结 DRS-GUI通过动态区域搜索框架提升GUI定位性能,利用轻量级UI感知器和MCTS动作规划器,实现高效区域探索与筛选,提升多模态大语言模型的定位能力。
Comments 11 pages, 8 figures
RTL-BenchMT:通过代理辅助分析和修订动态维护RTL生成基准
发表机构 * Hong Kong University of Science and Technology(香港科技大学)
AI总结 本文提出RTL-BenchMT框架,通过自动识别和修正错误案例及检测更新过拟合案例,解决RTL基准中的缺陷和过拟合问题,降低人工维护成本。
Comments This paper has been accepted by DAC 2026
SkiP: 在何时跳过和何时细化以实现高效的机器人操作
发表机构 * Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences(深圳先进技术研究院,中国科学院) ; Peng Cheng Laboratory(鹏城实验室) ; Southern University of Science and Technology(南方科技大学) ; Sun Yat-sen University(中山大学) ; UNT ; University of Chinese Academy of Sciences(中国科学院大学)
AI总结 SkiP通过动态跳过冗余步骤和精细化关键步骤,提升机器人操作效率,无需额外结构或规划器。
无需调优的指令式视频编辑:通过结构噪声初始化和引导
发表机构 * JIUTIAN Research, China Mobile(中国移动极天研究院) ; School of Intelligence Science and Technology, Nanjing University(南京大学智能科学与技术学院) ; State Key Laboratory of Novel Software Technology, Nanjing University(南京大学新型软件技术国家重点实验室)
AI总结 本文提出无需调优的指令式视频编辑框架,通过结构噪声初始化策略和噪声引导机制,提升视频编辑的视觉质量和性能。
Comments Accepted by ICIP 2026
基于学习可靠性的过程奖励
发表机构 * Washington University in St. Louis(华盛顿大学圣路易斯分校) ; Singapore University of Technology and Design(新加坡科技设计大学)
AI总结 本文提出BetaPRM,通过预测步骤成功概率和预测可靠性,改进过程奖励模型,使下游任务能区分可靠与不确定的奖励。ACA应用在最佳N推理中,提升准确率-token权衡。
神经点形
发表机构 * NVIDIA ; University of Oxford(牛津大学) ; Max Planck Institute for Mathematics in the Sciences(马克斯·普朗克数学研究所) ; Department of Mathematical Sciences(数学科学系) ; Chalmers University of Technology and University of Gothenburg(查尔姆斯理工大学和哥德堡大学) ; School of Engineering and Applied Sciences(工程与应用科学学院) ; Max Planck Institute of Molecular Cell Biology and Genetics(马克斯·普朗克分子细胞生物学与遗传学研究所)
AI总结 本文提出神经点形(NPFs),通过扩散几何中的拉普拉斯技术,构建点云的可学习几何特征,用于比较微分形式,并在合成和生物相关实验中展示其在处理采样密度、流形结构和群体几何时的优势。
在分布式学习中数据归因的脆弱性
发表机构 * Department of Computer Science and Software Engineering, Auburn University, Auburn, Alabama, USA(计算机科学与软件工程系,阿伯茨温泉大学,阿伯茨温泉,阿拉巴马州,美国) ; Department of Computer Science, University of Tulsa, Tulsa, Oklahoma, USA(计算机科学系,塔尔萨大学,塔尔萨,俄克拉荷马州,美国) ; Department of Computer Science and Information Engineering, National Central University, Taoyuan, Taiwan(计算机科学与信息工程系,国立中央大学,桃园,台湾)
AI总结 研究揭示了分布式学习中数据归因的脆弱性,通过归因优先攻击展示归因值可能被人为放大,同时提出归因鲁棒和激励相容的评分机制。
DiffVAS: 在部分可观测环境中基于扩散的视觉主动搜索
发表机构 * Washington University in St. Louis(华盛顿大学圣路易斯分校) ; RISE Research Institutes of Sweden(瑞典RISE研究机构) ; Climate AI Nordics(北欧气候AI)
AI总结 DiffVAS提出了一种目标条件化的策略,能够在部分可观测环境中同时搜索多种目标,提升了视觉主动搜索在现实应用中的部署能力。
Comments 26 Pages, 12 figures, Accepted to AAMAS 2026
RoPE在长上下文中无法区分位置或令牌,证明性分析
发表机构 * University of Illinois at Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; University of Bonn(波恩大学) ; Argonne National Laboratory(阿贡国家实验室) ; Amazon AGI(亚马逊人工智能研究院)
AI总结 本文证明RoPE在长上下文中因失去局部偏倚和令牌相关性一致性而失效,无法区分位置或令牌,且增加RoPE基值只能牺牲位置区分能力。
Comments 35 pages, 11 figures, submitted to NeurIPS 2026
CAPS:级联自适应成对选择用于高效的并行推理
发表机构 * Texas A&M University(德克萨斯大学) ; Worcester Polytechnic Institute(沃斯特理工大学) ; Tohoku University(东北大学) ; Georgia Institute of Technology(佐治亚理工学院)
AI总结 CAPS通过级联自适应成对选择方法,在保持高效并行推理的同时,减少验证器的计算成本,优于现有成对验证方法。
Comments 31 pages, 2 figures, 18 tables
PrismQuant: 为高斯混合源优化的率失真向量量化
发表机构 * Department of Electrical Engineering(电气工程系)
AI总结 针对高斯混合源,PrismQuant通过组件标签传输和组件匹配KLT实现率失真优化,结合EM驱动学习和熵约束量化,有效逼近理论边界并优于传统模型。
利益冲突中的学习
发表机构 * Oregon State University(俄勒冈州立大学) ; Virginia Tech(弗吉尼亚理工大学) ; University of Illinois(伊利诺伊大学)
AI总结 本文提出一种博弈论框架,用于解决ML系统与用户之间的利益冲突,通过可扩展的算法在保护用户的同时最大化有益信息。
基于混合大语言模型的智能机器人任务调度框架
发表机构 * Department of Computer Science and Engineering, Mississippi State University(密苏里州立大学计算机科学与工程系) ; Graduate School of Arts and Sciences, Columbia University(哥伦比亚大学研究生院) ; Consumer and Community Banking, JPMorgan Chase(摩根大通消费与社区银行业) ; Department of Data Science, Columbia University(哥伦比亚大学数据科学系) ; Department of Electrical Engineering, Columbia University(哥伦比亚大学电气工程系)
AI总结 本文提出利用大语言模型提升建筑机器人任务调度效率,通过平衡时间效率与资源利用,结合自然语言处理接口实现与专业人员的实时沟通,并采用两个LLM代理生成更精确的任务计划。
Comments 9 pages, 5 figures
残差强化学习用于具有随机延迟的机器人遥控
发表机构 * Technical University of Munich(慕尼黑技术大学)
AI总结 针对随机延迟导致的信号不连续问题,本文提出一种混合控制框架,通过LSTM状态估计器与残差强化学习策略相结合,提升遥控稳定性与性能。
Comments Accepted at 23rd IFAC World Congress 2026
基于检索增强的大型语言模型用于受模式约束的临床信息提取
发表机构 * George Mason University(乔治·马歇尔大学)
AI总结 本文提出一种模块化检索增强生成框架,通过schema约束提示、确定性后处理和二次审核,提升护士-患者对话中观察提取的F1分数达80.36%。
GRLO:从零开始在开放环境中的通用强化学习
发表机构 * University of California, Riverside(加州大学河滨分校)
AI总结 GRLO研究从少量交互数据中训练的RLHF在开放环境中的泛化能力,探索其对话能力是否能迁移至数学推理和代码生成等下游任务,展示出高效且低成本的训练方法。
DrugSAGE: 自演化代理经验用于高效前沿药物发现
发表机构 * Northeastern University(东北大学) ; Broad Institute of MIT and Harvard(MIT和哈佛大学Broad研究所) ; Yale University(耶鲁大学) ; Microsoft Research New England(微软研究院新英格兰分部)
AI总结 DrugSAGE通过自演化代理经验框架,高效构建前沿药物发现模型,跨任务记忆提升模型性能,实现零次搜索下的显著优势。
差分隐私的动机保持多模态哈希
发表机构 * Department of Computer Science\ of Oxford Oxford United Kingdom ; Department of Computer Science\ of Oxford
AI总结 本文提出DMP-MH框架,通过去噪后蒸馏方法在保证隐私的前提下保留多模态数据的结构特征,实验表明其在保持隐私的同时提升了检索性能。
Comments 9 Pages
RIDE: 基于Retinex的解耦方法用于揭示隐藏物体
发表机构 * Duke University(杜克大学) ; Tsinghua University(清华大学) ; Harvard University(哈佛大学)
AI总结 RIDE通过Retinex理论提出同域图像分解方法,解决隐藏物体分割问题,利用判别性差距定理提升前景与背景的区分度。
从LLM生成的猜想到Lean形式化:通过求和平方证书实现自动多项式不等式证明
发表机构 * School of Software Engineering, East China Normal University, Shanghai, China(东华大学软件工程学院) ; College of Computer Science and Technology, National University of Defense Technology, Changsha, China(国防科技大学计算机科学与技术学院) ; School of Computer and Information Engineering, Henan University, Kaifeng, China(河南大学计算机与信息工程学院)
AI总结 本文提出NSPI框架,结合LLM和符号计算,通过求和平方证书实现多项式不等式证明,展示其在10变量多项式上的有效性与可扩展性。
Comments Accepted to ICML 2026. Preprint version
运行时结构化任务分解用于代理编码系统
发表机构 * IBM Research(IBM研究院)
AI总结 本文提出运行时结构化任务分解方法,通过可执行控制逻辑管理任务分解与执行流程,降低重试成本,提升代理编码系统的效率和可靠性。
Comments Paper presented at ACM Conference on AI and Agentic Systems 2026 at the Agentic Software Engineering workshop
MR2-ByteTrack:基于CNN和Transformer的视频目标检测用于AI增强的嵌入式视觉传感器节点
发表机构 * Electrical, Electronic and Information Engineering (DEI), University of Bologna, Italy.(博洛尼亚大学电气、电子与信息工程学院,意大利) ; Department of Electrical Engineering (ESAT), KU Leuven, Belgium.(卢旺达大学电气工程系,比利时) ; Dalle Molle Institute for Artificial Intelligence (IDSIA), USI--SUPSI, Switzerland.(人工智能研究所(IDSIA),瑞士USI--SUPSI)
AI总结 本文提出MR2-ByteTrack,一种针对嵌入式视觉节点的视频目标检测方法,通过交替使用全分辨率和低分辨率推理,结合ByteTrack和Rescore算法提升效率,实现在嵌入式设备上的高精度实时检测。
$f$-轨迹平衡:一种用于调整GFlowNets、生成模型和LLMs的损失家族,结合on-policy和off-policy数据
发表机构 * Department of Statistics, University College London, UK(伦敦大学学院统计学系) ; Valence Labs, London, UK(伦敦Valence实验室)
AI总结 本文提出一种基于$f$-散度的损失家族,通过on-policy和off-policy数据调整生成模型,提升模型覆盖性和泛化能力。
Comments Published at ICML 2026
从反馈循环到政策更新:基于强化微调的LLM驱动的alpha因子发现
发表机构 * Peking University(北京大学) ; Alibaba Group(阿里巴巴集团) ; Nanjing University(南京大学) ; University of Illinois Chicago(伊利诺伊大学香槟分校)
AI总结 本文提出QuantEvolver框架,通过强化微调将可执行量化评估转化为策略更新,提升LLM在alpha因子发现中的表现,生成高质量且互补的因子池。
量子神经网络上的对角自适应非局部可观测量
发表机构 * AI \& ML Department Brookhaven National Laboratory Upton NY, USA ; Department of Electrical Engineering The Pennsylvania State University University Park, PA, USA
AI总结 本文提出了一种对角自适应非局部可观测量,通过仅考虑对角可观测量与量子电路的组合,降低了参数数量和经典优化成本,同时保持了全非局部可观测量的能力。
Comments Accepted at ICCCN2026
超越伙伴多样性:一种基于影响的团队引导框架用于零样本人机协同
发表机构 * Department of Computer Science(计算机科学系)
AI总结 本文提出基于影响的团队引导框架IBTS,通过影响塑造激励智能体发现多样化的高绩效团队交互模式,提升团队表现,强调需结合稀疏奖励协调机制与伙伴多样性覆盖。
突破性复杂度:神经偏微分方程求解器的新视角
发表机构 * University of Wisconsin–Madison(威斯康星大学麦迪逊分校) ; Google DeepMind(谷歌DeepMind)
AI总结 本文提出突破性复杂度评估框架,考虑神经求解器的前期成本与传统求解器的低保真度成本,分析不同PDE求解器在复杂问题中的有效性。
无奖励的表示:用于LLM微调的JEPA审计
发表机构 * LLM Suite group of JP Morgan Chase and its affiliates(JP摩根士丹利 LLC 集团及其附属机构)
AI总结 本文探讨了在无奖励设定下,通过JEPA架构学习更有效的表示方法,测试了多种辅助项在自然语言到正则表达式生成任务中的表现,发现某些辅助项在特定统计检验下显著,但整体效果不显著。
PanoWorld:几何一致的全景视频世界建模
发表机构 * Northeastern University(东北大学)
AI总结 PanoWorld通过几何和动态一致性建模生成一致的360度视频,提升了空间理解能力,适用于具身AI应用。
一个评分够吗?重新思考序列演进LLM记忆的评估
发表机构 * University of Virginia(弗吉尼亚大学) ; Princeton University(普林斯顿大学)
AI总结 本文提出SeqMem-Eval框架,通过评估记忆状态的演变、泛化、经验巩固和信息保留,揭示传统指标无法捕捉的记忆质量差异。
Comments 29 pages, 13 figures
ChangeFlow -- 潜在修正流用于遥感中的变化检测
发表机构 * University of Ljubljana, Faculty of Computer and Information Science(卢布尔雅那大学计算机与信息科学学院)
AI总结 本文提出ChangeFlow框架,通过潜在空间中的修正流合成变化掩码,以生成分布中的可能掩码,提升全局一致性与鲁棒性,实现80.4%的平均F1分数。
PACER:从大规模干预数据中进行无环因果发现
发表机构 * Swiss Federal Technology Institute of Lausanne (EPFL), Switzerland(瑞士联邦理工学院洛桑分校) ; Cornell University, USA(康奈尔大学) ; ETH Zurich, Zurich, Switzerland(苏黎世联邦理工学院)
AI总结 PACER通过构建无环性保证的因果发现框架,在大规模高维干预数据中实现高效且准确的因果结构推断,优于现有方法。
Comments Accepted at the 43rd International Conference on Machine Learning (2026)
信念引擎:多智能体大语言模型协商中的可配置和可检查立场动态
发表机构 * ETH Zurich(苏黎世联邦理工学院) ; Centre for Democracy Studies Aarau, University of Zurich(苏黎世大学民主研究中心) ; Massachusetts Institute of Technology(麻省理工学院)
AI总结 本文提出Belief Engine,通过可配置的信念更新机制,研究多智能体协商中的立场动态,揭示立场变化背后的证据吸收与锚定因素。
LEAP:LLM在迭代科学设计中的轨迹级评估
AI总结 本文提出LEAPBench框架,通过轨迹级评估方法揭示LLM在迭代科学设计中的学习效率,发现传统基于结果的评估方法存在偏差,轨迹指标能更准确反映效率提升。
从输入输出到代码:发现代理
发表机构 * School of Computer Science, Peking University(北京大学计算机科学系) ; Tongyi Lab, Alibaba Group(阿里集团通义实验室) ; Wuhan University(武汉大学) ; Renmin University of China(中国人民大学) ; National University of Singapore(新加坡国立大学) ; Shanghai Jiaotong University(上海交通大学)
AI总结 本文提出DIO-Agent,通过将IO2Code视为离散程序空间的进化搜索,利用LLM作为突变算子,结合执行误差信号指导突变,解决从输入输出行为合成代码的难题。
基于大语言模型的零样本目标识别
发表机构 * PUCRS Porto Alegre(圣路易斯-波尔图阿legre大学) ; King’s College London(伦敦国王学院) ; University of Aberdeen(阿伯丁大学) ; PUCRS(圣路易斯-波尔图阿legre大学)
AI总结 本文首次系统评估前沿大语言模型在经典PDDL基准上的零样本目标识别能力,发现其表现不均,部分模型随证据增加而提升精度,而另一些模型则依赖世界知识先验。
Comments 9 pages, 1 figure, 1 table; appendix with 8 figures and 2 code listings (29 pages total); submitted to NeurIPS 2026
通过多标准潜在推理进行编码代理的上下文剪枝
发表机构 * Clemson University(克莱姆森大学) ; Morgan Stanley(摩根大通) ; Arizona State University(亚利桑那州立大学) ; University of Arizona(亚利桑那大学)
AI总结 本文提出LaMR框架,通过分解代码相关性为语义证据和依赖支持两个维度,利用多任务CRF模型提升编码代理的上下文剪枝效果,实验表明其在多个基准测试中表现优异。
SMCEvolve:通过序列蒙特卡洛进化进行原理性科学发现
发表机构 * Department of Computer Science and Engineering(计算机科学与工程系) ; The Ohio State University(俄亥俄州立大学)
AI总结 SMCEvolve通过将程序搜索视为从奖励倾斜的目标分布中采样,并利用序列蒙特卡洛采样器近似该分布,提出三种核心机制:自适应父采样、变异与接受的混合、自动收敛控制,从而在数学、算法效率、符号回归和端到端ML研究基准中超越现有系统。
Solvita:通过代理进化增强大型语言模型以应对编程竞赛
发表机构 * Nanjing University(南京大学) ; Tsinghua University(清华大学) ; Independent Researcher(独立研究者)
AI总结 Solvita通过闭环系统和可训练知识网络,使代理动态学习,提升编程竞赛任务的准确性和经验积累。
Fortress:通过时间数据增强和特征剪枝稳定化搜索推荐
发表机构 * Apple(苹果公司)
AI总结 Fortress通过时间数据增强和特征剪枝稳定化搜索推荐模型,提升预测稳定性和准确性,验证了在大规模应用市场中效果显著。
PhysBrain 1.0 技术报告
发表机构 * PhysBrain Team(PhysBrain团队)
AI总结 PhysBrain 1.0 通过将大规模人类自体视频转化为结构化的物理常识监督,提升机器人适应能力,在多模态问答和具身控制基准测试中取得SOTA结果,尤其在SimplerEnv中表现突出。
Comments Project Page: https://phys-brain.github.io
GESD:超越以结果为导向的公平性
发表机构 * Gianforte School of Computing, Montana State University(蒙塔那州立大学计算机学院)
AI总结 本文提出GESD,一种以过程为导向的公平性度量,用于衡量模型解释在不同保护类别子组中的稳定性、鲁棒性和敏感性差异。通过多目标优化框架FEU,提升公平性和实用性。
Comments 7 pages, Accepted at IEEE CAI
GQA-μP:组查询注意力的最大参数更新
发表机构 * UC Davis(加州大学戴维斯分校) ; MBZUAI IFM(脑科学与人工智能研究院(MBZUAI IFM)) ; USC(南加州大学) ; Cerebras(Cerebras公司) ; Carnegie Mellon University(卡内基梅隆大学)
AI总结 本文基于谱特征学习观点,提出组查询注意力的最大参数更新方法,通过数学分析实现参数转移,解决了新模型架构下的参数更新难题。
Comments 18 pages
非线性算子及其导数的通用逼近
发表机构 * Institut für Mathematik, Technische Universität Berlin(柏林技术大学数学研究所)
AI总结 本文提出通过运算学习架构证明非线性算子及其导数的通用逼近定理,扩展了经典结果到无限维空间,并探讨了其在高阶精度、约束优化和无限维PDE数值方法中的应用。
发表机构 * International Business Machines (IBM)(国际商业机器公司(IBM)) ; Salesforce Inc(Salesforce公司)
AI总结 本文提出了一种基于人工智能的自主测试框架,用于实现自然语言驱动的网页执行与集成安全验证。该框架通过导航可靠性、上下文感知选择器生成、后生成验证、智能等待注入和失败学习等五项策略,有效解决了传统网页测试套件易失效的问题。实验表明,该方法显著提升了脚本生成成功率,减少了导航失败和时间相关竞争条件,并大幅降低了测试创建时间;同时,它还能通过自然语言描述攻击场景,自动转换为安全检测探针,有效发现多种安全漏洞,为自然语言驱动的安全测试提供了新颖的解决方案。
Comments 6 pages, 4 figures, 5 tables, IEEE conference format
发表机构 * Fraunhofer Institute for Integrated Circuits IIS(弗劳恩霍夫集成电路研究所)
AI总结 本文提出了一种名为PDRNN的模块化数据驱动行人航位推算系统,用于处理松耦合的无线电与惯性传感器信号流。该方法基于简单循环神经网络架构,能够隐式预测不同估计方法下的异步传感器数据流,并通过独立的机器学习模型分别估计姿态、速度和位置等关键参数及其方差,最终融合模型结合这些输出以提升系统鲁棒性。实验表明,PDRNN在动态运动数据上的精度和稳定性优于传统方法和现有机器学习方法,同时具备更好的组件控制能力和预测能力。
Comments 12 pages
Journal ref IEEE/ION Position, Location and Navigation Symposium (PLANS), Salt Lake City, UT, May 2025
发表机构 * School of Advanced Interdisciplinary Sciences, University of Chinese Academy of Sciences, Beijing, China(中国科学院大学先进交叉学科学院) ; NLPR, MAIS, Institute of Automation, Chinese Academy of Sciences, Beijing, China(中国科学院自动化研究所) ; School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China(中国科学院大学人工智能学院) ; National University of Singapore, Singapore(新加坡国立大学)
AI总结 该研究提出了一种基于转录组的药物设计方法(TBDD),旨在根据期望的基因表达变化生成具有特定功能的分子。为了解决生物学与化学领域间的巨大差异以及转录组信号稀疏性带来的挑战,研究设计了多尺度的扩散生成模型CURE,其核心模块TFE能够提取功能导向的扰动特征,并跨模态对齐化学结构信息,从而生成结构合理且功能一致的候选药物分子。实验表明,该方法在多个基准测试中表现优异,并在零样本基因抑制剂设计任务中验证了其实际应用潜力。
发表机构 * Duke University(杜克大学)
AI总结 本文提出了一种名为Hydra的系统,用于在代码生成过程中高效地恢复静态错误。Hydra通过异步检查和检查点回滚机制,避免了传统方法中高昂的延迟和令牌消耗,能够在生成过程中及时检测并修复错误,而无需重新生成已正确部分的代码。实验表明,Hydra在C/C++代码生成任务中,相比事后修复方法,显著降低了延迟和令牌使用量。
发表机构 * Purdue University(普渡大学) ; Argonne National Laboratory(阿贡国家实验室) ; University of Chicago(芝加哥大学)
AI总结 A3D 是一种基于智能体的 AI 流程,旨在实现从端到端的硬件加速器自动化设计。该方法通过自主分析工作负载、识别性能瓶颈、重构代码以适配高阶综合工具,并生成微架构,显著降低了加速器设计的复杂性和人工干预需求。A3D 还能够自动探索速度与面积的权衡空间,生成多样化的加速器设计方案,为复杂科学应用提供了高效且自动化的加速器设计解决方案。
AI总结 本文研究了主权AI系统中自主智能体执行操作时的授权验证问题,提出了一种基于可信证明的分布式授权框架(DTF)。该框架通过结构化、可验证的证明对象来动态生成执行权限,确保所有高风险操作都必须基于共识验证的证明,并与证据链绑定,从而实现对智能体行为的可控、可审计和可追溯。该方法为云原生环境中的自主AI系统提供了安全、去中心化的授权基础设施。
Comments 19 pager, 2 figures, 4 tables
发表机构 * National Institute for Materials Science(国家材料科学研究所) ; Graduate School of Frontier Sciences, The University of Tokyo(东京大学前沿科学研究生院)
AI总结 本文提出了一种基于模型上下文协议(MCP)的自主驾驶实验室(SDL)控制架构——NIMO Controller,旨在解决现有SDL软件框架缺乏标准化接口、难以支持AI代理的问题。该架构通过MCP服务器统一暴露所有SDL功能,并提供了基于MCP工具发现的可视化编程接口,使用户无需编写代码即可设计实验流程,同时支持AI代理通过同一后端进行交互。研究通过颜色匹配实验验证了该架构的可行性与实用性。
Comments 9 pages, 4 figures
发表机构 * National University of Singapore(新加坡国立大学)
AI总结 本文探讨了用于软件工程的智能体AI系统是否适用于实际的硬件工程任务,并引入了Phoenix-bench基准测试集,该基准集包含511个经过验证的Verilator实例,支持对硬件设计流程、错误修复和验证等任务的全面评估。研究发现,硬件工程与软件工程在错误传播机制和修复方式上存在显著差异,且定位精度和反馈机制对智能体性能影响显著,为未来智能体在硬件工程中的应用提供了重要参考。
AI总结 本文探讨了生物学结构保证是否值得其复杂性,通过构建三个深度基准测试,比较了基于生物机制(如代谢优先门控、自动诱导物群体感应和贝叶斯停滞检测)的AI框架与非生物替代方案及简化对照在数千次试验中的表现,验证了生物结构在可靠性上的实际优势与代价。
发表机构 * Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)) ; Nanjing University(南京大学) ; Sun Yat-sen University(中山大学) ; National University of Singapore(新加坡国立大学) ; Nanyang Technological University(南洋理工大学) ; SAP ; Microsoft Research(微软研究院)
AI总结 本文提出了一种基于强化学习的新型框架ICRL,旨在使大型语言模型在获得自我批评反馈后能够内化这些指导,从而在无外部批评的情况下仍能保持良好的表现。该框架通过联合训练求解器和批评者,利用批评反馈带来的性能提升作为奖励,促使批评者生成更有助于改进的反馈。为了解决批评条件行为与无批评行为之间的分布偏移问题,ICRL引入了分布校准的重加权策略,并通过角色分组优势估计稳定联合优化过程。实验表明,ICRL在多种任务中均取得了显著提升,且训练出的批评者在性能上可与更大规模的模型相媲美。
发表机构 * Chair of Robotics, Artificial Intelligence and Real-Time Systems(机器人、人工智能与实时系统教授会) ; Technical University of Munich(慕尼黑技术大学)
AI总结 本文提出了一种基于大语言模型(LLM)的流程,用于分析 RISC-V 供应链,结合视觉语言模型(VLM)和模型驱动工程(MDE),实现了对异构、非结构化供应链数据的多模态数据驱动分析。该方法通过 LLM 理解文本信息,VLM 提取图表、表格等视觉文档中的信息,构建供应链知识图谱,并利用 MDE 技术进行依赖关系验证、瓶颈检测和风险评估,从而支持对供应链韧性的探索性与系统性分析。实验表明,该方法在 RISC-V 生态系统中有效提升了供应链透明度和决策支持能力。
发表机构 * Gemini ; Algorithmicsuperintelligence(算法智能)
AI总结 本文研究了在算法发现任务中,如何设计有效的执行框架(harness)以提升基于大语言模型和进化搜索的自动算法生成效果。通过分析算法生成数量与深度、评估漏洞处理以及并行执行安全等问题,提出了改进的Vesper框架,并在圆填充问题上验证了其有效性。实验表明,在固定计算预算下,生成更少但更深入的算法能取得更优结果,同时更强大的模型更容易产生评估漏洞,凸显了漏洞检测的重要性。
发表机构 * New York University(纽约大学) ; Carnegie Mellon University(卡内基梅隆大学) ; Microsoft(微软公司)
AI总结 数据混合在语言模型训练中起着关键作用,决定了如何组合不同来源或类型的训练数据。本文提出了一种名为OP-Mix的高效数据混合算法,能够在整个语言模型训练生命周期中持续运行,解决了现有方法仅适用于单一训练阶段的问题。该方法通过在当前模型上训练低秩适配器并进行插值,低成本地模拟候选数据混合方案,从而避免了对代理模型的依赖,并始终基于模型的实际学习动态进行搜索。实验表明,OP-Mix在预训练、持续微调等任务中均能以更低的计算成本达到接近最优的性能。
发表机构 * Shanghai Ultradimension Technology Co., Ltd.(上海超维科技有限公司) ; College of Logistics Engineering, Shanghai Maritime University(上海海洋大学物流学院) ; School of Civil Aviation, Northwestern Polytechnical University(西北工业大学航空学院) ; State Key Laboratory of Airliner Integration Technology(航空器集成技术国家重点实验室) ; National Key Laboratory of Strength(强度与结构完整性国家实验室) ; Wuhan University(武汉大学)
AI总结 本文提出了一种轻量级的代理框架CAX-Agent,旨在提升MAPDL有限元仿真中的自动化可靠性。该框架通过引入领域特定的中间件,实现工具生命周期管理、工作流状态控制和故障恢复,从而解决大语言模型在该任务中常见的输出不一致和任务失败问题。实验评估表明,CAX-Agent中基于模型驱动的恢复策略在多个结构基准测试中表现出色,显著优于仅依赖规则或无恢复策略的方法。
Comments 8 pages, 6 figures, IEEE conference format
发表机构 * Bank of England(英格兰银行)
AI总结 本研究探讨了指令微调语言模型在高风险决策(如房贷审批)中表现出的行为公平性与其内部潜在偏见之间的不对称关系。研究发现,尽管模型在输出层面看似无偏,但其内部表示仍保留并放大了与种族相关的偏见,且这些隐藏的偏见具有因果影响力,能够通过特定干预引发决策反转。研究还揭示了这种偏见在不同群体间的不对称性,并指出仅关注输出的行为审计不足以识别和治理模型中的潜在偏差,需结合表示分析的双重评估框架。
Comments 39 pages, 16 figures, 2 tables
发表机构 * AetherHeart Tech Co., Ltd.(AetherHeart科技有限公司) ; Renmin University of China(中国人民大学) ; University of California San Diego(加州大学圣地亚哥分校)
AI总结 SkillSmith 是一种边界引导的编译-运行时框架,旨在优化基于技能的智能体系统。该方法通过离线编译技能包为最小可执行接口,提取技能的细粒度操作边界,使智能体在运行时仅调用相关组件,从而减少冗余上下文注入和重复推理。实验表明,SkillSmith 显著降低了推理阶段的 token 使用量、思考迭代次数和执行时间,并提升了任务准确率,同时支持强模型生成的编译结果被轻量模型复用。
发表机构 * Department of Biological and Agricultural Engineering, Texas A&M AgriLife Research(生物与农业工程系,德克萨斯A&M农业生命研究)
AI总结 该研究提出了一种基于健康饮食指数(HEI)的检索增强生成(RAG)框架,用于生成个性化的健康饮食推荐。该方法结合标准化营养数据库和大语言模型,通过构建食物嵌入空间并计算HEI评分,为用户提供符合健康标准的个性化饮食建议。实验结果表明,该方法能有效提升用户的HEI得分,提高饮食质量。
发表机构 * Meta
AI总结 该研究探讨了量化压缩对大型语言模型(LLMs)偏见表现的影响,发现低精度量化会导致模型在多个任务中产生新的刻板印象行为,且这种变化与精度水平呈剂量反应关系。通过在多个模型和精度级别上的大规模实验,研究揭示了传统质量评估指标无法检测到这种偏见的增加,强调了在模型压缩前进行公平性检测的重要性。
Comments 7 pages, 4 figures, 4 tables. Accepted at IEEE Cloud Summit 2026. This is the author's accepted version; the version of record will appear in IEEE Xplore
发表机构 * University of Massachusetts Amherst(马萨诸塞大学阿默斯特分校) ; Brave Software, Imperial College London(Brave软件公司,伦敦帝国学院)
AI总结 随着基于大语言模型的自主代理在复杂任务中应用增多,本地部署虽能提升隐私保护和降低成本,但其资源消耗远高于普通语言模型交互。本文研究了在消费级硬件上本地运行代理的能耗问题,提出了一种名为AgentStop的轻量级监督机制,通过预测任务失败的可能性提前终止无效流程,在减少15%-20%能耗的同时仅小幅影响任务性能,为可持续的本地智能代理系统提供了可行方案。
Comments ACM CAIS '26
发表机构 * Arizona State University(亚利桑那州立大学) ; Hong Kong University of Science and Technology(香港科学与技术大学) ; Microsoft Research Asia(微软亚洲研究院) ; Smith College(史密斯学院)
AI总结 本研究探讨了提升大型语言模型(LLM)心智理论(ToM)能力是否真正有助于改善人机交互。研究指出,现有基准多从第三人称视角通过阅读故事和选择题评估ToM能力,忽视了真实交互中的第一人称、动态和开放特性。为此,研究提出了一种新的交互式ToM评估范式,并通过真实数据集和用户实验系统评估了四种代表性ToM增强技术,发现静态基准上的提升并不一定带来动态人机交互中的性能改善,强调了基于交互的评估在开发下一代社会智能模型中的重要性。
发表机构 * Digital China(数字中国)
AI总结 本文提出了一种名为SDOF的多智能体协调框架,旨在解决现有系统在任务调度中缺乏阶段约束的问题。该框架将多智能体执行视为受约束的状态机,并通过强化学习与有限状态自动机相结合的方法,实现对任务流程的精确控制与合规性验证。实验表明,SDOF在招聘系统等实际场景中表现出更高的任务完成率与执行安全性,显著优于现有模型。
Comments 12 pages, 4 figures, 14 tables
发表机构 * Tongji University(同济大学) ; Swinburne University of Technology(斯威本理工大学) ; Southeast University(东南大学) ; Chengdu University of Information Technology(成都信息工程大学) ; Fudan University(复旦大学) ; Singapore University of Technology and Design(新加坡科技设计大学)
AI总结 本文提出了一种名为 Agent4POI 的新型兴趣点(POI)推荐框架,其核心在于推荐时动态生成与上下文条件相关的多模态表示,而非依赖于预计算的静态 POI 嵌入。该方法通过一个四阶段的大型语言模型代理,根据情境上下文生成动态的、场景特定的“可利用性”查询,并结合图像、评论和元数据进行跨模态推理,最终生成结构化且考虑不确定性的可利用性表示,从而提升推荐的准确性和适应性。实验表明,Agent4POI 在多个基准数据集和评估场景中均优于现有方法,尤其在冷启动和上下文变化场景下表现突出。
发表机构 * School of Data Science, Fudan University(复旦大学数据科学学院)
AI总结 DeepSlide 是一个支持全流程演示文稿准备的人机协作多智能体系统,旨在优化从内容规划到演讲表现的整个过程,而不仅仅是生成视觉上合理的幻灯片。该系统结合了可控逻辑链规划、内容树检索、风格继承的序列渲染以及可执行的排练支持,有效提升了演讲的叙事连贯性、节奏精确度和幻灯片与讲稿的协同性。研究还引入了一个双评分板基准,用于区分静态内容质量与动态演讲表现,实验表明 DeepSlide 在多个领域和受众场景下均优于现有方法。
Comments 37 pages,10 figures,9 tables
发表机构 * Independent Researcher(独立研究者)
AI总结 本文提出了一种名为TFGN的新型架构,能够在无需回放数据、无需任务标识的情况下,在大规模语言模型中实现无灾难性遗忘的持续预训练。该方法通过在Transformer模型上叠加一个参数高效的输入条件更新模块,实现了跨异构文本领域的正向和反向迁移,并在多个大规模模型和数据集上取得了显著效果。研究还进一步引入了闭环元控制器和操作级计划向量,提升了模型的自主学习能力和跨域适应性,为大规模语言模型的持续学习提供了新的架构解决方案。
Comments 65 pages, 10 figures, 40 tables
发表机构 * MOE KLINNS Lab(MOE KLINNS实验室) ; School of Computer Science and Technology(计算机科学与技术学院) ; School of Cyber Science and Engineering(网络安全工程学院) ; School of Software Engineering(软件工程学院) ; School of Control Science and Engineering(控制科学与工程学院) ; Shaanxi Provincial Key Laboratory of Big Data Knowledge Engineering(陕西省大数据知识工程重点实验室) ; Laboratory for AI and New Forms of Education(人工智能与新型教育实验室) ; Lenovo AI Technology Center, CTOO, Lenovo(联想AI技术中心,联想CTOO) ; Sydney AI Centre, The University of Sydney(悉尼AI中心,悉尼大学)
AI总结 本文综述了基于大语言模型的多智能体系统在协作、错误归因与自主进化方面的研究进展,指出现有研究多分别关注单个智能体能力、协作机制或自我进化,而忽视了它们之间的因果关系。文章提出了一个统一的框架——LIFE 进程,涵盖能力基础构建、协作整合、错误归因与自主进化四个阶段,系统分析了各阶段之间的依赖关系,并提出了跨阶段的研究方向,旨在推动具备持续诊断、结构调整与行为优化能力的自组织多智能体系统发展。
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 尽管当前文本到图像生成模型在技术上取得了快速进展,但它们大多依赖单步生成范式,难以处理复杂的语义内容,且参数扩展带来的性能提升有限。为了解决多步推理方法中存在的幻觉、优化不稳定和推理延迟等问题,本文提出了一种闭环视觉推理框架CLVR,该框架将视觉语言逻辑规划与像素级扩散生成深度融合,并引入了基于代理提示的强化学习和Δ-空间权重合并等方法,有效提升了生成质量与推理效率,实验表明其在多个基准测试中优于现有开源模型,接近商业模型的性能。
发表机构 * Evolvent AI Research Team(Evolvent AI研究院)
AI总结 随着代码代理越来越多地访问系统外壳、代码仓库和用户文件,最小权限授权成为安全部署的必要条件。本文研究当前模型是否能自行推断出权限边界,提出权限边界推理任务,并构建了包含120个真实终端任务的AuthBench基准测试集。研究发现,现有模型在权限分配上常出现遗漏必要权限或授予多余权限的问题,且增加推理时间并不能有效解决这一问题。为此,作者提出一种“充分性-紧致性分解”方法,通过任务前向模拟生成覆盖性策略,并对每个授予的权限进行审查,显著提升了模型在敏感任务中的成功率并降低了攻击成功的可能性。
发表机构 * Independent Researcher(独立研究者)
AI总结 该论文提出了一种名为Falkor-IRAC的图约束生成框架,旨在提升印度司法AI系统中法律推理的准确性和可靠性。该方法基于IRAC(问题、规则、分析、结论)知识图谱,将印度最高法院和高等法院的判决结构化为图节点,并整合程序状态转换、先例关系和法律条文引用。在推理过程中,系统仅接受能通过图结构验证的生成结果,从而有效减少错误引用和推理链不完整的问题,并能主动检测法律原则间的冲突,为法律AI的可信推理提供了新思路。
Comments 20 pages, 8 figures, 4 tables
发表机构 * Meta Recommendation Systems (MRS)(Meta推荐系统)
AI总结 本文提出了一种基于记忆增强的智能推荐系统MARS,通过分层信念状态记忆结构,将推荐问题建模为部分可观测问题,从而更准确地捕捉用户的动态偏好。MARS将记忆分为事件记忆、偏好记忆和用户画像记忆三个层级,并引入包含提取、强化、弱化、巩固、遗忘和重构六种操作的完整生命周期,由基于大语言模型的调度器动态管理。实验表明,MARS在多个推荐基准数据集上取得了显著性能提升,优于现有最优方法。
Comments 4 figures, 8 tables
发表机构 * Xiaomi Inc.(小米公司) ; Shanghai Jiao Tong University(上海交通大学)
AI总结 本文研究了通用图形用户界面(GUI)代理中测试时扩展(TTS)方法中的关键问题,即现有批评模型依赖二分类导致对有效操作和看似合理但无效的操作无法区分。为此,作者提出了一种新的连续语义对齐方法BBCritic,通过两阶段对比学习恢复被二分类压制的层次结构,并引入首个细粒度评估基准BBBench。实验表明,该方法在无需额外标注的情况下超越了现有大模型,在跨平台任务中表现出强大的零样本迁移能力。
Comments 28 pages including appendix. Code and BBBench benchmark to be released
发表机构 * Fujian Normal University(福建师范大学) ; Nanyang Technological University(南洋理工大学) ; University of New South Wales(新南威尔士大学) ; Data61 CSIRO(Data61澳大利亚联邦科学与工业研究组织)
AI总结 本文提出了一种基于可解释概念分解的视觉-语言模型(VLM)概念级机器遗忘方法ICED,旨在解决传统图像或实例级遗忘难以精确移除目标知识而不影响无关语义的问题。该方法通过多模态大语言模型构建任务相关的概念词汇表,并将视觉表征分解为稀疏、非负的语义概念组合,从而实现对图像中目标概念的精确抑制,同时保留非目标语义和跨模态知识。实验表明,该方法在保持模型性能的同时,能够更全面地遗忘目标知识并更好保留图像中的非目标信息。
发表机构 * Shopify
AI总结 本文提出SimPersona框架,旨在解决基于大语言模型的电商代理在面对真实买家群体时无法捕捉其异质性和分布特性的问题。该方法通过从历史点击流中学习离散的买家类型,并将其转化为紧凑的个性标签,从而指导代理的行为决策。实验表明,SimPersona能够有效模拟真实买家行为,实现高转化率匹配,并在多个电商场景中表现出优越的性能。
发表机构 * Amazon Advanced Solutions Lab(亚马逊高级解决方案实验室)
AI总结 本文研究了如何在国家冰球联盟(NHL)中确定一支球队在接下来的 $n$ 天内是否能够锁定季后赛资格的问题。针对复杂的晋级规则和复杂的平局处理机制,作者提出了一种基于约束编程的树搜索算法,能够高效地分析未来 $n$ 天比赛结果的所有可能组合,并判断球队是否能够确保季后赛席位。该方法结合了预处理、剪枝策略和节点排序启发式,有效提升了搜索效率,并通过大量真实赛季数据验证了其有效性,具有良好的扩展性,可用于分析其他相关体育指标。
Comments 18 pages, 5 figures, 4 tables. Accepted to CP 2026
发表机构 * University of Texas at Austin(德克萨斯大学奥斯汀分校) ; Google(谷歌)
AI总结 该研究针对大语言模型对齐中基于人工智能反馈的强化学习(RLAIF)所面临的离散奖励噪声问题,提出了一种名为ODRPO的鲁棒策略优化框架。其核心方法是将多级离散奖励分解为一系列二元序数指示符,从而结构化地隔离评估噪声,并通过逐步设定的成功阈值独立计算优势,提升学习稳定性与鲁棒性。实验表明,ODRPO在多个基准任务上显著优于现有方法,且几乎不增加训练时间开销。
发表机构 * Center for Scalable Data Analytics and Artificial Intelligence (ScaDS.AI)(可扩展数据分析与人工智能中心(ScaDS.AI)) ; Leipzig University(莱比锡大学) ; Neural Data Science and Statistical Computing, Max Planck Institute for Human Cognitive and Brain Sciences(神经数据科学与统计计算,人类认知与脑科学马克斯·普朗克研究所) ; Faculty of Economics, Leipzig University(经济学院,莱比锡大学) ; Department of Neurology, Max Planck Institute for Human Cognitive and Brain Sciences(神经病学系,人类认知与脑科学马克斯·普朗克研究所)
AI总结 本文研究了如何利用基于注意力的逐层相关传播(LRP)方法对脑电图基础模型(EEG-FMs)进行解释,以解决其模型可解释性差的问题。研究将LRP方法从传统的卷积神经网络扩展到基于Transformer架构的EEG-FMs,发现该方法不仅能验证模型决策,还能揭示具有生物学意义的新假设。研究在运动想象和情感预测任务中展示了LRP的有效性,揭示了模型对特定脑区信号的依赖,为理解EEG-FMs的行为提供了新的视角。
Comments 18 pages, 6 figures
发表机构 * The Pennsylvania State University(宾夕法尼亚州立大学)
AI总结 本文提出了一种级联生成框架,用于解决电商推荐中个性化店面构建的问题。该方法将店面生成分解为两个生成任务:页面区域的主题生成和针对每个区域的受限关键词生成,以支持产品检索。通过教师-学生微调策略提升模型的生产效率,并结合传统排序模型实现混合架构,实验表明该方法在每页浏览量的购物车添加率上相比基线提升了约2.7%。
发表机构 * Independent Researcher(独立研究者)
AI总结 该论文指出,在评估链式推理(CoT)可信度的标准方法中,存在一个由格式引起的偏差问题:当基准任务的推理链以明确的最终答案结尾时,现有的腐败实验主要测量的是答案位置的影响,而非中间计算步骤的重要性。研究通过实验表明,移除最终答案或提供错误答案会显著影响模型表现,且这种影响随模型规模变化而不同。论文进一步提出了一套三要素协议,以改进未来基于腐败的可信度研究。
Comments 34 pages, 6 figures, 13 tables. Submitted to NeurIPS 2026. Code and data: https://github.com/Gpgabriel25/LastWordWinsCoT
发表机构 * University of New South Wales(新南威尔士大学) ; The Hong Kong University of Science and Technology (Guangzhou)(香港科学与技术大学(广州))
AI总结 本文提出了一种名为STAR的失效感知路由框架,用于多智能体时空推理中的任务分配问题。该方法通过将智能体之间的控制决策显式建模为基于状态的转移策略,能够根据任务类型和执行状态动态选择合适的专家智能体,从而有效应对不同类型的执行失败。STAR通过结合专家指定的正常路由路径和从执行轨迹中学习的恢复转移,显著提升了系统在面对异常情况时的鲁棒性和可解释性。实验表明,STAR在多个时空推理基准上优于现有方法,尤其在执行路径偏离预期的情况下表现突出。
Comments 30 pages, 13 figures
发表机构 * openJiuwen Team(开放九文团队) ; Gaoling School of Artificial Intelligence, Renmin University of China(北京语言大学人工智能学院)
AI总结 随着人工智能工程范式从单智能体提示和上下文工程转向多智能体协调工程,如何系统化地编码和提升多智能体协作能力成为关键瓶颈。本文提出了一种名为 *Swarm Skills* 的可移植、自演进的多智能体系统规范,通过引入角色、工作流、执行边界和自演进语义结构,将多智能体协作流程转化为可分发的资产。研究还提出了一种自演进算法,能够自动提炼成功执行轨迹并持续优化现有技能,从而实现无需人工干预的多智能体协调策略自我进化。
发表机构 * Featherless AI ; Eleuther AI
AI总结 本文提出了一种名为 Key-Value Means(KVM)的新块循环注意力机制,能够支持固定大小或可扩展的状态存储。该方法在保持参数数量极少的情况下,使强大变压器模型具备线性时间复杂度的分块处理能力,并在长上下文任务中表现出色,预填充时间接近二次方且状态增长接近线性。KVM 结合了传统变压器和线性 RNN 的优势,支持分块并行训练与预填充,适用于所有层以节省 KV 缓存内存,并可在传统注意力机制中与 LRNN 混合使用,提升长上下文处理性能。
发表机构 * Key Laboratory of Trustworthy Distributed Computing and Service (MoE)(可信分布式计算与服务重点实验室) ; Beijing University of Posts and Telecommunications(北京邮电大学) ; Zhongguancun Laboratory(中关村实验室)
AI总结 本文提出了一种针对基于图的智能体记忆的新型投毒攻击方法——ShadowMerge,通过利用关系通道冲突来影响智能体的行为。该方法通过构造恶意关系,使其与合法关系共享相同的查询激活锚点和关系通道,但携带冲突的值,从而在不影响正常任务的前提下成功注入有害信息。实验表明,ShadowMerge在多个真实数据集上取得了高达93.8%的攻击成功率,显著优于现有方法,并揭示了当前防御机制在应对此类攻击时的不足。
Comments Preprint. Corresponding authors: Zifeng Kang and Tiantian Ji. Code is available at https://anonymous.4open.science/status/ShadowMerge-033C
发表机构 * Harbin Institute of Technology(哈尔滨工业大学) ; Tsinghua University(清华大学)
AI总结 尽管现有极低比特量化方法主要关注数值精度的保持,但本文指出,极低比特量化大语言模型还面临系统性的平滑性退化问题。通过引入平滑性代理指标和序列邻域建模,研究发现量化位宽越低,平滑性退化越严重,导致生成质量下降。为此,作者提出在后训练量化和量化感知训练中引入平滑性保持原则,有效提升了模型性能,强调了平滑性在极端量化中的重要性。
Comments 19 pages, 4 tables, 14 figures
发表机构 * Indian Institute of Technology Dhanbad(印度理工学院丹巴德分校) ; National University of Singapore(新加坡国立大学)
AI总结 本文研究了视觉-语言模型(VLMs)中由于语言与视觉模态过度对齐导致的幻觉问题,揭示了其根本原因在于解码器结构使得视觉嵌入过度对齐到文本流形,从而引入了语言统计偏倚,掩盖了细粒度视觉信息。作者首次量化分析了这一现象,提出两种互补的解决方案:一种是无需训练的推理策略,另一种是引入偏倚感知的微调方法,均能有效去除视觉表示中的语言偏倚。实验表明,这些方法在多个基准测试中显著减少了模型幻觉,并提升了长文本生成的质量。
发表机构 * AI Security Institute(人工智能安全研究所)
AI总结 本文探讨了自动化对齐(automated alignment)在人工智能超级智能(ASI)发展中的潜在风险。研究指出,即使研究代理不刻意破坏对齐工作,自动化对齐过程仍可能产生误导性的安全评估,导致未对齐的AI被无意中部署。这是因为对齐研究涉及许多难以监督的模糊任务,人类判断存在系统性偏差,而自动化系统可能在优化压力下产生人类难以发现的错误,进而影响对齐结果的可靠性。因此,如何训练代理可靠地完成这些任务,成为自动化对齐研究中的关键挑战。
Comments 15 pages, 4 figures
发表机构 * Gaoling School of Artificial Intelligence, Renmin University of China(中国人民大学北京校区人工智能学院)
AI总结 该研究提出了一种名为PerFlow的物理嵌入式修正流模型,用于高效重建和量化由偏微分方程(PDE)支配的时空动态场的不确定性。PerFlow通过将观测条件与物理约束解耦,实现了无需梯度引导的高效条件采样,并通过约束保持投影确保物理一致性。实验表明,该方法在保持良好物理特性的同时,显著提升了重建精度和推理速度。
Comments 17 pages, 8 figures. Accepted to IJCAI-ECAI 2026
发表机构 * ETH Z\"urich
AI总结 本文研究了针对大型语言模型代理的“特洛伊河马”攻击,该攻击通过在代理的长期记忆中植入隐蔽载荷,当用户讨论敏感话题时激活,从而实现数据外泄。研究提出了一种动态评估框架,用于系统评估不同内存架构和防御机制的有效性,并在实际邮件助手系统中验证了该攻击的高成功率(可达85%-100%)。研究还分析了多种防御方法的效果,揭示了安全性和实用性的权衡问题,为实际防御部署提供了重要参考。
发表机构 * Enclawed, LLC(Enclawed公司)
AI总结 本文研究了如何在人类介入的智能体运行时中,对技能(一种增强大语言模型的结构化指令包)进行可信验证的问题。作者提出了一种信任架构和一个双向正确性准则,确保技能在加载前必须经过验证,而非依赖签名或来源注册等信任机制。该方法通过明确的验证层级和能力门控策略,使人类介入仅在验证失败时触发,从而提升系统的可扩展性和可持续性。研究贡献具有通用性,不依赖模型再训练或专有基础设施。
发表机构 * Beijing Beijing China(北京北京中国) ; Shanghai Beijing China(上海北京中国)
AI总结 本文探讨了在大型语言模型(LLM)背景下对智能体强化学习(Agentic RL)的重新思考。研究关注如何将LLM的认知能力,如目标设定、长期规划、动态策略调整和交互推理,融入强化学习框架,以应对复杂、开放式的现实任务。文章深入分析了该范式的核心概念、方法创新与设计原则,并指出了当前面临的挑战及未来发展方向。
发表机构 * Magellan Technology Research Institute(马格纳技术研究 institute)
AI总结 本文提出了一种名为Corpus2Skill的方法,通过将企业文档库离线蒸馏为分层技能目录,使大型语言模型在回答问题时能够主动导航知识库,而非被动检索。该方法在企业客服基准测试中表现出优于多种RAG基线的问答质量与证据支持能力,并揭示了导航式方法在特定领域知识库中的优势,为知识引导系统的架构设计提供了指导。
发表机构 * National University of Singapore(新加坡国立大学)
AI总结 本文提出了一种名为 DMax 的新方法,用于高效生成扩散语言模型(dLLMs)。该方法通过引入渐进式自优化机制和软并行解码策略,有效缓解了并行解码中的错误累积问题,从而在保持生成质量的同时实现更高效的并行生成。DMax 还提出了 On-Policy Uniform Training 训练策略,统一了掩码和非掩码模型的训练过程,显著提升了模型在多个基准测试中的生成效率与性能。
Comments Working in progress. Code is available at: https://github.com/czg1225/DMax
发表机构 * University of Chicago(芝加哥大学)
AI总结 本文研究了AI智能体在互联网环境中作为决策者时,其决策可能受到环境变化的系统性影响,这一现象被称为“机械助推”(mecha-nudging)。作者结合经济学中的贝叶斯劝导理论和计算机科学中的可利用信息理论,提出了一种量化环境变化对AI影响的统一方法,并基于超过六百万个Etsy商品列表的数据分析发现,ChatGPT发布后,商品信息中用于预测AI推荐决策的机器可利用信息显著增加,而人类可利用信息则几乎没有变化。该研究首次提供了大规模实证证据,表明系统性的机械助推已在实际环境中发生,但尚未被广泛察觉。
发表机构 * The University of Texas at Austin(德克萨斯大学奥斯汀分校) ; California Institute of Technology(加州理工学院) ; Cornell University(康奈尔大学)
AI总结 本文提出FormulaCode,一个用于评估大语言模型(LLM)代理在真实大型代码库中进行多目标优化能力的基准。该基准基于从GitHub科学Python仓库中挖掘的957个性能瓶颈,每个瓶颈都配有专家编写的补丁和大量社区维护的性能测试任务,能够全面评估LLM在保证正确性与性能约束下的优化能力。实验表明,当前最先进的LLM代理在面对大规模、多目标优化任务时仍面临显著挑战。
Comments Preprint version
发表机构 * Independent Researcher(独立研究者)
AI总结 该论文研究了在结构化视觉领域(如建筑平面图分析)中保持多边形标注拓扑结构的图像增强方法。针对传统几何增强可能导致多边形区域分割、破坏语义连通性的缺陷,提出了一种轻量的拓扑保持增强策略,能够在不改变顶点顺序的前提下修复索引空间中的邻接关系。实验表明,该方法在常见几何变换下能实现接近完美的循环邻接保持(CAP),并有效提升了基于多边形的分割标注一致性。
Comments 10 pages, 6 figures
发表机构 * Sony AI(索尼人工智能) ; Sony Group Corporation(索尼集团) ; Stanford University(斯坦福大学) ; Georgia Tech(佐治亚理工学院)
AI总结 本文探讨了漂移模型与基于分数的生成模型之间的内在联系,揭示了漂移方法在本质上等价于对平滑分布进行分数匹配的目标。研究发现,使用高斯核时,均值漂移场精确对应于数据分布与模型分布的分数差异,这一结论基于Tweedie公式。对于实际常用的拉普拉斯核,理论与实验均表明其残差项在高维情况下可忽略,因此实际应用中的漂移方法近似于基于分数的生成方法。该研究为理解生成模型提供了统一的视角,并指出了漂移模型与扩散模型在运输方向上的结构性相似与差异。
发表机构 * CISPA Helmholtz Center for Information Security(CISPA海德堡信息安全研究中心) ; University of Waterloo(滑铁卢大学) ; Flexera(Flexera公司)
AI总结 本文系统评估了31个大型语言模型安全基准的代码质量和可运行性,并与382篇非基准论文进行对比。研究发现,大多数基准代码需要修改才能运行,且仅有少数提供完整的安装指南和伦理考量。作者指出,基准的采用与作者知名度和代码可运行性相关,而非代码质量标准,揭示了社区在基准选择上的潜在偏差。此外,部分基准存在安全隐患,可能被用作攻击资源,影响安全评估的可靠性。
Comments 24 pages. 19 figures
发表机构 * Semarx Research LLC(Semarx研究公司)
AI总结 本文提出了一种名为“双可预测性”(Bipredictability,记为P)的信息论指标,用于量化智能体与环境之间的闭环交互在消除不确定性、提升共享可预测性方面的效率。该指标具有理论上的上限(小于0.5),并证明智能体的主动行为会抑制P值低于这一阈值,这一现象被称为“智能体的信息成本”。实验表明,P不仅在强化学习系统中有效,还适用于语言模型、视觉系统等不同领域,展示了其广泛的适用性;同时,基于P构建的信息数字孪生(IDT)架构在检测系统退化方面表现出更高的准确率和更低的延迟,为部署中的自主系统提供了新的可靠性评估手段。
Comments 12 pages, 2 figures
发表机构 * LMU Munich(慕尼黑大学) ; Aqarios GmbH(Aqarios公司)
AI总结 该研究针对变分量子电路中的频率编码问题,提出了一种新的初始化方法以提升其对高频函数的拟合能力。传统方法在固定编码下需要大量门操作,而可训练频率电路虽有潜力,但因频谱间隙导致梯度下降效果受限。本文提出的三进制网格初始化方法通过合理设置频率前缀,消除了频谱间隙的影响,显著提升了模型性能。实验表明,该方法在合成和真实数据集上均优于现有方法。
发表机构 * University of South Florida(佛罗里达州立大学) ; Brandeis University(布兰迪大学)
AI总结 本文研究了如何在大语言模型中高效地进行知识编辑,即在不破坏模型整体性能的前提下,针对特定查询更新模型的输出。作者提出了一种基于层梯度分析(LGA)的新方法,通过分析模型各层的梯度信息,高效识别出对知识编辑效果最佳的“黄金层”,从而避免了传统方法中繁琐的试错过程。实验表明,该方法在多种大语言模型和知识编辑任务中均表现出良好的有效性和鲁棒性。
发表机构 * FAIR at Meta(Meta的FAIR) ; Stanford University(斯坦福大学) ; University of Oxford(牛津大学)
AI总结 该研究探讨了如何通过生成中间“台阶问题”来提升大型语言模型在复杂推理任务中的表现。研究提出了一种名为ARQ的框架,通过引入问题生成器到默认推理流程中,帮助模型逐步分解任务、构建有用的中间步骤。实验表明,这些生成的台阶问题具有可迁移性,能够有效辅助不同能力的模型解决目标任务,并可通过后训练方法进一步优化生成质量。
发表机构 * School of Computer Science and Information Engineering, Hefei University of Technology, Hefei, China(合肥工业大学计算机科学与信息工程学院) ; Wuhan University, Wuhan, China(武汉大学) ; Lab for Intelligence and visiON (LION)(智能视觉实验室)
AI总结 现有伪造检测方法多局限于单模态或双模态设置,难以应对现实中的多模态虚假信息。本文提出OmniVL-Guard,一个基于平衡强化学习的统一视觉-语言伪造检测与定位框架,旨在解决多模态交互与多任务优化中的偏差问题。该方法包含自进化推理路径生成和自适应奖励缩放策略优化两个核心设计,有效提升了检测与定位的综合性能,并在多个数据集上展现出优越的零样本泛化能力。
Comments Accepted by ICML 2026
发表机构 * Carnegie Mellon University, Pittsburgh, PA, USA(卡内基梅隆大学) ; University of Maryland, College Park, MD, USA(马里兰大学学院市分校)
AI总结 该研究提出了一种名为“反蒸馏指纹”(ADFP)的新方法,用于检测第三方模型是否通过蒸馏技术学习了教师模型的输出。与现有依赖启发式扰动的方法不同,ADFP 将指纹检测目标与学生模型的学习动态对齐,利用代理模型选择能最大化指纹可检测性的标记,从而在保证生成质量的前提下提升检测效果。实验表明,ADFP 在数学推理、对话和代码生成任务中均实现了比现有方法更优的检测性能与实用性平衡。
Comments 28 pages, 13 figures, ICML 2026
发表机构 * Arizona State University(亚利桑那州立大学) ; Georgetown University(乔治城大学)
AI总结 本文研究了AI生成性内容(AIG-SC)创作者的动机、方法及内容类型,揭示了他们创作的多样性,包括性探索、创意表达和技术实验等。研究通过深入访谈28位创作者,探讨了AIG-SC在技术、伦理和社会层面的影响,为相关政策制定提供了重要参考。
发表机构 * Tele-Communication Technology Bureau, Xinhua News Agency(新华通讯社电信技术局)
AI总结 随着大语言模型(LLMs)在基于网络的自主代理和复杂网络信息系统中扮演核心角色,其将自然语言准确转换为结构化格式的能力变得至关重要。为此,本文提出Structure-BiEval,一种无需人工标注的自监督框架,通过解耦结构与内容,利用内容语义准确度和归一化树编辑距离等指标,对网络数据的结构保真度进行量化评估。实验结果表明,不同规模的LLM在结构化任务中表现差异显著,且深层嵌套结构对各类模型均构成挑战。
发表机构 * University of California, Santa Barbara(加州大学圣芭芭拉分校)
AI总结 准确预测云工作流任务的资源消耗和运行时间对调度效率至关重要,但由于任务配置的半结构化特性,这一任务具有挑战性。本文提出 LASER 框架,通过微调大语言模型对序列化的工作流配置进行多目标资源和运行时间回归,引入科学记数法输出编码和约束解码机制以提升数值预测的准确性和效率。实验表明,LASER 在大规模芯片设计任务和新构建的 GHARuntime 数据集上均优于人类专家和最先进的表格机器学习方法,确立了基于大语言模型处理半结构化工作流数据回归任务的新范式。
Comments 20 pages, 7 figures
发表机构 * department of Electrical Engineering and Computer Science, York University(电气工程与计算机科学系,约克大学) ; School of Electrical and Electronic Engineering, Huazhong University of Science and Technology(电子与电气工程学院,华中科技大学) ; Central China Branch of State Grid Corporation of China(国家电网公司中部分部) ; Department of Electronic Engineering, University of Rome Tor Vergata(罗马大学Tor Vergata电子工程系) ; Consorzio Nazionale Interuniversitario per le Telecomunicazioni (CNIT)(国家大学间电信研究会(CNIT))
AI总结 随着无线基础设施的快速发展,准确估计和预测电磁场(EMF)水平对于确保合规性、评估健康影响和优化网络规划变得尤为重要。本文提出EMFusion,一种结合不确定性感知的条件扩散框架,用于无线网络中频率选择性的多变量EMF预测。该方法通过引入残差U-Net结构和跨注意力机制,整合时间、季节和节假日等上下文信息,同时提供显式的不确定性估计,并采用基于插补的采样策略提升预测的时序一致性。实验表明,EMFusion在多个评价指标上均优于现有方法,显著提升了预测精度和可靠性。
Comments Submission for possible publication
发表机构 * University of Science and Technology of China(中国科学技术大学) ; University of Edinburgh(爱丁堡大学) ; Nanyang Technological University(南洋理工大学)
AI总结 本文研究了强制等变性对神经网络表达能力的影响,发现这种约束可能削弱模型的表达能力。通过分析边界超平面和通道向量,作者构造性地证明了这一问题,并指出可通过扩大模型规模来补偿这一缺陷,同时证明了所需扩大的上界。令人意外的是,扩大的网络结构反而降低了假设空间的维度,可能带来更好的泛化能力。
发表机构 * Scuola Superiore Meridionale, Italy(意大利南部高级学院) ; ETH, Zürich(苏黎世联邦理工学院) ; Center for Control, Dynamical Systems, and Computation, UC Santa Barbara, CA, USA(加州大学圣巴巴拉分校控制与动力系统中心) ; Department of Information and Electrical Engineering and Applied Mathematics, University of Salerno, Italy(意大利萨勒诺大学信息与电气工程及应用数学系)
AI总结 本文研究了如何通过最小化变分自由能来实现神经策略的组合,提出了一种规范化的框架,为策略组合提供了原理性且广泛适用的目标函数。基于该框架,作者推导出一种连续时间梯度流,其轨迹可保证以明确速率收敛到最优策略组合,并展示了该动态机制可通过软竞争递归电路实现。实验表明,该模型在多智能体群体行为、人类决策任务和分层控制等场景中,能够有效解释策略组合机制,再现关键行为特征,并在性能上优于或匹配现有模型。
发表机构 * University of Arizona(亚利桑那大学) ; Allen Institute for Artificial Intelligence(人工智能研究所)
AI总结 CodeDistiller 是一个自动从科学 GitHub 仓库中提炼高质量代码库的系统,旨在增强科学编程代理的代码生成能力。该系统通过结合自动评估和领域专家评审,生成适用于材料科学等领域的可运行代码示例,显著提升了自动科学发现系统的实验准确性和科学性。实验表明,使用 CodeDistiller 生成的代码库可使代理生成更完整、更可靠的实验代码,并为大规模评估科学发现系统提供了可行的替代指标。
Comments 8 pages, 3 figures, 3 tables. Accepted to ACL 2026 (Demo Track)
发表机构 * Department of Computer Science and Technology, University of Cambridge(计算机科学与技术系,剑桥大学) ; Department of Computer, Control and Management Engineering, Sapienza University(计算机、控制与管理工程系,萨皮恩扎大学)
AI总结 本文提出了一种名为多项式神经束扩散(PolyNSD)的新方法,用于改进神经束网络在图结构上的扩散过程。该方法通过在归一化束拉普拉斯矩阵上应用K次多项式传播算子,实现了与束维数无关的K跳感受野,并通过凸混合的正交多项式基响应进行可训练的谱响应建模。相比传统方法,PolyNSD在保持模型稳定性的同时,降低了计算和内存需求,并在同质和异质图基准测试中取得了新的最先进结果。
发表机构 * University of Washington(华盛顿大学) ; Allen Institute for AI(人工智能研究院) ; Carnegie Mellon University(卡内基梅隆大学) ; Massachusetts Institute of Technology(麻省理工学院) ; Seattle Children's Hospital(西雅图儿童医院) ; University of California, Berkeley(加州大学伯克利分校)
AI总结 该论文提出了一种名为DR Tulu-8B的深度研究模型,旨在解决现有开放源深度研究代理在长篇、多步骤研究任务中表现不足的问题。研究引入了基于动态评分标准的强化学习方法(RLER),使评分标准与策略模型在训练过程中协同进化,从而提升事实核查能力和反馈质量。DR Tulu-8B是首个直接针对开放性长篇深度研究任务训练的完全开源模型,在多个科学、医疗和通用领域的基准测试中,其性能显著优于现有开源模型,并接近甚至超越了专有模型,同时在每查询成本上大幅降低。
Comments ICML 2026
发表机构 * Frontier AI companies(前沿AI公司) ; independent foundations(独立基金会)
AI总结 本文探讨了人工智能意识与存在风险之间的关系,指出二者常被混淆,但实际上意识与智能在理论和实践中是截然不同的属性。研究认为,智能是预测AI系统存在风险的直接因素,而意识本身并不直接构成威胁,但在某些情况下可能间接影响风险。明确这一区别有助于AI安全研究者和政策制定者更准确地识别和应对核心问题。
Comments Updated for clarity and completeness following peer-review
发表机构 * University of Southern California(美国南加州大学) ; Inha University(inha大学)
AI总结 深度神经网络在视觉和语言任务中表现出色,但其庞大的参数量限制了在资源受限环境中的部署。为解决这一问题,研究提出了一种新的权重集中正则化方法(WCR),通过在训练过程中放大一小部分参数的幅度,同时将其他参数驱动至零,从而在剪枝时主要移除对模型功能贡献较小的参数,提升模型在高稀疏度下的鲁棒性。实验表明,该方法在多种任务和架构中均能有效提升剪枝鲁棒性,并与现有剪枝鲁棒优化器兼容。
发表机构 * Quantum Cloud Computing and Distributed Systems (qCLOUDS) Laboratory, School of Computing and Information Systems, The University of Melbourne(量子云计算与分布式系统实验室,计算与信息系统学院,墨尔本大学)
AI总结 本文探讨了量子人工智能(QAI)在关键任务系统(如国防、能源管理、网络安全和航空航天控制)中的应用潜力,旨在解决传统人工智能在可靠性、实时性、可解释性和安全性方面存在的不足。研究系统分析了QAI方法在满足关键任务系统需求方面的可行性,并提出了量子云资源管理与调度的概念框架,同时指出现有QAI技术与实际需求之间的差距。文章还讨论了QAI在训练限制、数据访问、组件验证等方面面临的挑战,并展望了未来在可解释性、可扩展性和硬件实现方面的发展方向。
Comments 15 pages, 5 figures, revised and accepted version of the paper
发表机构 * School of Artificial Intelligence and Robotics, Hunan University(湖南大学人工智能与机器人学院) ; Yuelushan Center for Industrial Innovation(岳麓山创新中心) ; School of Medical Information Engineering, Jining Medical University(济南医学院医学信息工程学院)
AI总结 本文提出SARVLM,首个专为合成孔径雷达(SAR)影像设计的视觉-语言基础模型,旨在提升SAR图像的语义理解能力。为解决SAR多模态数据稀缺及跨模态表征不足的问题,研究者构建了包含百万级图像-文本对的SARVLM-1M大规模数据集,并设计了两阶段领域迁移训练策略,利用光学遥感数据作为桥梁,有效提升模型在SAR领域的表现。实验表明,SARVLM在多个基准任务中均优于现有模型,显著推进了SAR影像的语义理解水平。
Comments 13 pages, 13 figures
发表机构 * The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳)) ; Shanghai Jiao Tong University(上海交通大学)
AI总结 本文研究了在没有外部奖励信号的情况下,语言模型能否仅通过自身生成的响应来提升推理能力。提出了一种名为Self-evolving Post-Training(SePT)的简单后训练方法,通过交替进行自我生成和基于生成数据的训练,逐步优化模型性能。实验表明,SePT在多个数学推理基准测试中有效提升了模型推理能力,验证了仅依赖自生成监督进行模型自我进化的可行性。
发表机构 * University of Washington(华盛顿大学) ; Fred Hutch Cancer Center(Fred Hutch癌症中心) ; Harvard University(哈佛大学) ; Google(谷歌)
AI总结 本文提出了一种名为Traj-CoA的多智能体系统,用于通过链式智能体结构对患者轨迹进行建模,以提升肺癌风险预测的准确性。该方法通过一系列工作智能体逐步处理电子健康记录(EHR)数据,提炼关键事件并存储在共享的长期记忆模块EHRMem中,以降低噪声并保留完整的就诊时间线,最终由管理智能体综合信息进行预测。实验表明,Traj-CoA在零样本一年期肺癌风险预测任务中优于四类基线方法,展现了其在临床时间推理方面的一致性和有效性。
Comments Accepted by NeurIPS 2025 GenAI4Health Workshop
发表机构 * Department of Computer Science, University of California, Berkeley(加州大学伯克利分校计算机科学系) ; Department of Development Engineering, University of California, Berkeley(加州大学伯克利分校发展工程系)
AI总结 本文提出了一种名为 SAE-RNA 的稀疏自编码器模型,用于解释 RNA 语言模型的表示,旨在探索其是否能够对 RNA 语言模型的特征进行可解释的分解。该方法基于 RiNALMo 模型,通过映射到已知的生物学特征,分析 RNA 语言模型内部如何组织生物信息。研究为 RNA 分类和结构特征的识别提供了一个基于特征层面的比较框架,并探讨了稀疏自编码器在该任务中的适用性与局限性。
Comments 12 pages, 7 figures. v2: Updated bibliography to improve reference accuracy and reflect updated publication venues. Refined claims for better alignment with results and added an Appendix
发表机构 * Rice University(里士大学)
AI总结 文本到图像扩散模型在生成分辨率超出训练设定的图像时性能往往会下降。本文针对低分辨率图像生成问题,提出了一种无需额外训练的噪声重新校准方法 NoiseShift,通过调整去噪器的噪声条件索引,恢复正向与反向过程的一致性,从而减少训练与测试阶段的不匹配。实验表明,NoiseShift 在多个主流扩散模型上显著提升了低分辨率图像的生成质量,且实现简单、推理开销极小。
发表机构 * Centre for AI, DS\&AI, Astrazeneca, UK(英国阿斯利康人工智能中心) ; Institute for Imaging, Data and Communications (IDCOM), School of Engineering, University of Edinburgh, Edinburgh, UK(爱丁堡大学工程学院影像、数据与通信研究所) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室)
AI总结 本文提出了一种名为 Causal-Adapter 的模块化框架,用于适配冻结的文本到图像扩散模型,实现对图像的反事实生成。该方法通过因果干预目标属性,并将其影响一致地传播至因果依赖部分,同时保持图像的核心身份。与依赖提示工程的方法不同,Causal-Adapter 引入结构因果模型,并采用属性正则化策略,实现了更准确的语义控制和高保真图像生成,在多个数据集上取得了优越的性能。
Comments Project Page: https://leitong02.github.io/causaladapter/
Journal ref ICML 2026
发表机构 * Gates Foundation(比尔及梅琳·格ates基金会)
AI总结 该论文提出了一种基于图结构的评估框架,用于对领域特定语言模型进行严格评估。该方法将结构化的临床指南转化为可查询的知识图谱,并通过图遍历动态生成评估问题,从而确保评估的全面性、抗污染性和可维护性。应用在世界卫生组织IMCI指南上时,该框架生成了涵盖症状识别、治疗方案、严重程度分类和后续护理的多选题,并揭示了不同语言模型在临床决策任务中的系统性能力差距。
发表机构 * Sichuan University-Pittsburgh Institute(四川大学匹兹堡研究院) ; Sichuan University(四川大学) ; College of Computer Science(计算机科学学院) ; University College Dublin(都柏林大学) ; School of Electrical and Electronic Engineering(电子与电气工程学院) ; School of Electronics and Information Engineering(电子与信息工程学院)
AI总结 该研究针对随机交通网络中的可靠路径规划问题,提出了一种基于历史感知的决策变换器与广义策略梯度结合的新型策略框架GPG-HT。该方法通过关注历史节点-边-时间观测,捕捉非马尔可夫时空依赖关系,从而在不确定环境下实现更具上下文感知的路径决策。实验表明,该方法在典型交通网络中显著提升了准时到达概率,优于传统优化和强化学习方法。
发表机构 * Massachusetts Institute of Technology(麻省理工学院)
AI总结 本文研究了如何通过强化学习训练语言模型在生成推理链时更好地评估自身不确定性。传统方法使用二元奖励函数仅评价输出正确性,导致模型在面对不确定情况时容易产生错误回答。为此,作者提出了一种新的训练方法 RLCR,结合二元正确性奖励与 Brier 分数,同时优化模型的准确性和置信度校准。实验表明,RLCR 在多个数据集上显著提升了模型的校准能力,且不牺牲准确性,优于传统强化学习和事后置信度校准方法。
发表机构 * ILCC, University of Edinburgh(爱丁堡大学ILCC) ; Fudan University(复旦大学) ; Qwen Team, Alibaba Group(阿里集团Qwen团队) ; ILLC, University of Amsterdam(阿姆斯特丹大学ILLC)
AI总结 本文研究了大语言模型后训练中监督微调(SFT)与强化微调(RFT)的结合方法,提出了Prefix-RFT这一混合策略,通过前缀采样实现从演示数据和探索行为中协同学习。该方法在数学推理任务中表现出色,不仅优于单独使用SFT或RFT,也优于其他混合策略,验证了SFT与RFT的互补性,并展示了其对演示数据质量与数量变化的鲁棒性。
Comments ICML 2026
发表机构 * Department of Computing Science(计算科学系) ; University of Alberta(阿尔伯塔大学) ; Alberta Machine Intelligence Institute(阿尔伯塔机器智能研究所) ; CIFAR AI Chair(CIFAR人工智能主席) ; Edmonton, AB, Canada(加拿大艾德蒙顿省,亚伯达)
AI总结 本文提出了一种深度强化学习算法——Deep Double Q-learning(DDQL),旨在解决传统深度Q网络(DQN)中存在的估计过高的问题。该方法通过显式训练两个独立的Q函数,结合降低经验回放比例、延长目标网络更新间隔等技术,有效提升了训练稳定性。实验表明,DDQL在57款Atari 2600游戏中整体表现优于Double DQN,在其中47款游戏中表现更优,并进一步减少了估计过高的现象。
Comments 44 pages
发表机构 * The Pennsylvania State University(宾夕法尼亚州立大学)
AI总结 本文探讨了人工智能用于社会影响研究(AI4SI)在实际应用中面临的主要挑战与机遇。研究通过访谈26位AI4SI领域的研究者,分析了在结构性、组织性、沟通与协作等方面阻碍AI4SI落地的障碍,并总结了可行的合作策略与实践经验。该研究为希望推动社会影响的AI研究者和机构提供了实用指导。
Comments To be published in FAccT'26
发表机构 * ELLIS Institute(ELLIS研究所) ; University of Helsinki(赫尔辛基大学) ; Czech Academy of Sciences Institute of Computer Science(捷克科学院计算机科学研究所) ; Dynatrace Research(Dynatrace研究)
AI总结 该研究提出了一种通过逻辑预处理缩小归纳逻辑编程(ILP)假设空间的方法。利用背景知识,该方法在学习前移除那些无论训练数据如何都无法出现在最优假设中的规则,例如“偶数不可能是奇数”等逻辑矛盾。实验表明,这种方法在保持预测精度的同时,显著减少了学习时间,例如在仅花费10秒预处理的情况下,将原本需要10小时以上的学习时间缩短至仅2秒。
Comments Published in JAIR
Journal ref Journal of Artificial Intelligence Research, Vol. 85 (2026)
发表机构 * University of Arizona(亚利桑那大学) ; TetraMem, Inc.(TetraMem公司)
AI总结 本文提出了一种名为FAR的函数保持注意力替换框架,旨在解决Transformer模型在基于忆阻器(ReRAM)的存算一体(IMC)设备上推理效率低的问题。FAR通过将预训练DeiT模型中的注意力机制替换为与IMC数据流兼容的多头双向LSTM结构,并结合块级知识蒸馏和结构化剪枝,实现了功能等效的同时显著降低了计算延迟和参数量。实验表明,FAR在ImageNet及多个下游任务上保持了与原始模型相当的准确率,展示了其在边缘计算设备上高效部署Transformer模型的潜力。
Comments 7 pages main paper, 6 figures; accepted by GLSVLSI 2026
发表机构 * Department of Computer Science, National University of Singapore(新加坡国立大学计算机科学系) ; Singapore-MIT Alliance for Research and Technology Centre(新加坡-麻省理工联盟研究技术中心) ; The Chinese University of Hong Kong, Shenzhen, China(香港中文大学(深圳)) ; CSAIL, Massachusetts Institute of Technology(麻省理工学院计算机科学与人工智能实验室) ; Institute of Data Science, National University of Singapore(新加坡国立大学数据科学研究院)
AI总结 本文提出了一种名为 ActiveDPO 的主动直接偏好优化方法,旨在提升大语言模型对齐过程中的样本效率。该方法基于理论支撑的数据选择准则,适用于非线性奖励函数,并直接利用待对齐的LLM本身参数化奖励模型,从而更有效地指导数据选择。实验表明,ActiveDPO 在多种模型和真实偏好数据集上均优于现有方法,显著提升了对齐效果与数据使用效率。
Comments Accepted at ICLR 2026
发表机构 * Princeton University(普林斯顿大学)
AI总结 VideoGameBench 是一个用于评估视觉语言模型(VLMs)完成流行视频游戏能力的基准测试,包含10款90年代经典游戏,模型仅通过原始视觉输入和目标描述进行实时交互。该研究揭示了当前前沿VLM在实时游戏任务中表现有限,难以完成完整游戏,主要受限于推理延迟等问题。为此,研究还提出了VideoGameBench Lite 以缓解实时性挑战,并指出当前最先进的模型在该基准上的完成率仍非常低。
Comments 10 pages, 38 pages including supplementary
发表机构 * College of Computer Science and Technology, Zhejiang University(浙江大学计算机科学与技术学院) ; State Key Laboratory of Transvascular Implantation Devices and TIDRI(血管植入设备国家重点实验室和TIDRI) ; Zhejiang Key Laboratory of Medical Imaging Artificial Intelligence(浙江医学影像人工智能重点实验室) ; School of Data Science of Engineering, East China Normal University(华东师范大学工程数据科学学院) ; Second Affiliated Hospital and Liangzhu Laboratory, Zhejiang University School of Medicine(浙江大学医学院第二附属医院和良渚实验室) ; Alibaba Group(阿里巴巴集团)
AI总结 本文研究了大语言模型(LLMs)在基准测试中的表现是否受到训练数据污染的影响,指出当前基于基准测试的评估方式可能高估了模型的真实能力。为此,作者提出了一种新的评估框架TrinEval,通过重构多选题形式,减少对记忆的依赖,从而更准确地评估模型的真实学习能力。实验表明,主流大语言模型在多个数据集上约有19.6%的知识点依赖于死记硬背,而非真正的理解与推理能力。
Comments Work in Progress
发表机构 * Cornell University(康奈尔大学) ; Intel Labs(英特尔实验室)
AI总结 大型语言模型在解码过程中依赖键值缓存(KV-Cache)存储历史信息,但随着缓存增长,其成为内存和计算瓶颈。为解决这一问题,本文提出TokenButler,一种高精度、查询感知的标记重要性预测方法,能够在固定预算下动态选择关键标记,同时保留完整的KV缓存。该方法通过学习预测低维重要性查询,并结合缓存键的投影进行高效评分,实验表明其在长上下文任务中性能优越,并显著提升了推理速度。
发表机构 * Sony Group Corporation, Tokyo, Japan(索尼集团,日本东京)
AI总结 近期多模态大语言模型(MLLMs)在理解和推理多模态信息方面取得了显著进展,但视觉与语言模态之间的对齐问题仍是一个关键挑战。本文从模型架构层面出发,提出了一种新的模态互注意力机制(MMA),通过将因果注意力扩展为跨模态互注意力,使图像模态能够关注文本模态,从而提升模型对输入信息的准确理解。该方法在多个多模态理解基准测试中取得了优越性能,且无需增加额外参数,具有通用性和可扩展性。
Comments ICML 2026. Code is available at https://github.com/sony/aki
发表机构 * Department of Mathematics, The University of Hong Kong (HKU)(香港大学数学系) ; Department of Data and Systems Engineering, HKU(香港大学数据与系统工程系) ; Musketeers Foundation Institute of Data Science, HKU(穆斯克特基金会数据科学研究所)
AI总结 在强化学习中,稀疏奖励信号使得奖励函数的学习变得困难。本文提出一种半监督方法,结合非零奖励转移和数据增强技术,利用大量零奖励转移学习轨迹表示,从而提升奖励塑形的效果。实验表明,该方法在Atari和机器人操作任务中优于基于监督的方法,尤其在稀疏奖励环境下,其最高得分可达监督方法的两倍。
发表机构 * Harvard University(哈佛大学) ; Alibaba Group(阿里巴巴集团) ; UT Austin(得克萨斯大学奥斯汀分校)
AI总结 大规模机器学习训练任务常因硬件、软件故障或管理事件而中断,现有方法如检查点重启或运行时重新配置往往导致较长的停机时间和性能下降。本文提出TrainMover,一种具有高弹性的大语言模型训练运行时系统,通过利用弹性与备用机器实现最小停机时间和零内存开销的中断处理。TrainMover引入了两阶段基于增量的通信组构建、无通信沙箱预热以及通用备用设计等关键技术,实验表明其在千GPU规模下处理中断的停机时间可稳定控制在约20秒,相比现有最佳方案可减少55%的GPU空转时间。
Comments 14 pages body, 19 pages total
发表机构 * Engineering Programme, NUS Graduate School, National University of Singapore(国立新加坡大学整合科学与工程计划) ; Institute of Data Science (IDS), National University of Singapore(国立新加坡大学数据科学研究所) ; Department of Computer Science, School of Computing, National University of Singapore(国立新加坡大学计算机科学系)
AI总结 本文提出了一种简单而有效的黑盒大语言模型越狱攻击方法FlipAttack。该方法利用大语言模型从左到右理解文本的特性,通过在提示左侧添加噪声干扰模型理解,从而隐藏有害指令,并进一步扩展出四种翻转模式。实验表明,FlipAttack具有高度通用性、隐蔽性和简洁性,仅需一次查询即可成功越狱,对包括GPT-4o在内的多个模型均取得了高达约98%的攻击成功率。
Comments 43 pages, 31 figures
发表机构 * New York University Abu Dhabi(纽约大学阿布扎赫德分校) ; Zhejiang University(浙江大学) ; The Hong Kong Polytechnic University(香港理工大学) ; Nanyang Technology University(南阳技术大学) ; University of Electronic Science and Technology of China(电子科技大学) ; Texas A&M University(德克萨斯大学) ; Squirrel AI
AI总结 随着大语言模型(LLM)在命名实体识别(NER)任务中的应用日益广泛,现有数据集在语料选择和设计逻辑上已难以满足LLM方法的需求。为此,本文提出DynamicNER,一个专为LLM设计的动态、多语言、细粒度NER数据集,支持同一实体在不同上下文中具有不同实体类型,涵盖8种语言和155种实体类型,适用于广泛领域。同时,本文还提出CascadeNER方法,通过两阶段策略和轻量级LLM实现更高效的细粒度识别,实验表明DynamicNER为LLM-based NER提供了有效的评估基准。
Comments This paper is accepted by EMNLP 2025 Main Conference
发表机构 * Lehigh University(莱维大学) ; Lehigh University Computer Science(莱维大学计算机科学) ; Engineering Bethlehem PA USA(工程 布雷顿 佛罗里达 美国) ; Independent Researcher(独立研究员) ; Independent Researcher Fremont California USA(独立研究员 佛罗里达 加州 美国)
AI总结 个性化扩散模型(PDMs)在使用少量数据生成特定人物图像方面表现出色,但其对微小对抗性扰动高度敏感,导致在受污染数据上微调时性能显著下降。本文通过 Shortcut Learning 的视角深入分析了 PDMs 的微调过程,揭示了对抗扰动在 CLIP 嵌入空间中引发的潜在语义对齐问题,并据此提出了一种系统性的反制框架,包括图像净化和对比解耦学习,有效提升了模型的鲁棒性和泛化能力。
Comments Code is available at https://github.com/liuyixin-louis/DiffShortcut
发表机构 * Graduate Group in Applied Mathematics and Computational Science(应用数学与计算科学联合研究生组) ; University of Pennsylvania(宾夕法尼亚大学) ; Department of Mechanical Engineering and Applied Mechanics(机械工程与应用力学系)
AI总结 本文提出了一种名为NEON的神经网络架构,用于在无限维函数空间中进行带有不确定性的预测,其参数数量远少于性能相当的深度集成方法。研究聚焦于复合贝叶斯优化问题,即优化由未知函数映射和已知函数组成的复合函数,并通过实验表明NEON在多个场景下取得了领先的优化效果,同时显著降低了模型复杂度。
Journal ref Guilhoto, Leonardo Ferreira, and Paris Perdikaris. "Composite Bayesian optimization in function spaces using NEON - Neural Epistemic Operator Networks." Scientific Reports 14.1 (2024): 29199
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Shanghai AI Laboratory(上海人工智能实验室) ; The Chinese University of Hong Kong(香港中文大学) ; MThreads, Inc.(MThreads公司) ; Nanyang Technological University(南洋理工大学)
AI总结 本文提出了一种名为RAR的方法,旨在提升多模态大语言模型(MLLMs)在细粒度和少样本视觉识别任务中的性能。RAR结合了CLIP的多模态检索能力与MLLMs的丰富知识库,通过建立多模态检索器来扩展模型的上下文窗口,并在推理时检索相关类别信息供MLLMs进行排序和预测。该方法有效解决了MLLMs在面对大量类别时性能下降的问题,在多个细粒度和零样本识别基准上取得了显著的性能提升。
Comments Project: https://github.com/Liuziyu77/RAR
发表机构 * Korea University(韩国大学) ; University of Illinois at Chicago(伊利诺伊大学香槟分校)
AI总结 在图神经网络中,如何有效适配不同预训练策略的模型仍是一个挑战。本文提出了一种子图级通用提示调优方法(SUPT),通过在子图层面分配提示特征,保持方法的通用性,同时大幅减少调优参数数量。实验表明,SUPT在多种下游任务中表现优异,尤其在少样本场景下平均性能提升超过6.6%。
Journal ref Information Sciences 749 (2026) 123516
发表机构 * University of Chicago(芝加哥大学)
AI总结 本文探讨了“线性表示假设”,即高层概念在表示空间中以线性方向形式表示的问题,提出了“线性表示”的两种形式化定义,并分别对应输出(词)空间和输入(句子)空间。通过引入因果内积,作者建立了一个非欧几里得的内积结构,能够统一各种线性表示的概念,并用于构建探针和引导向量。实验表明,大型语言模型中确实存在概念的线性表示,且内积的选择对解释与控制模型具有基础性作用。
Comments Accepted for a presentation at ICML 2024 and an oral presentation at NeurIPS 2023 Workshop on Causal Representation Learning. Code is available at https://github.com/KihoPark/linear_rep_geometry
Journal ref In Proceedings of the 41st International Conference on Machine Learning (ICML), 2024