Detecting and Mitigating Bias by Treating Fairness as a Symmetry Operation
通过将公平性视为对称操作来检测和缓解偏见
发表机构 * Nishit Singh
AI总结 将偏见形式化为对称性破缺操作,通过损失正则化恢复对称性,在合成数据集上实现90%以上的违规减少,准确率成本约5%。
Comments 8 pages, 7 figures
通过将公平性视为对称操作来检测和缓解偏见
发表机构 * Nishit Singh
AI总结 将偏见形式化为对称性破缺操作,通过损失正则化恢复对称性,在合成数据集上实现90%以上的违规减少,准确率成本约5%。
Comments 8 pages, 7 figures
DiBS: 扩散模型引导的分支选择
发表机构 * Nanyang Technological University(南洋理工大学) ; University of Science and Technology of China(中国科学技术大学) ; Tsinghua University(清华大学)
AI总结 针对数独求解中学习型求解器缺乏正确性保证而符号求解器存在长尾搜索的问题,提出扩散模型引导的分支选择方法DiBS,在保持符号求解器完备性的同时,利用扩散模型排序候选值,显著降低搜索成本。
Comments 12 pages, 6 figures, 3 tables
SafeGene: 可重用的适配器实现可迁移的安全对齐
发表机构 * Southeast University(东南大学) ; The Hong Kong Polytechnic University(香港理工大学)
AI总结 提出SafeGene,一种可重用的安全适配器模块,通过从对齐-退化模型差异中提取安全表示,并利用数据感知层选择和少样本系数重校准,实现跨任务的安全恢复,在保持下游性能的同时降低有害响应率。
CrowdMath: 众包数学研究讨论数据集
发表机构 * University of Massachusetts Lowell(马萨诸塞大学洛文分校) ; San Jose State University(圣何塞州立大学) ; Massachusetts Institute of Technology(麻省理工学院) ; Dartmouth College(达特茅斯学院) ; Amazon AGI(亚马逊人工智能研究院)
AI总结 提出CrowdMath数据集,包含164条专家标注的进展链,用于评估大语言模型在协作开放问题求解中的能力,发现模型在局部预测上表现良好但在角色分类上存在不足。
Comments 16 pages, 4 figures
智能体AI控制评估中的攻击选择显著降低安全性
发表机构 * GitHub ; arXiv
AI总结 本文研究攻击者策略性选择攻击时机对AI控制安全性的影响,通过分解攻击决策为开始和停止策略,实验表明两者均显著降低安全性,现有评估可能高估安全性。
CARVE-Q:量子提议、经典认证的交互式驾驶修复
AI总结 针对被否决的驾驶操作,提出CARVE-Q架构,通过量子最小搜索加速修复格搜索,同时保持安全认证的经典性,实现可审计的交互修复。
Comments 9 pages, 3 figures
立场:不要仅仅“在后期修复它”:AI科学必须研究训练动态
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Boston University(波士顿大学) ; Harvard University(哈佛大学) ; University of Oxford, Martian(牛津大学,火星) ; Max Planck Institute for Software Systems(马克斯·普朗克软件系统研究所)
AI总结 本文主张AI科学应超越事后分析,研究训练动态以预测、干预和设计模型行为,并指出当前在可解释性、公平性等领域的进展及开放问题。
Comments Accepted as an oral to the ICML: https://icml.cc/virtual/2026/poster/67142
加速傅里叶SAT (AFSAT):完全实现基于GPU的对称伪布尔SAT求解器
发表机构 * School of Computing, Australian National University(澳大利亚国立大学计算机学院)
AI总结 提出AFSAT,一个基于连续局部搜索的GPU加速伪布尔SAT求解器,通过JAX编译器实现大规模并行化,显著提升数值稳定性、运行速度和内存效率。
AEGIS:物理AI的备份反射
发表机构 * KAIKAKU
AI总结 提出AEGIS方法,通过在弱策略的冻结激活上使用轻量级探针检测高风险步骤,仅在必要时切换到强策略,在LIBERO-Spatial上恢复了弱策略损失的10.1%轨迹。
OpenSkill: 面向LLM智能体的开放世界自我进化
发表机构 * Lehigh University(莱维大学) ; University of Illinois Chicago(伊利诺伊大学芝加哥分校) ; University of British Columbia(不列颠哥伦比亚大学) ; Vector Institute(向量研究所) ; Salesforce AI Research(Salesforce人工智能研究) ; Massachusetts General Hospital and Harvard Medical School(麻省总医院和哈佛医学院)
AI总结 提出OpenSkill框架,使智能体在无目标任务监督下,利用开放世界资源自举构建技能和验证信号,实现自我进化,在多个基准上取得最佳自动通过率。
Comments 20 pages, 4 figures and 8 tables. Code is avalable at https://github.com/OpenLAIR/OpenSkill
AdMem: 面向任务求解智能体的高级记忆
发表机构 * Princeton University(普林斯顿大学) ; Amazon(亚马逊) ; Arm
AI总结 提出一种统一自动记忆框架,集成语义、情节和程序记忆,通过双层级设计和多智能体架构实现自动生成、奖励标注与自适应检索,提升长程多轮任务的鲁棒性和成功率。
基于证据的智能诊断与治疗可视化系统与大语言模型:多轮交互与多模态治疗方案生成
发表机构 * Harbin Institute of Technology, Weihai(哈尔滨工业大学(威海)) ; Harbin Institute of Technology (Weihai) Qingdao Research Institute(哈尔滨工业大学(威海)青岛研究院) ; Shandong Key Laboratory of Digital Service Computing Technology and Systems(山东省数字服务计算技术与系统重点实验室) ; Weihai Municipal Hospital(威海市人民医院) ; Shanghai Taizhu Technology Co., Ltd(上海泰山技术有限公司) ; Tianjin Zhifu Qihuang Medical Technology Co., Ltd(天津中孚启黄医疗技术有限公司)
AI总结 提出知识增强的可视化诊断系统,通过知识图谱约束、信息增益驱动提问和多模态治疗呈现,提升中医辨证透明度和治疗可解释性。
Comments 29 pages, 9 figures, 5 tables, including supporting information
工作流到技能:通过路由-工作流-语义-附件分解创建技能
发表机构 * Key Laboratory of Aerospace Information Security and Trusted Computing, Ministry of Education, School of Cyber Science and Engineering, Wuhan University(航天信息安全部门与可信计算重点实验室,教育部,网络安全科学与工程学院,武汉大学) ; Nanchang University(南昌大学)
AI总结 提出RWSA中间表示和W2S框架,从异构交互证据中自动构建技能,通过分解工作流结构、执行语义和运行时附件,提升行为重放一致性10.5%。
Comments 10 pages, 2 figures
知识驱动工具使用工作流中AI代理的声明式技能
发表机构 * School of Computing and Information Systems(计算与信息系统学院) ; Singapore Management University(新加坡管理大学)
AI总结 提出声明式代理(通过自然语言技能文件控制流程)在知识密集型客服工作流中优于命令式状态机和无脚手架基线,但检索质量是主要瓶颈。
量子启发的迹增强证据选择用于结构化假设空间推理
发表机构 * School of Computing and Information Systems(计算与信息系统学院) ; Singapore Management University(新加坡管理大学)
AI总结 提出EP-HUBO方法,将CoT推理片段选择转化为组合优化问题,通过高阶二元优化聚合证据,在证据密集型法律推理基准上提升少数但正确假设的权重。
考虑情境:塑造道德信念以实现价值对齐
发表机构 * University of Oxford(牛津大学)
AI总结 本文针对价值对齐中道德多元性问题,提出在聚合道德评估时必须考虑情境因素,并形式化道德不确定性下的决策,揭示弱帕累托原则的违反是辛普森悖论的一种变体。
通过不确定性对齐强化学习探索智能体工具调用决策
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; Shanghai Innovation Institute(上海创新研究院)
AI总结 针对智能体工具调用中错误累积问题,提出TRUST方法,将不确定性量化作为排斥力融入奖励设计,并标注轻量关键轮次用于多轮轨迹统一后训练,显著提升决策质量与智能体性能。
教方法而非答案:用于多模态策略优化的特权辅导蒸馏
发表机构 * Tianjin University(天津大学) ; Beijing Institute of Technology(北京理工大学) ; Singapore Management University(新加坡国立大学) ; University of Chinese Academy of Sciences(中国科学院大学) ; Xiaomi Inc(小米公司)
AI总结 提出PTD-PO框架,通过构建特权提示提供密集的令牌级监督,避免暴露答案,并采用Top-K JS散度稳定蒸馏,显著提升多模态推理性能。
基础模型智能体的仿真到现实差距:统一MDP视角
发表机构 * Arizona State University(亚利桑那州立大学)
AI总结 本文提出将基础模型智能体的评估与训练差距形式化为经典仿真到现实问题,围绕MDP四要素(观测、动作、转移、奖励)构建统一框架,并倡导采用域随机化等成熟解决方案。
Comments 7 pages, 2 figures, 2 tables. Accepted by KDD 2026 Blue Sky Ideas Track
层次化语义约束异构图用于音视频事件定位
发表机构 * Harbin Institute of Technology(哈尔滨工业大学) ; Peng Cheng Laboratory(鹏城实验室) ; Harbin Institute of Technology Suzhou Research Institute(哈尔滨工业大学苏州研究院)
AI总结 提出层次化语义约束异构图框架,通过构建异构图、双向语义约束和双曲空间层次正则化,解决开放词汇音视频事件定位中跨尺度一致性和层次语义一致性问题。
超越事后解释:通过概率中介迈向玻璃箱AI
发表机构 * Manuele Leonelli(曼努埃尔·莱奥内利)
AI总结 针对大语言模型在关键领域的不透明性,提出玻璃箱框架,利用贝叶斯网络作为事前中介层,实现可审计推理、不确定性量化和可争议输出。
TOPSIS-RAD:根据期望排序
发表机构 * Universidade Federal Fluminense(联邦弗里蒙特大学) ; Leonardo Sistemas Consultoria LTDA(莱昂纳多咨询公司)
AI总结 提出TOPSIS-RAD方法,通过引入决策者定义的否决绩效水平和期望绩效水平,解决传统TOPSIS排序与决策者需求不一致、对异常值敏感及排名反转问题。
Comments 21 pages, 15 Tables and 6 figures. The numerical computation of the data that appear in the Toy Examples was Supported by the Visual TOPSIS RAD that is available at https://topsis-ranking.vercel.app/. The data of the Toy examples are also available in this URL and can be loaded in the app as the template "Article"
DuMate-DeepResearch:一种具有递归搜索和基于评分准则推理的可审计多智能体系统
发表机构 * Baidu AI Cloud(百度AI云)
AI总结 提出DuMate-DeepResearch多智能体框架,通过解耦智能体核心与工具生态、引入图动态规划、递归双层执行和基于评分准则的测试时优化,在深度研究基准上取得最优结果。
Comments Technical report by the DuMate Team. 26 pages, 6 figures, 4 tables
通过局部披露进行具有策略性主体的离线策略评估
发表机构 * CISPA Helmholtz Center for Information Security(CISPA海德堡信息安全研究中心) ; LMU Munich(慕尼黑大学) ; Nanyang Technological University(南洋理工大学)
AI总结 研究策略性行为下的离线策略评估,通过局部披露揭示主体策略前协变量,构建双重稳健估计器,缓解信息不对称。
面向上下文LLM级联的在线潘多拉魔盒
发表机构 * The Fuqua School of Business, Duke University(杜克大学福克商学院)
AI总结 针对LLM级联场景,提出在线上下文潘多拉魔盒模型,通过参数化保留索引和GMM估计结合UCB界,实现维度相关的√T累积遗憾。
像真正的研究者一样行动:一套评估前沿LLM和研究生命周期中智能体框架的基准测试套件
发表机构 * Xi’an Jiaotong University(西安交通大学) ; Xidian University(西安电子科技大学)
AI总结 提出AARR基准系列,通过AARRI-Bench评估智能体在细粒度研究场景中模拟人类研究者的专业性、全面性和细微推理能力,发现最佳配置成功率仅68.3%。
基于严重性感知的课程学习与多模型响应选择用于医疗文本生成
发表机构 * Faculty of Computer Science(计算机科学学院) ; MSA University(MSA大学) ; Giza, Egypt(埃及吉扎)
AI总结 提出一种结合课程学习策略和相关性响应选择的多模型框架,通过三阶段课程训练和五个大语言模型独立训练,在MAQA数据集上实现医疗文本生成性能提升。
Comments 6 pages, 3 figures, IMSA2026
零样本嵌入漂移检测:一种轻量级防御对抗提示注入的LLM方法
发表机构 * Algoverse AI Research(Algoverse AI研究院) ; Berkeley(伯克利大学)
AI总结 本文提出ZEDD,通过量化嵌入空间中良性与可疑输入之间的语义变化,实现对直接和间接提示注入的检测。该方法无需模型内部访问或先验知识,具有低工程开销,能高效部署于多种LLM架构,准确率达93%以上。
Comments Accepted to NeurIPS 2025 Lock-LLM Workshop
用参与度换取可持续性:面向电子商务推荐中碳感知的重排序
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 本文提出一种碳感知重排序策略,通过检索增强的碳足迹估计管道推断缺失的产品碳足迹标签,并在三个推荐模型上权衡用户参与度与碳排放,实现可持续推荐。
Comments 23 pages, 30 figures. Code available at https://github.com/andersvestrum/carbon-aware-recsys
自主异质催化剂发现:一种自进化多智能体数字孪生系统
发表机构 * Department of Chemistry, Hong Kong University of Science and Technology(香港科技大学化学系) ; IAS Center for AI for Scientific Discoveries, Hong Kong University of Science and Technology(香港科技大学人工智能科学发现中心) ; Department of Computer Science and Engineering, Hong Kong University of Science and Technology(香港科技大学计算机科学与工程系) ; Department of Chemical and Biological Engineering, Hong Kong University of Science and Technology(香港科技大学化学与生物工程系)
AI总结 提出CatDT(催化数字孪生),一种自进化多智能体系统,通过集成八种专业智能体和27种科学工具,在单个GPU上5-30分钟内自动构建工作催化剂数字孪生,实现从体相晶体和自然语言反应描述到稳定晶面预测、反应路径枚举、过渡态定位和动力学计算的全流程,在七个气固相基准上预测与实验偏差在0.5-2倍内,并独立发现丙烷脱氢非贵金属候选催化剂。
人类成人与LLM作为科学家:谁从主动探索中受益?
发表机构 * Mila - Quebec AI Institute(魁北克人工智能研究所) ; McGill University(麦吉尔大学) ; University of California Berkeley(加州大学伯克利分校) ; New York University(纽约大学) ; Meta FAIR ; MIT Media Lab(麻省理工学院媒体实验室) ; Montreal Neurological Institute(蒙特利尔神经科学研究所)
AI总结 本研究通过主动探索实验,发现主动探索能显著提升成人对合取因果规则的推理能力,但合取规则仍需更多测试;同时比较了大型语言模型的表现,发现部分模型在假设推断准确率上接近人类,但探索策略效率较低且存在类似的合取-析取性能差距。
Comments Accepted at the 48th Annual Conference of the Cognitive Science Society (CogSci 2026)
平面曲线的几何高斯混合表示
发表机构 * Fraunhofer IOSB(弗劳恩霍夫研究所) ; KIT, IES(卡尔斯鲁厄理工学院,信息工程系)
AI总结 提出一种用户定义的平面曲线概率多边形表示,通过为每个线段赋予法向不确定性参数,构造高斯混合模型,保留局部几何与法向不确定性,适用于多种曲线类型。
在有限标签下哪些解剖结构重要?用于心脏病理预测的数据高效解剖感知基准
发表机构 * Himanshu Singh(希曼斯·辛格)
AI总结 针对有限标签和计算资源下的医学影像问题,提出解剖感知基准,通过比较不同解剖结构表示和分类器,发现表示质量比模型复杂度更重要。
Comments ACCEPTED at ICML 2026 Workshop GlobalSouthML (Seoul, South Korea; PMLR 306, 2026)
DxPTA:基于光学数据流引导策略的光子Transformer加速器硬件/软件协同设计的架构设计空间探索
发表机构 * eBRAIN Lab, Division of Engineering, New York University (NYU) Abu Dhabi(eBRAIN实验室,工程学院,纽约大学(NYU)阿布扎赫德分校) ; Photonic Research Lab (PRL), Division of Engineering, New York University (NYU) Abu Dhabi(光子研究实验室(PRL),工程学院,纽约大学(NYU)阿布扎赫德分校) ; New York University (NYU) Abu Dhabi(纽约大学(NYU)阿布扎赫德分校)
AI总结 提出DxPTA方法,通过光学数据流分析架构参数并设计约束感知搜索算法,实现光子Transformer加速器的高效硬件/软件协同设计,在满足面积、功耗等约束下显著提升搜索速度。
Comments 8 pages, 12 figures
P-Cast:FP8注意力中的精度——Sink引发的坍缩与S=2^8的最优性
发表机构 * Tencent(腾讯)
AI总结 针对FP8注意力计算中softmax概率矩阵P在乘法前转换为FP8时的精度问题,分析了KV块迭代顺序和静态缩放因子对精度的影响,发现正向迭代导致非sink值下溢为0,反向迭代结合S=256可消除下溢,并证明S=256在比特精确、量化步长和覆盖范围上最优。
Comments 8 pages, 3 figures, 3 tables, 1 algorithm. Technical note on FP8 E4M3 P-cast precision
基于视觉基础模型的注意力一致纵向医学视觉问答
发表机构 * University of California, San Diego(加州大学圣地亚哥分校) ; Yale Biomedical Imaging Institute(耶鲁大学生物医学成像研究所)
AI总结 提出一种注意力引导的编码器-解码器框架,通过轻量级配准和自适应掩码生成,结合辅助损失函数,实现胸部X光片的纵向医学视觉问答,在Medical-Diff-VQA基准上取得优异性能。
Comments Accepted to CVPR 2026 Workshop PHAROS-AIF-MIH
Journal ref Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2026, pp. 6448-6458
基于注意力引导自编码器融合的无人机输电线路绝缘子缺陷检测
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出AE-YOLO框架,通过注意力引导自编码器融合与方差最大化正则化,解决无人机图像中绝缘子缺陷检测的类别不平衡和尺度变化问题,在mAP@0.5上达95.10%,优于YOLO基线5个百分点。
合成基准高估了前向-前向扩展:真实数据对逐层训练的限制
发表机构 * Amplimit
AI总结 通过DTG-FF方法在真实数据上评估前向-前向学习的扩展性,发现其与反向传播的差距随类别数增加而扩大,合成任务高估了其迁移能力,且内存优势不成立。
Comments 23 pages, 6 figures
基于QUBO和混合量子算法的铁路短期集中发车场景下出发排序与段轨分配协同优化
发表机构 * School of Transportation Engineering(交通运输工程学院)
AI总结 针对铁路短期集中发车场景,提出基于QUBO模型与仿真评估的协同优化框架,混合量子算法在动态条件下综合成本降低4.28%-26.26%,总延误减少4.37%-24.25%。
蜂后智能体:一种以BeeSpec为中心的受治理企业MCP编排架构
发表机构 * Polytechnic University(理工学院)
AI总结 提出Queen-Bee多智能体架构,通过Queen控制平面检索能力、规划任务并编译BeeSpec,由Bee智能体在受限工具访问下执行,实现策略执行、租户隔离和边界内执行,在59个企业任务中达到0.964成功率且零治理失败。
Comments Technical report. Prototype-level systems evidence; 59 enterprise-style tasks
FAIR-Calib:面向扩散大语言模型训练后量化的前沿感知不稳定重加权校准
发表机构 * FAIR
AI总结 针对扩散大语言模型训练后量化中前沿决策易翻转并永久锁定放大的问题,提出两阶段PTQ框架FAIR-Calib,通过前沿命中与掩码阶段可靠性估计位置先验,并利用重加权隐状态MSE校准优先保护脆弱前沿状态,理论证明其作为输出KL散度代理,实验显著优于基线。
Comments Accepted as a poster at the 43rd International Conference on Machine Learning (ICML 2026)
几何二阶特征相关性学习用于自监督语音情感识别
发表机构 * Xiangjiang Laboratory(湘江实验室) ; University of Exeter(埃克塞特大学)
AI总结 针对自监督语音情感识别中一阶聚合忽略特征相关性和黎曼几何的问题,提出二阶相关层,通过协方差描述子捕获协同共现模式,并利用对数欧几里得映射保持几何完整性,在ESD和RAVDESS数据集上有效恢复判别信息。
IRAF:面向噪声鲁棒的端到端全双工口语对话系统的抗干扰自适应融合
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; AudioLab Hong Kong, Huawei Leibniz Research Center(香港AudioLab,华为Leibniz研究中心) ; Nanyang Technological University(南洋理工大学)
AI总结 提出IRAF模块,通过逐帧预测可靠性门控来调节用户音频对LLM的贡献,提升全双工对话系统在干扰说话人环境下的响应质量和交互稳定性。
MacArena: 在在线macOS环境中基准测试计算机使用代理
发表机构 * MacPaw
AI总结 提出MacArena基准,包含421个任务和50个应用,在Apple Silicon上运行,揭示macOS对GUI代理的独特挑战,模型排名在移植任务和原生任务间反转。
Comments Accepted to the Second Workshop on Agents in the Wild: Safety, Security, and Beyond (AIWILD) at ICML 2026
NTILC: 通过学习的压缩实现神经工具调用
发表机构 * Department of Robotics, University of Michigan(机器人学系,密歇根大学) ; Department of ECE, University of Michigan(电子工程与计算机科学系,密歇根大学)
AI总结 提出NTILC框架,用学习的潜在检索替代上下文工具查找,将工具选择与参数生成解耦,通过签名感知复合损失函数提升选择精度,相比基线减少95%上下文消耗和74%延迟。
Comments 10 Pages, 4 Figures, 5 Tables, 1 Algorithm
MalTree: 从嵌入中大规模追踪恶意软件演化
发表机构 * Delft University of Technology(代尔夫特理工大学)
AI总结 提出MalTree框架,利用生物信息学系统发育技术(UPGMA和邻接法)基于结构、行为和图像特征自动建模恶意软件演化,通过VirusTotal时间戳验证达到87%时间一致性,揭示家族间变异速率差异,支持谱系感知的恶意软件分析。
Comments 33 pages, accepted at ICML 2026
生成模型通过市场选择侵蚀人类时间学习
AI总结 本文论证现代生成模型在亚AGI能力水平上通过市场选择机制侵蚀人类时间学习,提出价值崩溃路径并用昂贵检验框架形式化,跨领域证据显示验证侵蚀四阶段。
Comments Accepted at ICML 2026
Journal ref Forty-third International Conference on Machine Learning Position Paper Track (2026)
通过分解视觉代理实现直接3D感知物体插入
发表机构 * Google(谷歌) ; Black Forest Labs(黑森林实验室)
AI总结 提出DIRECT框架,通过分解外观、几何和上下文引导,实现可控制3D姿态的物体插入,在几何可控性和视觉质量上优于现有方法。
Comments ICML 2026; Project Page: https://gong1130.github.io/DIRECT/
重新将人类置于LLM个性化中心
发表机构 * University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; Carnegie Mellon University(卡内基梅隆大学)
AI总结 研究LLM个性化在合成数据与人类数据上的性能差距,通过收集人类对话和判断揭示系统在属性提取、相关属性配对和个性化响应生成阶段的局限性,并引入轻量级训练干预以缩小差距。
FIGMA:迈向细粒度音乐检索
发表机构 * University of Maryland, College Park(马里兰大学学院公园分校)
AI总结 针对现有音乐检索模型无法处理细粒度属性查询的问题,提出多视角对比架构FIGMA,通过联合优化全局音频-文本对齐和帧级标记对齐,在统一表示空间中捕获高层语义和细粒度音乐属性,并在新构建的细粒度音乐描述数据集上取得显著提升。
Comments Accepted to ACL 2026. Project Website: https://nishitanand.github.io/figma-website/
ChronoForest: 用于高效桥接搜索和路线组合的闭环多树扩散规划
发表机构 * Seoul National University(首尔国立大学)
AI总结 针对仅依赖短程离线轨迹进行长程路线规划的问题,提出ChronoForest系统,通过锚链树扩散规划器和在线多树协调器实现局部桥接搜索与全局路线重解,在OGBench和哈密顿路线组合基准上显著提升成功率和效率。
Comments 40 pages, 4 figures, 7 tables, 3 algorithms
在日常生活人类视频上协同训练机器人操作策略时什么因素重要?
发表机构 * Massachusetts Institute of Technology(麻省理工学院) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; Harvard University(哈佛大学)
AI总结 研究利用日常互联网视频协同训练机器人操作策略时,手部姿态质量和运动差距对迁移的影响,提出一种协同训练方法,在低机器人数据场景下六个操作任务中绝对成功率提升29.7%。
Comments The project website is here: https://richardrl.github.io/what-matters-cotraining-human-videos/index.html
语言模型如何失败:承诺性和持续性推理错误的令牌级特征
发表机构 * Department of Computer Science, Stanford University(计算机科学系,斯坦福大学) ; Department of Aeronautics and Astronautics, Stanford University(航空航天工程系,斯坦福大学)
AI总结 通过令牌级不确定性信号,将语言模型推理失败分为承诺性失败(早期锁定错误路径)和持续性不确定性(不确定性持续累积),并在23个模型-数据集配置中验证了可预测性,为自我一致性策略提供了指导。
内在视觉:神经科学启发的概念电路用于解释和引导视觉变换器
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出ViSAE工具箱,通过神经科学启发的概念电路解释视觉变换器内部机制,包含高效概念集、自动电路追踪算法和概念编辑应用,在WaterBirds上最差组准确率提升48.2%。
Comments In Proceedings of the International Conference on Machine Learning, 2026. (acceptance rate 26.6%)
HKJudge:用于解释法院认定事实、推理过程和裁决结果的法律话语标注语料库
发表机构 * City University of Hong Kong(香港城市大学) ; University of Chinese Academy of Sciences(中国科学院大学)
AI总结 提出首个句子级专家标注的法律话语数据集HKJudge,包含香港各级法院刑事判决,设计双层话语模式(26种修辞角色和3种判刑要素),并基于BERT和LLM进行基准评估。
算法判断的地理:LLM中介、地方身份与住房搜索中的种族引导
发表机构 * National Fair Housing Institute(国家公平住房研究所)
AI总结 通过行为审计七种LLM在四个美国城市的住房推荐,发现种族引导是模型解释性许可的涌现行为,而非静态属性,且城市并非中性测试单元。
Comments 13 pages with supplemental tables and figures, AIES '26 Submission
MMBU: 大规模多模态生物医学理解基准,用于探测视觉语言模型的感知能力
发表机构 * Stanford University(斯坦福大学) ; University of Wisconsin–Madison(威斯康星大学麦迪逊分校) ; Instituto Tecnológico de Monterrey(蒙特雷技术学院) ; Monash University(墨尔本大学) ; University of Cambridge(剑桥大学) ; Shanghai Jiao Tong University(上海交通大学) ; Shandong University(山东大学)
AI总结 提出MMBU基准,涵盖35个子模态,通过分类、定位和检测任务系统评估VLM在生物医学领域的视觉感知和泛化能力,发现高准确率可能掩盖感知缺陷。
数据高效的自回归到扩散语言模型通过策略内蒸馏
发表机构 * Department of Computer Science and Engineering, Texas A&M University(德克萨斯大学阿马尔科分校计算机科学与工程系) ; Department of Bioinformatics and Systems Medicine, University of Texas Health Science Center at Houston(德克萨斯大学健康科学中心休斯顿分校生物信息学与系统医学系) ; Department of Electrical and Computer Engineering, Texas A&M University(德克萨斯大学阿马尔科分校电气与计算机工程系)
AI总结 提出策略内扩散语言模型(OPDLM),通过策略内蒸馏将自回归模型转换为扩散语言模型,解决分布偏移和训练-推理不匹配问题,实现15倍至7000倍更少训练数据下的强性能。
主题情感是否导致感知意识形态?比较政治新闻文章中人类与LLM的标注
发表机构 * Columbia University(哥伦比亚大学)
AI总结 研究主题情感对感知政治意识形态的因果效应,通过比较人类与LLM标注,发现微调GPT-4o-mini产生显著因果效应,归因于捷径学习。
Comments Accepted to ACL SRW 2026
ShallowBench: 浅口袋靶标上的生成式药物设计模型基准测试
发表机构 * University of Illinois - Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校)
AI总结 提出ShallowBench基准,包含5780个浅口袋靶标,用于评估生成式药物设计模型在低凹度界面上的性能,揭示现有模型预测结合亲和力较弱的问题。
MSAIC-Net:用于基于心电图的心肌基质异常检测的多尺度注意力和不平衡感知对比网络
发表机构 * University of Virginia(弗吉尼亚大学)
AI总结 提出多尺度注意力增强卷积网络MSAIC-Net,通过并行空洞卷积提取多尺度特征、通道注意力重加权、不平衡感知对比学习及导联置换重要性分析,在低数据量UVA队列和大规模PTB-XL数据集上实现心肌瘢痕和心肌梗死检测的准确性和可解释性提升。
SCOUT: 基于不确定性引导遍历的语义场景覆盖
发表机构 * Nokia Bell Labs, France(诺基亚贝尔实验室,法国) ; Nokia Bell Labs, Murray Hill, NJ, USA(诺基亚贝尔实验室,美国,新泽西州 Murray Hill) ; Imperial College London(帝国理工学院伦敦分校) ; Locus Robotics(Locus机器人技术公司)
AI总结 提出SCOUT框架,通过不确定性引导的遍历规划与概率场景图构建的闭环,使机器人主动探索并逐步理解环境,实现语义场景完整性作为操作目标。
Comments 2026 ICRA Workshop on Uncertainty in Open World Robotics
多语言多说话人单元声码器:离散语音表示的系统分析
发表机构 * National Institute of Technology, Trichy(印度Trichy国家理工学院) ; Indian Institute of Technology, Madras(印度Madras理工学院)
AI总结 分析基于BigVGAN的单元声码器在多语言多说话人语音生成中的表现,发现聚类大小控制可懂度,显式说话人条件防止身份崩溃,语言监督在低聚类大小时有益。
Comments 5 pages, 5 tables, 1 figure, Accepted at Interspeech 2026
HybridCodec: 快速双流、语义增强的神经音频编解码器
发表机构 * Indian Institute of Technology, Madras(印度理工学院马德拉斯分校)
AI总结 提出HybridCodec,一种结合语义蒸馏与双流架构的统一神经音频编解码器,实现强解耦、跨语言鲁棒性及3倍速度提升。
Comments 5 pages, 5 tables, 1 figure, Accepted at Interspeech 2026
检索增强生成中的证据图一致性:基于模型的幻觉检测分析
AI总结 提出证据图一致性(EGC)框架,通过构建局部证据图并计算五种结构一致性指标检测幻觉,发现不同模型族间一致性特征方向相反,表明嵌入图一致性不能作为模型无关的检测信号。
Comments Accepted at the International Conference on Advanced Machine Learning and Data Science; to appear in the IEEE Xplore proceedings
AxisGuide: 在RGB观测中接地机器人动作坐标系以实现鲁棒的视觉运动操控
发表机构 * Korea University(韩国大学) ; University of Michigan(密歇根大学) ; KT R&D Center(KT研发中心) ; Kakao Mobility(Kakao移动)
AI总结 针对视觉运动策略在分布偏移下动作执行失败的问题,提出AxisGuide方法,通过渲染机器人基座坐标系轴并叠加提示通道,增强动作坐标理解,显著提升泛化性能。
Comments Accepted to Robotics: Science and Systems (RSS) 2026
深度神经网络梯度下降方法的泛化最优速率
发表机构 * Mathematical Institute for Machine Learning and Data Science, KU Eichstätt-Ingolstadt(机器学习与数据科学数学研究所,埃施特哈特-英戈尔施塔特大学) ; Department of Computer Science, RPTU Kaiserslautern-Landau(计算机科学系,凯撒斯劳滕-兰道大学) ; Department of Mathematics, University of Hong Kong(数学系,香港大学) ; School of Mathematics and Statistics, University of Sydney(数学与统计学学院,悉尼大学)
AI总结 本文针对深度ReLU网络,在神经正切核(NTK)机制下,首次建立了梯度下降(GD)和随机梯度下降(SGD)的极小化最优泛化误差速率,证明宽度足够时可达核方法的最优速率。
Comments 39 pages, 1 table
深度神经网络的泛化:梯度方法的极小化最优速率
发表机构 * Mathematical Institute for Machine Learning and Data Science, Catholic University of Eichstätt-Ingolstadt(机器学习与数据科学数学研究所,埃施特哈特-因戈尔施塔特天主教大学) ; Department of Computer Science, RPTU Kaiserslautern-Landau(计算机科学系,凯斯莱特恩-兰道大学) ; Department of Mathematics, The University of Hong Kong(数学系,香港大学) ; School of Mathematics and Statistics, The University of Sydney(数学与统计学学院,悉尼大学)
AI总结 本文建立了过参数化深度神经网络与核方法学习动力学的联系,证明了梯度下降和随机梯度下降在足够宽度下能达到极小化最优泛化误差。
Comments 37 pages
注意差距:用LLM弥合多垂直领域推荐中的行为孤岛
发表机构 * DoorDash Inc.(DoorDash公司)
AI总结 提出利用LLM从数据丰富垂直领域(如餐厅)向稀疏领域(如杂货)迁移知识的框架,通过分层RAG生成多级特征,集成到MTL排序模型,显著提升新兴业务个性化与参与度。
你的帖子揭示了什么:社交媒体用户级隐私泄露的基准与智能体框架
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港理工大学(广州)) ; Wuhan University(武汉大学)
AI总结 针对社交媒体用户级多模态隐私泄露缺乏统一基准和评估指标的问题,提出SopriBench基准和隐私暴露分数(PES),并开发了无需训练的智能体框架Argus,通过跨帖子线索累积推理实现隐私推断,PES达0.55,较最强基线提升25%。
探索强化学习在临床心理健康与日常健康支持之间的流畅过渡
发表机构 * Cornell University(康奈尔大学)
AI总结 本研究探索强化学习(RL)构建数字健康系统,动态选择临床与健康干预措施,以优化整体健康目标(持续日记),发现RL优化序列的益处常在干预结束后显现,且高参与度用户随时间深化参与,而恒定干预组易倦怠退出。
Journal ref Healthcare Beyond Reaction: Harnessing AI and Sensing for Proactive Care, Workshop at ACM Interactive Health 2026 (IH '26), July 05--08, 2026, Porto, Portugal
车道变更轨迹规划:个性化驾驶舒适性与移动效率
发表机构 * Department of Mechanical Engineering(机械工程系) ; Department of Electrical Engineering(电气工程系) ; National University of Singapore(新加坡国立大学) ; Computer Science(计算机科学) ; University of Michigan(密歇根大学)
AI总结 提出一种神经网络驱动的轨迹规划器,结合三阶多项式轨迹生成与学习模块,通过双头共享骨干和基于误差胜者逻辑回归的统计门控机制,实现个性化舒适性与移动效率的平衡。
Comments Accepted by the IEEE Intelligent Vehicles Symposium (IEEE IV 2026), Detroit, MI, United States, June 22_25, 2026
打破锁定:通过表示调制实现文本到图像生成的多样化
发表机构 * KAIST(韩国科学技术院)
AI总结 针对文本到图像模型在固定提示下生成样本过于相似的问题,提出无训练表示级干预方法DAVE,通过选择性衰减早期生成中的零频空间平均分量来增强多样性,保持图像质量且计算开销极小。
Comments Accepted to ICML 2026. Code is available at: https://github.com/daheekwon/DAVE
SCALE: 可扩展的交叉注意力学习与外推方法用于智能体工作流调度
发表机构 * Faculty of Arts and Sciences, Beijing Normal University(北京师范大学文理学院)
AI总结 提出SCALE调度器,通过交叉注意力指针网络和结构化表示正则化,实现无需微调即可泛化到不同规模集群的深度强化学习工作流调度。
Comments Submitted to Computer Networks
PandaAI: 一种用于量化金融中神经符号数据分析与集成决策的实用智能体CQ2
发表机构 * Panda AI
AI总结 针对金融数据低信噪比和非平稳性,提出PandaAI,一种结合市场状态建模与约束alpha生成的闭环神经符号LLM智能体,通过领域微调和模块化架构实现风险感知决策,在沪深300数据上Rank IC提升18.2%,最大回撤降低25.7%。
Progress-SQL: 通过渐进式奖励改进文本到SQL的强化学习
发表机构 * East China Normal University(华东师范大学)
AI总结 提出Progress-SQL,一种多轮强化学习框架,通过Oracle引导诊断树(ODT)生成子句级结构反馈,结合渐进式奖励(结构对齐、词汇对齐、延迟奖励和执行状态奖励),提升文本到SQL生成的准确性和鲁棒性。
听弦外之音:面向声学对抗攻击的语言模型先验
发表机构 * University of Melbourne(墨尔本大学) ; DST Group(DST集团)
AI总结 提出Semantic Gambit攻击,利用大语言模型实时提供预测上下文,突破因果限制,使实时ASR系统词错误率提升至35.6%,较当前最优方法提高三倍。
像飞行员一样思考:细粒度长时程无人机导航
发表机构 * Colab ; Beihang University(北航) ; Meituan(美团) ; National University of Singapore(新加坡国立大学)
AI总结 提出FLIGHT基准和FLIGHT VLA异步架构,通过低频飞行员推理VLM与高频扩散动作模型解耦,实现无人机长时程语义指令下的平滑连续飞行控制。
LLM 代理辅助逆向工程与定量可读性指标
发表机构 * University of Cambridge(剑桥大学)
AI总结 提出定量可读性分数(QRS)框架,结合结构相似性门控与三个可读性子指标,指导 LLM 代理提升反编译代码可读性,同时保持功能正确性。
先刻画再蒸馏:大输出空间中的机械推理
发表机构 * Khoury College of Computer Sciences, Northeastern University(东北大学计算机科学学院)
AI总结 研究现代推理模型在百万级标签空间中实现零样本多标签分类的机制,提出“候选列表生成+精细推理”两阶段模型,并基于此开发机械蒸馏策略,优于标准蒸馏。
MotionEnhancer: 利用视频扩散模型增强运动感知的视觉-语言模型
发表机构 * School of Computer Science and Engineering, Beihang University(北航计算机科学与工程学院) ; Beijing Digital Native Digital City Research Center(北京数字原生数字城研究中心) ; School of Computer Science, Peking University(北京大学计算机学院) ; School of Artificial Intelligence, Beijing University of Posts and Telecommunications(北京邮电大学人工智能学院)
AI总结 提出MotionEnhancer,通过从视频扩散模型中提取运动先验并利用注意力对齐增强视觉-语言模型的运动理解能力,无需额外参数或架构修改,在运动级视频理解基准上取得一致提升。
Comments Accepted by CVPR 2026
使用乘积单元残差网络建模非线性特征交互
发表机构 * University of Applied Sciences Koblenz(科隆应用科学大学) ; Technical University of Munich(慕尼黑技术大学)
AI总结 提出乘积单元残差网络(PURe),通过显式建模特征交互提升鲁棒性和可解释性,在合成和真实数据集上优于MLP。
Comments Accepted at ICCS 2026
EgoPressDiff: 用于自我中心UV域手部压力估计的多模态视频扩散模型
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出EgoPressDiff,一种条件视频扩散框架,通过多模态条件策略(手部姿态、3D网格顶点和深度信息)从视觉输入生成UV压力图,解决了现有方法中的量化误差和时间不一致问题,在EgoPressure数据集上实现SOTA,Volumetric IoU相对提升34%以上。
Comments Accepted to IEEE ICASSP 2026
复杂逻辑约束下长时域任务规划的神经符号学习
发表机构 * Spatial AI & Robotics (SAIR) Lab, University at Buffalo, NY 14260(空间人工智能与机器人实验室,布法罗大学,纽约州,14260) ; Robotics Institute, Carnegie Mellon University, PA 15213(机器人研究所,卡内基梅隆大学,宾夕法尼亚州,15213)
AI总结 提出基于命令学习的双层优化框架,通过神经评分器剪枝无关对象,并引入3R策略(修复、重启、回滚)稳定下层规划,在三个基准上实现失败率降低80.04%、规划时间减少57.14%。
FreeAnimate: 基于预览引导去噪的无训练人体图像动画
发表机构 * National University of Singapore(新加坡国立大学) ; University of Science and Technology of China(中国科学技术大学)
AI总结 提出FreeAnimate框架,利用图像扩散模型内在能力实现无训练的人体图像动画,通过预览生成策略提供时序和结构先验,结合反演增强注意力和参考锚定自注意力模块,保证时序一致性和身份保持。
Comments Accepted to IEEE ICASSP 2026
超越骨架:使用Same2X训练策略直接从驱动视频学习动画
发表机构 * Tsinghua University(清华大学) ; Harbin Institute of Technology(哈尔滨工业大学) ; Pengcheng Laboratory(鹏城实验室)
AI总结 提出DirectAnimator框架,通过驱动线索三元组和Same2X训练策略,绕过姿态提取直接从原始视频学习动画,实现鲁棒且高质量的人体图像动画生成。
Comments Accepted to ICLR 2026
EASE-TTT: 面向长上下文问答的基于证据对齐的选择性测试时训练
发表机构 * University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; Harvard University(哈佛大学) ; Brion, ASML US LP ; Florida State University(佛罗里达州立大学)
AI总结 提出EASE-TTT框架,通过将检索到的证据块转化为软注意力监督目标,指导查询侧参数适应,从而在保留完整上下文的情况下提升小模型的长上下文问答性能。
Comments 13 pages, 4 figures, 3 tables
SpectCount: 通过合成信号进行频谱时间计数改进大型音频语言模型
发表机构 * Department of Electrical and Computer Engineering and INMC, Seoul National University, Seoul, South Korea(电气与计算机工程系和INMC,首尔国立大学,首尔,韩国)
AI总结 针对大型音频语言模型在频谱时间感知上的弱点,提出SpectCount方法,利用动态生成的完全合成音频信号进行数据高效微调,无需真实音频或标注,显著提升多种听觉基准性能。
Comments 5 pages, 5 figures
微调陷阱:评估负迁移及PEFT在亚十亿参数数学推理中的作用
发表机构 * GitHub ; University of California, Berkeley(加州大学伯克利分校) ; Stanford University(斯坦福大学)
AI总结 本研究评估了五种亚十亿参数模型在数学推理任务中的微调策略,发现全量微调对小于3亿参数的模型造成负迁移,而参数高效微调(PEFT)是稳定性要求。
Comments 8 pages, 6 figures, 2 tables
Didact:面向国防的跨领域能力发现系统
发表机构 * University of New South Wales, Sydney, Australia(新南威尔士大学,悉尼,澳大利亚) ; Cyndr.ai, Australia(Cyndr.ai,澳大利亚)
AI总结 提出Didact原型系统,通过构建知识图谱和复合检索增强生成管道,整合异构国防报告与政策文档,支持自然语言对话和可视化证据追溯,解决跨领域能力发现碎片化问题。
Comments Under Review at CIKM 2026 (System Demonstration Track)
SS-TPT:面向对抗鲁棒视觉语言模型的稳定性和适用性引导的测试时提示微调
发表机构 * Dankook University, Yongin, South Korea(首尔大学,韩国永兴) ; University of Seoul, Seoul, South Korea(首尔大学,韩国首尔)
AI总结 提出SS-TPT方法,通过稳定性与适用性分数评估增强视图质量,引导测试时提示微调,在保持高吞吐量的同时显著提升对抗鲁棒性。
Comments Accepted in ICML2026
领域自适应大语言模型中的训练数据审计:LoRA-MINT
发表机构 * University of Granada(格拉纳达大学)
AI总结 提出LoRA-MINT方法,通过成员推理测试审计LoRA微调的大语言模型训练数据,在四个模型和三个基准上达到0.77-0.92的精度,优于现有基线。
Comments IEEE Conf. on Computers, Software, and Applications (COMPSAC), 2026
何时3D值得?肺CT中CNN和Transformer的资源-性能前沿
发表机构 * Department of Biomedical Informatics University of Arkansas for Medical Sciences(生物医学信息学系,美国阿肯色大学医学科学分校) ; Department of Information Science University of Arkansas at Little Rock(信息科学系,美国阿肯色大学小岩分校) ; Department of Neuroscience University of Arkansas for Medical Sciences(神经科学系,美国阿肯色大学医学科学分校)
AI总结 研究在肺CT中2D、2.5D和3D输入对CNN和Transformer的影响,发现2.5D CNN在判别-稳定性权衡上最优,而3D CNN和Transformer存在不稳定性或退化预测。
Comments 8 pages, 6 figures
OpenHalDet:面向多种生成场景的幻觉检测统一基准
发表机构 * University of Technology Sydney(新南威尔士大学) ; University of Wisconsin–Madison(威斯康星大学麦迪逊分校) ; University of Bristol(布里斯托大学) ; The University of Queensland(昆士兰大学) ; Nanyang Technological University(南洋理工大学)
AI总结 提出OpenHalDet基准,标准化幻觉检测评估流程,支持黑盒、灰盒、白盒检测器,实现跨任务、模型和检测器的可控比较。
Comments Preprint. Code and data are available at https://github.com/Nellie179/Hallucination-Detection
DaX: 跨尺度的通用病理学表示学习
发表机构 * DAMO Academy, Alibaba Group(达摩院,阿里巴巴集团) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; Hupan Lab(虎斑实验室)
AI总结 提出病理视觉基础模型DaX,通过改进DINOv3自监督学习,结合连续放大训练、跨尺度组织视图等设计,在44个公开数据集的161项临床任务上取得最佳平均性能。
不要暂停:面向在线视频理解的流式视频-语言同步
发表机构 * National University of Singapore(新加坡国立大学) ; University of Science and Technology of China(中国科学技术大学)
AI总结 提出流式视频-语言同步(SVLS)范式,通过帧驱动转换控制器和流式令牌调节器实现视频帧与语言生成的细粒度同步,在不中断感知的情况下进行实时交互。
理解稀疏自编码器中概念学习与神经元解释的几何视角
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出统一数学框架,将概念学习形式化为集合对齐问题,区分检测、分离和近似三种学习强度,并给出几何条件与误差界,通过形式概念分析连接概念学习与神经元解释。
原始波形声学模型的音素错误分析
发表机构 * Centre for Speech Technology Research (CSTR), University of Edinburgh, UK(语音技术研究中心(CSTR),爱丁堡大学,英国) ; Cisco, UK(思科公司,英国) ; SLAI & CUHK-SZ, China(SLAI与CUHK-SZ,中国) ; King's College London, UK(伦敦国王学院,英国)
AI总结 通过分解音素错误率、分析混淆矩阵,发现BLSTM层对过渡依赖类提升最大,WSJ迁移学习对辅音改进约是元音的三倍,且混淆模式反映固有音素相似性。
Comments INTERSPEECH2026
前所未见:基于一致视频源数据集的真正零样本组合图像检索基准测试
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 针对现有零样本组合图像检索数据集存在参考与目标图像不相关、非真正零样本的问题,提出ZeroSight基准,包含来自视频的一致参考-目标对和训练无关的MLLM驱动方法SC4CIR,通过三重对称一致性检查识别难负样本,实验表明现有方法性能被高估。
STREAM: 用于数字组织病理学图像生成的随机黎曼流匹配与各向异性解码器
发表机构 * DEEPNOID Inc.(DEEPNOID公司)
AI总结 提出STREAM框架,利用组织病理学视觉基础模型的patch-token特征作为潜在空间,通过黎曼流匹配生成高质量组织病理学图像,解决条件崩溃问题,并设计各向异性解码器提升生成质量。
Comments 27 pages, 7 figures
TRACE: 通过自适应跨步骤证据聚合的LLM智能体轨迹推理
发表机构 * University of Massachusetts at Amherst(马萨诸塞大学阿默斯特分校) ; Adobe Research(Adobe研究) ; Dolby Labs(杜比实验室) ; University of Oregon(俄勒冈大学) ; Cisco(思科)
AI总结 提出TRACE框架,通过TIJ循环识别高信号区域、累积跨步骤证据并合成轨迹级判决,在SHADE-Arena的十个任务域上F1达0.713,召回率0.844,尤其擅长长距离证据链接。
SlimSearcher: 通过自适应奖励门控实现训练效率感知的Web代理
发表机构 * Zhejiang University(浙江大学) ; Ant Group(蚂蚁集团)
AI总结 提出SlimSearcher框架,通过帕累托高效过滤和自适应奖励门控,在保持或提升准确率的同时将工具调用轮次减少17%-58%。
Comments 17 pages, 8 figures,
dots.tts 技术报告
发表机构 * ByteDance(字节跳动)
AI总结 提出一个20亿参数的连续自回归TTS基础模型,通过多目标AudioVAE、全历史条件流匹配和无奖励自校正后训练,在Seed-TTS-Eval上取得最优性能,并支持低延迟推理。
MetaConfigurator:从JSON数据实现AI辅助的RDF创作
发表机构 * Institute for Parallel and Distributed Systems, University of Stuttgart(并行与分布式系统研究所,斯图加特大学) ; Institute of Polymer Chemistry, University of Stuttgart(聚合化学研究所,斯图加特大学) ; Institute of Biochemistry, University of Stuttgart(生物化学研究所,斯图加特大学)
AI总结 提出一个集成AI辅助的RML映射、SPARQL查询和知识图谱可视化的Web界面,将JSON等结构化数据转换为RDF,并以MOF合成实验数据验证其有效性。
Comments Submitted as post-proceedings for the deRSE26 conference
DIFFRACT: 通过可微编程实现无线网络的神经化效用最大化
发表机构 * Nanyang Technological University(南洋理工大学)
AI总结 提出DIFFRACT框架,利用可微编程将深度学习与优化结合,通过算法展开将干扰管理算法映射为可微神经网络,实现分布式端到端梯度学习,以应对动态多用户干扰和随机服务质量约束。
Comments IEEE INFOCOM 2026
OffQ:通过偏移驯服LLM量化中的结构化异常值
发表机构 * School of Computer and Communication Sciences, EPFL, Switzerland(瑞士联邦理工学院计算机与通信科学学院) ; Huawei, Switzerland(华为公司) ; Swiss Data Science Center, ETHZ & EPFL, Switzerland(瑞士数据科学中心,苏黎世联邦理工学院与联邦理工学院)
AI总结 提出OffQ方法,通过top-1 PCA识别异常值子空间、旋转集中异常值通道并转换为共享偏移,实现LLM的低比特均匀量化,在W4A4KV4下提升精度。
Native3D: 通过统一网格纹理建模与语义对齐的端到端3D场景生成
发表机构 * Kuaishou GameMind Lab(快手游戏大脑实验室)
AI总结 提出Native3D,首个完全绕过2D中间表示的端到端3D场景生成框架,通过统一网格纹理联合表示和3D表示对齐损失,解决几何结构失真和纹理细节退化问题。
三环架构:平台型组织时代中的智能体治理
发表机构 * arXiv
AI总结 针对企业AI部署中缺乏治理基础设施导致失败率高达95%的问题,提出三环架构:环1为现有生产架构,环2为基于策略的智能体联邦层,环3为LLM前沿智能层,其中环2作为智能体企业的操作系统,实现资源抽象、进程协调、权限执行和智能积累,并区分环2与环3的风险轮廓。
Comments 28 pages
REMEDI:多标签临床疾病推断中的保留与遗忘评估基准
发表机构 * IIT Kharagpur(印度理工学院Kharagpur分校) ; Carnegie Mellon University(卡内基梅隆大学) ; L3S Research Center, Leibniz University Hannover(Leibniz汉诺威大学L3S研究中心)
AI总结 提出REMEDI基准,针对多标签临床疾病推断中的机器遗忘问题,利用MIMIC-III数据库评估现有方法在效用与遗忘性能间的权衡,并发现其不适用于多标签任务。
Comments Under review
UrduMMLU:乌尔都语理解的大规模多任务基准
发表机构 * MBZUAI
AI总结 针对乌尔都语缺乏本地教育来源的MMLU风格基准,提出包含26,431道多选题的UrduMMLU,覆盖26个学科,评估30个LLM发现Gemini-3.5-Flash最佳,多数模型在人文科目上表现差。
Comments 27 pages, 18 figures, 17 tables, Submitted to ARR May 2026
文本监督增强视觉-语言模型中的地理空间表示
发表机构 * University of São Paulo(圣保罗大学) ; National University of Singapore(新加坡国立大学)
AI总结 研究视觉、视觉-语言及多模态模型的地理空间表示能力,发现文本监督能有效提升空间编码,推动地理空间AI发展。
Comments Accepted at ICML 2026
RETROSPECT: 通过序列预测和化学变换排序的逆合成
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出RETROSPECT系统,将单步逆合成分解为候选生成和重排序,结合ChemAlign Transformer生成器和LambdaMART重排序器,在USPTO-50K上实现55.00% top-1准确率。
Comments Accepted at the AI for Science workshop (ICML 2026)
危险环境中可解释自主性的抽象架构
发表机构 * Maynooth University(梅诺斯大学) ; University of Manchester(曼彻斯特大学)
AI总结 提出一种支持自主系统解释其行为的抽象架构,旨在通过设计可解释性增强用户信任,并以民用核工业为例展示应用。
Comments Originally published 20th of October 2022 at the Second International Workshop on Requirements Engineering for Explainable Systems (RE4ES), which was hosted by the International Requirements Engineering Conference 2022
DualGate-Net: 用于组织病理学细胞检测的先验门控双编码器框架
发表机构 * School of Information Technology, Deakin University(德肯大学信息科技学院) ; Kasturba Medical College, Manipal Academy of Higher Education(曼岛医学院)
AI总结 提出DualGate-Net,通过可学习的先验门控融合机制自适应调节组织先验影响,结合局部和全局编码器及辅助分支,在OCELOT基准上实现稳健的细胞检测。
Comments 15 pages, 4 figures
当大型语言模型在医疗保健中失败:评估对提示变化的敏感性
发表机构 * Department of Computer Science and Engineering, Doha, Qatar(计算机科学与工程系,多哈,卡塔尔)
AI总结 本研究系统分析了通用和医学专用LLM对提示扰动的敏感性,发现即使是微小的措辞变化也可能改变临床建议,对抗性提示可能引发有害输出,表明这些模型在临床应用中不可靠。
Comments 12 pages
超越航点:面向视觉语言导航的轨迹中心航点范式
发表机构 * Harbin Institute of Technology (Shenzhen)(哈尔滨工业大学(深圳)) ; Pengcheng Laboratory(鹏城实验室)
AI总结 提出轨迹航点范式,通过TSDF引导的扩散策略预测可执行轨迹,解决VLN-CE中航点不可达与规划控制不一致问题,在基准上取得最优性能。
AI主权:当AI成为国家力量工具时的战略竞争定性模型
发表机构 * Applied Research Laboratory for Intelligence and Security (ARLIS)(智能与安全应用研究实验室) ; Sandia National Laboratories(桑塔纳国家实验室)
AI总结 提出AI主权定义及首个包含微观、中观、宏观因素的定性模型,分析国家间AI驱动的战略竞争动态,识别关键杠杆点(如加速器、电力、数据等)及其在直接动能行动和间接非动能行动中的应用。
Comments Main article: 19 pages, 10 figures. Supplementary: 19 pages, 7 figures, 7 tables. To be presented at the 2026 International System Dynamics Conference (ISDC), July 20-24, TU Delft, Delft, Netherlands
整流流泄漏之处:沿插值路径表征成员信号
发表机构 * University of Amsterdam(阿姆斯特丹大学)
AI总结 本文分析整流流(Rectified Flows)在插值路径上的训练数据成员信号,发现训练与测试数据的重建差异呈钟形曲线,并在高斯假设下推导出峰值位置,验证了该结构的普适性,并利用其进行成员推断攻击。
Comments ICML 2026 article, 9 main pages and 25 with annexes, 11 figures
Journal ref 43rd International Conference on Machine Learning, Seoul, South Korea, 2026
语音情感识别中音频语言模型的声学线索对齐
发表机构 * DFG's Reinhart Koselleck project(德国科研基金Reinhart Koselleck项目) ; EU H2020 project(欧盟H2020项目)
AI总结 研究音频语言模型中显式声学线索的对齐性,通过eGeMAPS特征提取六种可解释声学概念标记,发现对齐标记提升UAR,而错乱标记降低性能,模型对符号线索敏感但仍部分依赖音频信号。
Comments 6 pages, 3 figures, 3 tables
CULTURESCORE: 评估视频生成模型的文化忠实度
发表机构 * Massachusetts Institute of Technology(麻省理工学院) ; Mila – Quebec AI Institute(魁北克人工智能研究所) ; Netflix(网飞)
AI总结 提出CultureScore框架,从身份、背景和行为三个维度评估视频生成的文化忠实度,实验发现当前最佳模型得分仅56.8%,行为维度最困难。
SV-Detect: 基于引导向量的AI生成文本检测
发表机构 * Independent Researcher(独立研究者) ; Queen Mary University of London(伦敦女王学院)
AI总结 提出从冻结语言模型的隐藏表示中提取引导向量,通过层间投影特征训练轻量分类器,实现跨域、跨模型和编辑攻击下的机器生成文本检测。
面向拜占庭鲁棒的大语言模型智能体协作的分层认证语义承诺
发表机构 * University of Glasgow(格拉斯哥大学) ; University of Western Ontario(西部 Ontario 大学)
AI总结 提出H-CSC协议,将基于嵌入的终结性信号转换为三种类型输出(语义承诺、判决承诺或显式中止),实现大语言模型智能体拜占庭协作的最终性控制,在语义投毒和拜占庭攻击下保持低角度偏差和高中止率。
Comments 27 pages, 3 figures, 8 tables
Wasserstein空间中平滑变化分布的时空极小极大速率
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 研究在Wasserstein空间中,基于过去有限噪声快照估计未来曲线值的极小极大速率,提出时空下界并证明其匹配上界。
SleepExplain: 基于EEG信号的可解释非快速眼动和快速眼动睡眠阶段分类
AI总结 提出SleepExplain模型,使用集成学习(随机森林、XGBoost、梯度提升)对NREM和REM睡眠阶段进行分类,准确率达94.30%,并利用SHAP提供可解释性。
Comments 6 pages, 7 figures, 2022 25th International Conference on Computer and Information Technology (ICCIT)
Journal ref 2022 25th International Conference on Computer and Information Technology (ICCIT), pp. 248-253, 2022
一种使用多模态生理监督的鲁棒PPG基础模型
发表机构 * Dolby Laboratories(杜比实验室)
AI总结 提出一种PPG基础模型,利用ICU数据集中的心电和呼吸信号选择对比样本,无需高质量或场域数据预训练,在15个下游任务中14个取得性能提升。
野外有丝分裂检测:MIDOG 2025挑战中的多肿瘤与上下文感知泛化
发表机构 * Flensburg University of Applied Sciences(弗劳恩霍夫应用科技大学) ; Technische Hochschule Ingolstadt(施特拉尔松德应用技术大学) ; University of Veterinary Medicine(兽医大学) ; Schwarzman Animal Medical Center(施瓦茨曼动物医学中心) ; Freie Universität Berlin(柏林自由大学) ; University of Warwick(沃里克大学) ; MINES Paris - PSL University(巴黎综合理工学院) ; Yildiz Technical University(耶利泽技术大学) ; University College London(伦敦大学学院) ; AIRA MATRIX Private Limited(AIRA MATRIX 私人有限公司) ; University of California, Los Angeles(加州大学洛杉矶分校) ; University of Kansas Medical Center(堪萨斯医学中心) ; University of Salerno(萨勒诺大学) ; Cancer Center Sp. z o. o.(癌症中心) ; th Military Research Hospital in Bydgoszcz(比多日茨军医研究所) ; Shenzhen Technology University(深圳技术大学) ; Toronto Metropolitan University(多伦多 Metropolitan 大学) ; Tata Consultancy Services Ltd.(塔塔咨询有限公司) ; Leeds Teaching Hospitals NHS Trust(利兹教学医院 NHS信托) ; The University of Tokyo(东京大学) ; Xi’an Jiaotong-Liverpool University(西安交通大学-利物浦大学) ; University of Augsburg(奥格斯堡大学) ; Ulm University(乌尔姆大学) ; Japanese Red Cross Medical Center(日本红十字医疗中心) ; Wroclaw University of Science and Technology(沃拉日市科学与技术大学) ; TECNALIA, Basque Research and Technology Alliance (BRTA)(TECNALIA,巴斯克研究与技术联盟(BRTA)) ; Indian Institute of Technology Bombay(孟买印度理工学院) ; MBZUAI ; University of Basel(巴塞尔大学) ; University Medical Center Utrecht(乌得勒支大学医学中心) ; TU Eindhoven(埃因霍温理工大学) ; HUN-REN Biological Research Centre(匈牙利-人生物研究中心)
AI总结 针对临床实际中组织学多样性的挑战,MIDOG 2025挑战评估了跨12种肿瘤类型和多种扫描平台的算法性能,发现模型在传统热点区域表现可靠,但在困难区域和罕见肿瘤中性能显著下降,集成方法可提升F1分数1.5个百分点。
合成病灶MR图像在低数据场景下自动局灶性皮质发育不良检测中的影响
发表机构 * Computational Radiology Laboratory(计算放射学实验室) ; Boston Children’s Hospital(波士顿儿童医院) ; Harvard Medical School(哈佛医学院)
AI总结 本研究通过条件生成网络合成FCD病灶MRI数据,评估其真实性及对自动检测的影响,发现合成数据可减少约20%标注需求,但真实数据仍更有效。
人类与DeepSeek-R1大语言模型数学推理的全面解剖
发表机构 * UCL Centre for Artificial Intelligence(伦敦大学人工智能中心)
AI总结 通过AIME 2025所有30道题目的10247个推理步骤注释,发现DeepSeek-R1存在拓扑模仿(表面模仿推理而非真正推理),但成功轨迹中分支与回溯的稳定使用以及反射在演绎推理中的有效放置是真正推理的信号。
Socratic-SWE:通过轨迹衍生智能体技能实现自我进化的编码智能体
发表机构 * AI Data, Alibaba Group(阿里云数据) ; Shanghai Jiao Tong University(上海交通大学)
AI总结 提出Socratic-SWE闭环自进化框架,通过将智能体历史求解轨迹蒸馏为结构化技能,生成针对性修复任务,实现编码智能体的持续自我改进。
Comments 21 pages, 5 figures. Under review
Watch, Remember, Reason: 基于多模态大语言模型的人类视角视频理解
发表机构 * School of Intelligence Science and Technology, Peking University(北京理工大学智能科学与技术学院) ; Wuhan University(武汉大学) ; Shanghai Jiao Tong University(上海交通大学) ; Nanyang Technological University(南洋理工大学) ; CASIA(中国科学院自动化研究所) ; University of Tokyo(东京大学) ; University of Liverpool(利物浦大学) ; Zhejiang University(浙江大学) ; National University of Singapore(新加坡国立大学) ; UC Merced(加州大学默塞德分校)
AI总结 提出人类视角下视频理解的三个功能能力(观看、记忆、推理),构建统一框架分析视频MLLM的感知、记忆、推理和预测,并总结挑战、方法、应用及未来方向。
重新构想自动驾驶时代的ISO 26262:通过可迁移性和可预测性增强可控性
发表机构 * Torc Robotics, Inc.(Torc机器人公司) ; Reynolds & Moore(雷纳德与摩尔公司) ; Critical Systems Analysis, LLC(Critical Systems Analysis LLC)
AI总结 针对自动驾驶汽车缺乏人类驾驶员的问题,将ISO 26262中的可控性分解为可迁移性和可预测性两个可审计维度,并给出量化框架,以支持SAE L4/L5系统的功能安全论证。
TEVI: 基于稀疏自编码器的文本条件视觉表示编辑以改进视觉-语言对齐
发表机构 * Max Planck Institute for Informatics, Saarland Informatics Campus, Saarbrücken, Germany(马克斯·普朗克研究所信息学院,萨尔兰信息学院,德国萨尔布吕肯) ; Department of Language Science and Technology, Saarland University, Saarbrücken, Germany(语言科学与技术系,萨尔兰大学,德国萨尔布吕肯)
AI总结 提出TEVI框架,利用稀疏自编码器解耦图像嵌入,并通过文本条件掩码模块选择性重构嵌入,以改善CLIP等视觉-语言模型的图像-文本对齐,在多个检索基准上取得提升。
Comments 20 pages, 13 figures, 14 tables
PaperFlow: 跨日常论文流的画像、推荐与自适应
发表机构 * Key Laboratory of Computing Power Network and Information Security, Ministry of Education, Shandong Computer Science Center (National Supercomputer Center in Jinan), Qilu University of Technology (Shandong Academy of Sciences)(计算机网络与信息安全部重点实验室,教育部,山东计算机科学中心(济南国家超级计算机中心),齐鲁工业大学(山东省科学院)) ; University of Chinese Academy of Science(中国科学院大学) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室)
AI总结 提出PaperFlow框架,通过画像、推荐和自适应三阶段处理动态论文流,并构建纵向用户日基准,实验表明其在排序和行为对齐上优于基线。
Comments 48 pages, 13 figures, 22 tables
面向长上下文自动驾驶的规划对齐令牌压缩
发表机构 * NVIDIA Research(NVIDIA研究) ; School of Computing and Data Science, The University of Hong Kong(计算与数据科学学院,香港大学)
AI总结 提出COMPACT-VA框架,基于条件VQ-VAE将长上下文压缩为有界表示,通过规划对齐实现决策关键信息保留,在动态场景中成功率提升超6%,速度提升3.3倍。
Comments 9 pages
Whisper 幻觉检测与缓解:基于隐藏表示引导和稀疏自编码器
发表机构 * AI Foundation and Algorithm Lab(AI基础与算法实验室) ; National University of Science and Technology MISIS(科学与技术国立大学MISIS) ; National Research University Higher School of Economics(国家研究大学经济高等学院)
AI总结 通过分析Whisper内部表示,提出基于稀疏自编码器的引导策略,将非语音测试集上的幻觉率从72.63%降至14.11%(small模型),接近微调方法性能。
利用高阶类标签连通性的图神经网络用于异配图
发表机构 * The University of Osaka(大阪大学)
AI总结 针对异配图中节点分类性能受限问题,提出标签上下文分类器(LCC),通过四种游走生成标签上下文嵌入捕获高阶类标签连通性,并可与任意GNN自适应集成,实验表明优于现有方法。
基于监督与基于演示的上下文学习在多词表达分类中的比较
发表机构 * University of Chicago(芝加哥大学) ; Fırat University(费拉特大学)
AI总结 研究土耳其语多词表达分类,对比监督基线(BERTurk)与指令微调LLM在零样本、单样本和少样本提示下的表现,发现提示敏感性和演示偏差影响显著。
Comments Accepted to ACL SRW 2026
设计AI驱动的高性能计算工作流的十二条快速技巧
发表机构 * Department of Computer Science(计算机科学系) ; Royal Holloway University of London(伦敦皇家霍洛威大学)
AI总结 本文针对AI与HPC融合带来的新挑战,提出十二条实用技巧,涵盖容器化、作业数组、反馈循环和I/O优化,帮助设计高效、可扩展、可复现的AI驱动HPC工作流。
Comments 12 pages, 1 figure. Formatted using the bioRxiv LaTeX preprint style
稀疏子空间到专家共享的任务无关持续学习
发表机构 * Iowa State University(爱荷华州立大学) ; Argonne National Laboratory(阿贡国家实验室)
AI总结 提出SETA框架,通过将参数分解为任务特定专家和共享专家的稀疏子空间,结合自适应弹性锚定和路由感知正则化,解决LLM持续学习中的塑性-稳定性困境,在多个基准上优于现有方法。
Comments 19 pages. arXiv admin note: text overlap with arXiv:2601.17616
MemDreamer: 通过分层图记忆和智能体检索机制解耦感知与推理以实现长视频理解
发表机构 * Ant Group(蚂蚁集团) ; Zhejiang University(浙江大学) ; Central South University(中南大学) ; HKUST(GZ)(香港科技大学(广州))
AI总结 提出MemDreamer框架,通过分层图记忆和智能体检索机制解耦感知与推理,将长视频理解转化为智能体探索过程,在四个基准上达到SOTA,推理上下文窗口仅占全量2%且准确率提升12.5点。
关于循环多项式代理三元逻辑门网络的稳定性与可实现性
发表机构 * University of Maryland, College Park, USA(马里兰大学学院公园分校)
AI总结 提出R-DTLGN架构,通过连续多项式代理训练并硬化为离散三元逻辑电路,结合数值单调和信息单调门,实现STL监控中的稳定递归和原则性弃权,并由STL公式确定网络规模。
Comments 9 pages, 3 figures. This work has been submitted to the IEEE for possible publication
LLM引导的删除纠正码搜索
发表机构 * School of Computation, Information and Technology, Technical University of Munich(计算、信息与技术学院,慕尼黑技术大学)
AI总结 针对删除纠正码最大尺寸的开放问题,采用LLM引导的进化搜索FunSearch,发现构建短码长删除纠正码的函数,单删除场景证明达到最优的Varshamov-Tenengolts码,多删除和四进制编辑码改进现有构造但缺乏理论洞见。
寻找隐式推理的最小参数预算:一种基于数据复杂度的语言模型缩放定律
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; University of Cambridge(剑桥大学) ; University of Washington(华盛顿大学) ; University of Toronto(多伦多大学) ; University of Tokyo(东京大学)
AI总结 本文通过控制合成环境中的预训练实验,发现语言模型隐式推理所需的最小参数预算与图搜索熵之间存在缩放定律,并确定了每参数最多可处理约0.008比特信息的容量上限。
Comments Accepted to ICML 2026
ChemQuests: 从ChemRxiv论文中提取的精选化学问答数据库
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Stanford University(斯坦福大学)
AI总结 提出ChemQuests数据集,包含从155篇ChemRxiv论文中提取的952个高质量问答对,覆盖17个化学子领域,用于化学NLP研究。
EVA: 针对环境注入攻击的红队GUI智能体的演化语义对抗方法
发表机构 * School of Cyber Science and Engineering, Wuhan University(武汉大学计算机科学与工程学院) ; School of Computer Science, Shanghai Jiao Tong University(上海交通大学计算机科学学院) ; Independent Researcher(独立研究者)
AI总结 提出EVA框架,通过演化语义对抗载荷攻击多模态大语言模型驱动的GUI智能体,揭示语义欺骗是攻击成功的关键,实现85%攻击成功率且快速收敛。
Comments Accepted by
探索Flow-Lenia宇宙:基于好奇心驱动的AI科学家发现多样生态系统动力学
发表机构 * Univ. Lille, Inria, CNRS, Centrale Lille, CRIStAL, France(里尔大学、法国国家科学研究中心、中央里尔学院、CRIStAL实验室、法国) ; Inria Center at the University of Bordeaux, France(波尔多大学的Inria研究中心、法国) ; Inria, INSA Lyon, CITI, UR3720, 69621 Villeurbanne, France(Inria、里昂INSA、CITI、UR3720、法国)
AI总结 提出好奇心驱动的AI科学家方法,通过内在动机目标探索过程(IMGEP)在Flow-Lenia中发现系统级动力学,揭示类似生物现象的自组织行为,并展示大规模多样性搜索作为后续实验设计的框架。
Comments Extended version of the paper first published at ALife 2025. Project webpage: https://developmentalsystems.org/Exploring-Flow-Lenia-Universes/ 24 pages, 16 figures
Journal ref Proceedings of the Artificial Life Conference 2025, pp. 633-643
自适应交通系统中的模型上下文协议:综述
发表机构 * Texas State University San Marcos(德克萨斯州立大学圣马科斯分校)
AI总结 本文首次系统调查模型上下文协议(MCP)作为统一范式,提出五类分类法,揭示传统协议孤立适应的局限,并指出MCP的客户端-服务器和JSON-RPC结构支持语义互操作性,为下一代自适应智能交通基础设施奠定基础。
从模型扩展视角理解基于语义ID的生成式推荐
发表机构 * Michigan State University(密歇根州立大学) ; Snap Inc.(Snap公司)
AI总结 揭示基于语义ID的生成式推荐在模型扩展时存在性能瓶颈,发现直接使用大语言模型作为推荐器具有更好的扩展性,性能提升可达20%。
Comments Accepted by KDD 2026
小型语言模型代理实现高效高质量的知识挖掘
发表机构 * University of California, San Diego(加州大学圣地亚哥分校) ; Carneigie Mellon University(卡内基梅隆大学) ; Georgia Institute of Technology(佐治亚理工学院)
AI总结 提出Falconer框架,结合大语言模型的代理推理与轻量级代理模型,通过规划与标注实现可扩展的知识挖掘,在保持指令遵循精度的同时降低90%推理成本并加速20倍以上。
Comments Code available: https://github.com/LongfeiYun17/falconer
MHA-RAG:通过将示例编码为软提示来提高效率、准确性和一致性
发表机构 * Department of Computer Science, Rice University(计算机科学系,里士大学) ; Department of Computer Science, University of Wisconsin–Madison(计算机科学系,威斯康星大学麦迪逊分校)
AI总结 提出MHA-RAG框架,将领域示例编码为软提示,通过多头注意力机制控制生成,在多个问答基准上相比标准RAG提升20点性能,同时降低10倍推理成本。
Comments 17 pages, 5 figures
面向能源系统的领域特定基础模型的具身物理人工智能:以核反应堆控制为例
发表机构 * The Grainger College of Engineering, Nuclear, Plasma & Radiological Engineering, University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校格雷格学院工程学院、核等工程学院) ; Department of Nuclear Engineering, Hanyang University(汉阳大学核工程系) ; University of Texas - El Paso(德克萨斯大学埃尔帕索分校) ; National Center for Supercomputing Applications(国家超级计算应用中心) ; Department of Applied Mechanics, Indian Institute of Technology Delhi(印度德里理工学院应用力学系) ; Yardi School of Artificial Intelligence, Indian Institute of Technology Delhi(印度德里理工学院亚里人工智能学院)
AI总结 本研究提出通过紧凑语言模型作为具身物理人工智能,利用基于物理模拟器验证的策略优化替代感知推理,在核反应堆控制任务中实现领域特定基础模型,并展示了规模扩展带来的可靠性提升和策略集中化行为。
CHDP:参数化动作空间中强化学习的协同混合扩散策略
发表机构 * National University of Singapore(新加坡国立大学) ; University of Science and Technology of China(中国科学技术大学)
AI总结 针对混合动作空间中的策略表达力不足和高维扩展性差问题,提出协同混合扩散策略框架,通过离散和连续扩散策略的协作与顺序更新,结合码本嵌入和Q函数引导,在基准测试中成功率提升高达19.3%。
Comments Accepted by AAAI 2026
TSAQA:时间序列分析问答基准
发表机构 * University of Illinois at Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; Virginia Polytechnic Institute and State University(弗吉尼亚理工学院和州立大学) ; Amazon(亚马逊) ; Meta AI ; University of Houston(休斯顿大学)
AI总结 提出TSAQA基准,涵盖6种时间序列分析任务(含新型PZ格式),评估LLM在13领域21万样本上的表现,最佳模型仅65.08分。
Comments Comments: 35 pages, 7 figures. Accepted to the GEM Workshop at ACL 2026
面向视觉多智能体系统的双潜在记忆
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出L²-VMAS框架,通过双潜在记忆解耦感知与思考,并采用熵驱动主动触发机制,打破视觉多智能体系统的“扩展墙”,在提升准确率的同时大幅降低令牌消耗。
MACD:基于反事实数据的模型感知对比解码
发表机构 * University of Michigan, Ann Arbor, MI, USA(密歇根大学,安娜堡分校) ; University of California San Diego, La Jolla, CA, USA(加州大学圣地亚哥分校)
AI总结 提出MACD方法,利用视频语言模型自身反馈识别导致幻觉的目标区域,生成目标级反事实输入,结合对比解码减少幻觉,提升多模型在复杂场景下的准确性。
VALUEFLOW:迈向大语言模型中多元化和可引导的基于价值的对齐
发表机构 * Department of Electrical and Computer Engineering, Seoul National University(首尔国立大学电气与计算机工程系) ; Interdisciplinary Program in Artificial Intelligence, Seoul National University(首尔国立大学人工智能交叉学科项目)
AI总结 提出VALUEFLOW框架,通过分层价值嵌入、强度标注数据库和锚定评估器,实现大语言模型在价值强度上的可控对齐,解决现有方法在提取、评估和引导方面的不足。
Comments Accepted in ICML 2026 (Oral). Code available at https://github.com/AIDASLab/VALUEFLOW
LLM增强的数字孪生用于短视频平台策略评估
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; The Chinese University of Hong Kong(香港中文大学) ; New York University(纽约大学) ; The University of Hong Kong(香港大学)
AI总结 提出一种LLM增强的四模块数字孪生架构(用户、内容、交互、平台),通过事件驱动执行层和可插拔策略组件,支持在闭环动态下对平台策略(含AI策略)进行可复现的仿真评估。
LuMamba: 用于电极拓扑不变且高效的EEG建模的潜在统一Mamba
发表机构 * ETH Zürich, Institute of Information Systems(苏黎世联邦理工学院信息系统研究所)
AI总结 提出LuMamba框架,结合拓扑不变编码和线性复杂度状态空间模型,通过LUNA的查询交叉注意力机制统一通道,FEMBA的双向Mamba块高效时序建模,在5个下游任务上以4.6M参数达到SOTA性能。
Comments EUSIPCO 2026, 5 pages, 2 figures, 4 tables
D5P4:用于并行离散扩散解码中多样性的分区行列式点过程
发表机构 * IMT Atlantique, Lab-STICC, UMR CNRS 6285(IMT阿提拉克大学,Lab-STICC,UMR CNRS 6285) ; Sony Europe Ltd. Stuttgart Technology Center, EUREC(索尼欧洲有限公司,斯图加特技术中心,EUREC)
AI总结 提出D5P4波束解码方法,利用分区行列式点过程在离散扩散模型中选择中间序列,平衡质量与多样性,无需外部验证器。
基于一致性验证的多智能体推理改进医学多项选择题问答中的不确定性校准
发表机构 * Department of Data Science and Analytics(数据科学与分析系)
AI总结 提出多智能体框架,结合领域专家智能体与两阶段验证及S分数加权融合,在医学MCQA中显著降低校准误差并提升判别能力。
Comments 20 pages, 6 figures. Preprint under review
一次设计,大规模部署:面向大型模型生态的模板驱动ML开发
发表机构 * Meta AI
AI总结 针对大型模型生态中ML开发效率低的问题,提出标准化模型模板(SMT)框架,将技术传播复杂度从O(n·2^k)降至O(n+k),在Meta广告排名系统中实现交叉熵提升0.63%、迭代时间减少92%、技术-模型对采用吞吐量提升6.3倍。
潜空间:基础、演化、机制、能力与展望
发表机构 * National University of Singapore(国立新加坡大学) ; Fudan University(复旦大学) ; Tsinghua University(清华大学) ; Zhejiang University(浙江大学) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; Renmin University of China(中国人民大学) ; The Chinese University of Hong Kong(香港中文大学) ; The Hong Kong University of Science and Technology(香港科技大学) ; DeepWisdom(深智科技) ; Nanjing University(南京大学) ; Shanghai Jiatong University(上海交通大学) ; Nanyang Technological University(南洋理工大学) ; Tencent Hunyuan(腾讯文深) ; QuantaAlpha(量子阿尔法) ; Beijing University of Posts and Telecommunications(北京邮电大学) ; Zhejiang Lab(浙江实验室) ; University of Chinese Academy of Sciences(中国科学院大学) ; Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)) ; Sun Yat-sen University(中山大学)
AI总结 本文综述潜空间在语言模型中的基础、演化、机制与能力,指出其克服显式空间计算的结构性限制,并展望未来研究方向。
不要让大语言模型读图:让图思考
发表机构 * Mindoverflow ; University of Waterloo(多伦多大学) ; Carnegie Mellon University(卡内基梅隆大学) ; Foothill College(foothill学院) ; Purdue University(普渡大学) ; University of Wisconsin(威斯康星大学) ; Apple(苹果公司)
AI总结 通过3000多次对照实验,研究显式信念图在合作多智能体推理中是否提升LLM性能,发现集成架构决定图的价值,识别出“规划者违抗”现象,并证明图深度收益递减。
Comments main body has 9 pages, 4 figures, under review for COLM 2026 conference
调用还是不调用:评估和优化LLM工具调用的框架
发表机构 * Max Planck Institute for Software Systems(马克斯·普朗克软件系统研究所) ; Ruhr University Bochum(博德姆鲁尔大学) ; UAR RC Trust(UAR RC信托)
AI总结 提出一个基于决策理论的框架,从必要性、效用和可负担性三个关键因素评估LLM的网页搜索工具调用决策,并训练轻量级估计器优化调用,提升任务性能。
Comments Preprint, under review
超越黑箱:代理AI工具使用的可解释性
发表机构 * GitHub
AI总结 本文提出了一种基于稀疏自编码器(SAEs)和线性探针的机制可解释性工具包,旨在提升代理AI在长周期任务中对工具调用的可观测性和可解释性,通过分析模型内部状态来识别工具决策的关键特征,从而揭示代理失败的深层原因。
Comments 12 pages, 4 figures, 17 tables
Insights Generator: LLM代理的系统级语料库追踪诊断
发表机构 * Scale AI, Inc.
AI总结 本文提出Insights Generator,一种多智能体系统,通过在语料库中提出和测试假设来生成基于证据的洞察报告,从而系统性地诊断LLM代理的行为模式。
潜在空间攻击用于语言模型的拒绝规避
发表机构 * University of Cagliari(卡利亚里大学) ; University of Genova(热那亚大学)
AI总结 本文研究了如何通过潜在空间攻击来规避语言模型的拒绝行为,提出了一种受控的潜在空间攻击方法,以提高攻击成功率,优于现有方法。
CORE: 对比反思实现推理能力的快速提升
发表机构 * Stanford University(斯坦福大学)
AI总结 提出对比反思(CORE)非参数学习算法,通过对比成功与失败的推理轨迹生成自然语言洞察,在少量样本和 rollout 下实现比参数方法(GRPO)和非参数方法(GEPA、情景RAG、MemRL)更快的推理性能提升。
从“弱”信号到强模型:基于LoRA合并的偏好增量聚合
发表机构 * NYU Shanghai(纽约大学上海校区) ; NTU(国立台湾大学) ; NYU(纽约大学) ; ZJU(浙江大学)
AI总结 提出偏好增量聚合(PDA)框架,通过从弱-更弱模型对中提取偏好增量并转化为LoRA适配器,再经几何对齐合并(GAM)聚合多个“弱”信号,以提升强模型性能。
诊断基于RAG的事实核查中LLM对证据前认知状态的仲裁行为
发表机构 * Hong Kong Baptist University(香港 Baptist 大学) ; Singapore Management University(新加坡 Management 大学)
AI总结 提出PAVE测试平台,通过将LLM验证器分为四种认知状态,评估其在检索增强生成事实核查中仲裁参数知识与检索证据的能力,发现不可靠且高度依赖模型的仲裁行为,并提出轻量级JSD测试时仲裁方法。
Comments Accepted to ACL-2026 Findings (voluntarily withdraw)
Pythia多跳设置中跨模型激活迁移的负面结果
发表机构 * Independent Researcher(独立研究者)
AI总结 研究在Pythia-160M到Pythia-410M的多跳推理设置中,通过线性翻译层传递隐藏状态是否能够改善下游回答,结果发现离线表示对齐不足以实现有用的因果通信。
Comments 16 pages, 6 figures
SentinelBench: 一个用于长时间运行监控代理的基准测试
发表机构 * University of Florida(佛罗里达大学) ; Microsoft Research, AI Frontiers(微软研究院,人工智能前沿)
AI总结 提出SentinelBench,一个包含10个合成网络环境中100个任务的基准测试,用于评估AI代理在长时间监控任务中的表现,衡量任务完成度、反应时间和资源使用。
Comments 18 pages, 16 figures
超越输出匹配:在NVFP4 LLM蒸馏中保留内部几何结构
发表机构 * Fangbo Tu(图方波) ; Junhua Zhao(赵俊华) ; Chi Liu(刘驰) ; Xin Chen(陈新) ; Haifeng Wu(吴海峰) ; Jian Wan(万健) ; Srinivasan Manoharan(曼纳哈兰)
AI总结 针对NVFP4低精度量化蒸馏中仅输出匹配导致内部表示退化的问题,提出CKA-QAD方法,通过CKA引导的层间Gram矩阵对齐保留内部几何结构,提升推理和编码任务准确率。
Comments 13 pages,1 figures
SubtleMemory: 面向长时程AI智能体的细粒度关系记忆辨别基准
发表机构 * Harbin Institute of Technology(哈尔滨工业大学) ; Shanghai AI Laboratory(上海人工智能实验室) ; Tongji University(同济大学) ; Xiamen University(厦门大学) ; Fudan University(复旦大学) ; Shanghai Jiao Tong University(上海交通大学) ; The Chinese University of Hong Kong(香港中文大学)
AI总结 提出SubtleMemory基准,通过构建关系控制的潜在语义伪影并嵌入用户-智能体交互历史,评估长时程AI智能体在后续查询中恢复分布式关系结构的能力。
Comments 48 pages
你应该使用你的大语言模型进行探索还是利用?
发表机构 * UC Berkeley(伯克利大学) ; Microsoft Research(微软研究院)
AI总结 研究当前大语言模型在探索-利用权衡中的决策能力,通过分离探索和利用任务评估其表现,发现推理模型在利用任务上最有潜力但成本高,非推理模型通过工具使用和上下文总结可提升中等难度任务性能,但在所有任务中均不如简单线性回归,然而LLM在具有语义的大动作空间探索中有帮助。
Comments Accepted to UAI 2026
面向基于预训练模型的持续学习中的高效且精确的遗忘服务
发表机构 * Department of Information Systems, University of Maryland, Baltimore County (UMBC)(马里兰大学巴尔的摩分校信息系统系)
AI总结 针对持续学习中顺序遗忘请求的挑战,提出基于解析方法的持续遗忘(ACU),通过最小二乘递归推导闭式解,实现高效精确的遗忘,保护历史数据隐私。
有界弃权成对学习排序
发表机构 * Intesa Sanpaolo AI Research(Intesa Sanpaolo AI研究中心) ; University of Trento(特伦托大学) ; University of Pisa(比萨大学)
AI总结 提出一种基于条件风险阈值的成对排序弃权方法,理论刻画最优策略,设计模型无关的插件算法,实验验证有效性。
Comments KDD 2026
MoDA: 面向指令型多模态大语言模型的细粒度视觉定位的调制适配器
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出MoDA调制适配器,通过指令引导的通道级乘法调制增强细粒度视觉定位,在12个基准上对三种MLLM架构取得一致提升,计算开销极小。
Comments Accepted at ICML 2026. Code is available at https://github.com/waybarrios/MoDA
CoQuIR:面向代码质量感知信息检索的综合基准
发表机构 * Linköping University(林波伊大学) ; MBZUAI(麦肯锡人工智能研究院) ; TU Darmstadt(德累斯顿技术大学) ; Shanghai Jiao Tong University(上海交通大学) ; EPFL(苏黎世联邦理工学院) ; University of Groningen(Groningen大学) ; Google Tokyo(东京Google) ; Alibaba Group(阿里巴巴集团) ; TU Munich(慕尼黑技术大学)
AI总结 提出首个大规模多语言代码质量感知检索基准CoQuIR,涵盖正确性、效率、安全性和可维护性四维度,通过细粒度标注和两个质量中心指标评估23个模型,发现顶尖模型常无法区分有缺陷代码,并探索了训练方法以提升质量感知能力。
讲述故事,创造汉字:人工智能辅助中国城市老年移民的协同创作
发表机构 * School of Design, Hunan University(湖南大学设计学院) ; Royal College of Art(皇家艺术学院) ; University of the Arts London, Central Saint Martins(伦敦艺术大学,中央圣马丁学院)
AI总结 通过协同创作工作坊,结合口述故事、AI辅助和手工制作,让老年移民创造新汉字以记录被忽视的生活故事,揭示参与者的异质性和适应能力,并展示AI作为降低表达门槛的创意启动器。
通过双LLM自精炼的数据库规范化
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出Miffie框架,利用双模型自精炼架构和大语言模型实现数据库自动规范化,无需人工干预且保持高准确率。
Comments 7 pages
注意力机制中归一化的局限性
发表机构 * University of Luxembourg(卢森堡大学) ; London Institute for Mathematical Sciences(伦敦数学科学研究所)
AI总结 本文通过理论框架和GPT-2实验,揭示softmax归一化导致注意力随选择token数增加而趋于均匀,并分析低温度下梯度敏感性带来的训练挑战。
一种面向中高分辨率地表温度反演的机制耦合分裂窗网络
发表机构 * School of Resource and Environmental Sciences, Wuhan University(武汉大学资源与环境科学学院) ; Key Laboratory of Geographic Information System of Ministry of Education, Wuhan(教育部地理信息系统重点实验室) ; Key Laboratory of Digital Cartography and Land Information Application of the Ministry of Natural Resources, Wuhan(自然资源部数字测图与土地信息应用重点实验室)
AI总结 提出并行分量解耦神经网络(PCD-Net),将分裂窗反演重构为物理分量系数的动态学习问题,通过分量级解耦建模和残差分支,实现复杂大气和地表条件下的高精度、鲁棒且全局可泛化的地表温度反演。
标准采样与模块化采样:可靠的大语言模型遗忘的最佳实践
发表机构 * Scuola Superiore Sant’Anna(圣安纳高等学院) ; University of Pisa(比萨大学)
AI总结 针对大语言模型遗忘中采样策略的不足,提出模块化实体级遗忘(MELU)策略,通过多样化邻居集和模块化采样平衡遗忘效果与模型效用。
可扩展的Transformer生成对抗网络
发表机构 * KAIST(韩国科学技术院)
AI总结 本文通过紧凑变分自编码器潜在空间和纯Transformer架构,研究了生成对抗网络的可扩展性,并提出了轻量级中间监督和宽度自适应学习率调整来解决缩放时的失败模式,在ImageNet-256上以40个epoch达到2.96的FID。
Comments ICML 2026
高速公路立交匝道流量预测的代理重建预训练
发表机构 * Southeast University(东南大学) ; Institute of Telecommunications and Information Sciences, China(中国电信与信息科学研究院)
AI总结 提出时空解耦自编码器(STDAE),通过跨模态重建预训练从主线数据恢复匝道流量,结合GWNet等模型提升预测精度,在真实数据集上超越13个基线。
Comments Accepted at Applied Soft Computing Journal
Journal ref Applied Soft Computing Journal 200 (2026) 115462
SWE-IF: 使代码评估与人类偏好对齐
发表机构 * Google DeepMind(谷歌深Mind)
AI总结 提出SWE-IF基准,通过可验证指令分类法VeriCode评估代码指令遵循能力,发现指令遵循是区分LLM代码质量的关键,与功能正确性结合更能匹配人类偏好。
Comments ICML 2026
自动驾驶鲁棒控制:一种智能一般和约束对抗强化学习方法
发表机构 * Beijing Key Laboratory of Security and Privacy in Intelligent Transportation(北京智能交通安全与隐私重点实验室) ; Beijing Jiaotong University(北京交通大学) ; College of Computing and Data Science(计算与数据科学学院) ; Nanyang Technological University(南洋理工大学) ; School of Computer Science and Technology(计算机科学与技术学院) ; Taiyuan University of Technology(太原科技大学) ; School of Electronics and Information Engineering(电子与信息工程学院)
AI总结 针对深度强化学习在自动驾驶中易受对抗攻击的问题,提出智能一般和约束对抗强化学习(IGCARL),通过战略性目标对手和鲁棒驾驶代理的交互训练,在约束优化下提升策略稳定性,实验表明成功率比现有方法提高至少27.9%。
MatterDoor: 使用生成模型采样零样本空间语义先验
发表机构 * School of Computing, Australian National University(澳大利亚国立大学计算机学院)
AI总结 针对机器人通过门缝观察时场景结构缺失的问题,提出MatterDoor方法,利用预训练生成模型(VLM引导外推、单目深度估计、语义分割)采样隐藏房间的语义3D点云先验,在Matterport3D基准上验证了零样本空间语义先验的有效性。
Comments Under Review
ReclAIm:用于监测和纠正医学影像AI性能下降的多智能体框架
发表机构 * Artificial Intelligence and Translational Imaging (ATI) Lab, Department of Radiology, School of Medicine, University of Crete(人工智能与转化成像实验室,放射科,医学院,希腊克里特大学) ; Computational Biomedicine Laboratory, Institute of Computer Science Foundation for Research and Technology Hellas (ICS - FORTH), Heraklion, Crete, Greece(计算生物医学实验室,希腊基础研究与技术院计算机科学研究所(ICS - FORTH),克里特,希腊) ; Division of Radiology, Department of Clinical Science, Intervention and Technology (CLINTEC), Karolinska Institute, Huddinge, Sweden(放射科,临床科学、干预与技术部(CLINTEC),卡罗林斯卡研究所,瑞典Huddinge)
AI总结 提出基于大语言模型的多智能体框架ReclAIm,通过自然语言交互自动监测医学图像分类模型性能下降并触发微调,采用数据增强、类别不平衡处理和参数锚定正则化策略,在多个数据集上验证了有效性。
Comments Published in Radiology: Artificial Intelligence (https://doi.org/10.1148/ryai.250923)
LoRA-DA:基于渐近分析的低秩自适应数据感知初始化
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出LoRA-DA,通过渐近分析优化低秩自适应初始化,结合Fisher梯度与Fisher信息最小化参数偏差,提升微调准确率与收敛稳定性。
Comments Published at ICML 2026
关于多个训练种子在评估机器遗忘中的重要性
发表机构 * Department of Computer Science(计算机科学系) ; School of Mathematics(数学学院) ; School of Science(科学学院) ; Statistics and Physics(统计学与物理学) ; Loughborough University(洛桑大学) ; Newcastle University(新castle大学)
AI总结 本文指出评估机器遗忘算法时仅使用单个训练种子可能导致结果不具代表性,并通过图像分类、联邦学习排序和大语言模型实验验证了问题普遍性,最后给出选择训练和遗忘种子数量的指导。
Comments mini paper, 5 figures
迈向迭代式端到端软件开发:一种特征驱动的多智能体框架
发表机构 * Fudan University(复旦大学) ; Nanyang Technological University(南洋理工大学)
AI总结 提出EvoDev框架,通过特征分解、依赖建模和上下文传播,实现迭代式端到端软件开发,在Android任务上比Claude Code提升57.3%。
Comments Accepted by ISSTA 2026
生产环境中的智能体测量
发表机构 * University of California at Berkeley(加州大学伯克利分校) ; IBM Research(IBM研究院) ; University of Illinois at Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; Stanford University(斯坦福大学)
AI总结 通过对86个已部署系统的调查和20个案例研究,发现生产环境中的LLM智能体主要采用简单可控的方法,可靠性是首要挑战,并依赖系统级设计和人工评估。
Comments Accepted to the 43rd International Conference on Machine Learning (ICML 2026) as Oral Presentation
校准零样本对抗性CLIP的不确定性
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 针对CLIP在零样本分类中对抗攻击脆弱且不确定性校准差的问题,提出基于狄利克雷分布重参数化的对抗微调目标,统一对齐语义结构与置信度,提升校准性和鲁棒性。
Comments ICML 2026
RePo:具有上下文重定位的语言模型
发表机构 * University of Maryland(马里兰大学)
AI总结 提出RePo机制,通过可微分模块重新分配token位置以减轻注意力层负担,在噪声上下文、结构化数据和长上下文任务上持续提升性能。
Comments Accepted to ICML 2026
这是一个陷阱!面向网络代理的任务重定向说服基准
发表机构 * University of Cambridge(剑桥大学)
AI总结 提出TRAP基准,评估大型语言模型驱动的网络代理在动态网页中易受提示注入攻击的程度,发现平均25%的任务中代理被重定向,揭示了心理驱动的系统漏洞。
Comments ICML 2026
分析LLM生成文本中说服性语言的差异:揭示刻板的性别模式
发表机构 * Department of Computer Science, Aarhus University(阿arhus大学计算机科学系) ; AMD Silo AI ; University of Tokyo(东京大学) ; IT University of Copenhagen(哥本哈根IT大学) ; Department of Computer Science, University of Copenhagen(哥本哈根大学计算机科学系)
AI总结 提出框架评估LLM生成说服性语言时受接收者性别、发送者意图和输出语言的影响,发现所有模型均存在显著的性别差异,反映性别刻板印象的语言倾向。
Comments Accepted at ACL Findings 2026
自主计算催化:通过智能体研究系统
发表机构 * Beijing Key Laboratory of Artificial Intelligence for Advanced Chemical Engineering Materials, State Key Laboratory of Chemical Engineering and Low- Carbon Technology, Department of Chemical Engineering, Tsinghua University(北京先进化工材料人工智能重点实验室、化学工程与低碳技术国家重点实验室、清华大学化学工程系)
AI总结 提出CatMaster催化原生智能体研究系统,将自然语言请求转化为计算研究,实现从建模到闭环催化剂设计的自主执行,在CO2-to-CO催化剂设计中识别出竞争性活性位点。
Comments 25 pages for main manuscript; SI not available here
E2Former-V2:具有线性激活内存的即时等变注意力
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出E2Former-V2架构,通过等变轴对齐稀疏化(EAAS)和即时等变注意力机制,利用SO(3)到SO(2)基变换和自定义Triton内核,实现线性激活内存和20倍TFLOPS提升,在SPICE和OMol25数据集上加速推理并保持预测性能。
增强视频表示中的时空语义残差以缓解视频大型多模态模型中的幻觉
发表机构 * Zhejiang University(浙江大学) ; University of Toronto(多伦多大学) ; Dalian University of Technology(大连理工大学) ; Sun Yat-sen University(中山大学)
AI总结 提出ViSSRes方法,通过轻量级MLP网络学习视频表示的残差,从时空和语义一致性优化,在推理时仅需单次前向传播,有效降低幻觉率并提升视频理解性能。
Comments Preprint
学习用图神经网络精确执行图算法
发表机构 * University of Waterloo(多伦多大学)
AI总结 证明在有限度和有限精度约束下,图神经网络能通过训练多层感知机集成学习局部指令,从而在推理时无误差执行完整图算法,并展示了在分布式计算LOCAL模型及多种经典算法上的可学习性。
通过光学字符识别重新思考基因组建模
发表机构 * National University of Singapore(新加坡国立大学) ; University of Science and Technology of China(中国科学技术大学)
AI总结 提出OpticalDNA框架,将DNA渲染为视觉布局,利用视觉语言模型进行OCR式基因组理解,实现高保真压缩和长序列高效处理,在450k碱基序列上以近20倍更少有效token超越基线模型。
Comments Accepted by ICML 2026
自回归与扩散语言模型中的逐步拒绝动态
发表机构 * Department of Computer Science, Technion – Israel Institute of Technology(技术学院计算机科学系,以色列技术学院) ; INSIGHT Lab, School of Electrical and Computer Engineering, Ben-Gurion University of the Negev, Israel(内斯坦实验室,贝内-加隆大学内加尔分校,以色列) ; Computer Science Department, University of Haifa, Haifa, Israel(海法大学计算机科学系,海法,以色列)
AI总结 研究扩散语言模型(DLM)与自回归(AR)模型在拒绝有害生成行为上的差异,发现扩散重掩码机制可促进恢复,提出逐步拒绝内部动态(SRI)信号,并基于此构建无需修改推理的越狱检测器。
Comments Preprint
从黑盒LLM生成的软件中提取重复漏洞
发表机构 * Technion - Israel Institute of Technology(技术学院 - 以色列理工学院)
AI总结 提出特征-安全表(FSTab),通过黑盒攻击从前端特征预测后端漏洞,并量化模型跨程序、重述和领域的漏洞复现一致性,实验显示跨域攻击成功率高达94%。
Comments ICML 2026, Second Workshop on Agents in the Wild: Safety, Security, and Beyond (AIWILD)
语言模型中激活引导的内生抵抗
发表机构 * University of Washington(华盛顿大学)
AI总结 研究发现大型语言模型在任务不匹配的激活引导下能内生抵抗,通过显式重启恢复正确生成,并识别出相关稀疏自编码器潜在变量,可增强或削弱该抵抗。
视觉语言模型中表征失败的几何结构
发表机构 * Dipartimento di Fisica, Università di Torino(都灵大学物理系) ; Princeton Neuroscience Institute and AI Lab, Princeton University(普林斯顿大学神经科学研究所和AI实验室) ; Intesa Sanpaolo AI Research(Intesa Sanpaolo AI研究中心) ; Dipartimento di Scienze Matematiche, Politecnico di Torino(都灵理工学院数学科学系) ; Network Science Institute, Northeastern University London, UK(伦敦大学东北方大学网络科学研究所)
AI总结 通过分析开源视觉语言模型的概念向量几何重叠,揭示多目标视觉任务中幻觉等错误与认知约束的关联,并提出基于干预的验证方法。
模态间隙驱动的子空间对齐训练范式用于多模态大语言模型
发表机构 * HKUST(GZ)(香港科技大学(广州)) ; NUS(新加坡国立大学) ; sh AILab ; SII ; Stanford(斯坦福大学) ; UCLA(加州大学洛杉矶分校) ; Yale(耶鲁大学) ; SJTU(上海交通大学) ; GBU(国防大学) ; PKU(北京大学)
AI总结 针对多模态对比学习中的模态间隙问题,提出固定帧模态间隙理论,并基于该理论设计无训练的对齐策略ReAlign和可扩展训练范式ReVision,利用无配对数据实现视觉与语言表示的高效对齐。
通过将Transformer反编译为RASP发现可解释算法
发表机构 * Saarland Informatics Campus, Saarland University(萨尔兰大学信息学院校区,萨尔兰大学) ; University of Oxford(牛津大学) ; Allen Institute for AI(人工智能研究所)
AI总结 提出一种将训练好的Transformer忠实重参数化为RASP程序,并通过因果干预发现小型充分子程序的方法,实验表明长度泛化的Transformer内部实现了简单可解释的RASP程序。
Comments 104 pages, 92 figures. Accepted for publication at ICML 2026
TokaMind: 用于托卡马克等离子体动力学的多模态Transformer基础模型
发表机构 * IBM Research(IBM研究院) ; UK Atomic Energy Authority(英国原子能局) ; STFC Hartree Centre(科学与技术设施研究中心哈特ree中心)
AI总结 提出TokaMind,首个开源托卡马克等离子体动力学基础模型,基于多模态Transformer在MAST数据集上预训练,支持多种数据模态和缺失信号处理,在14个任务上优于基线。
ScenicRules:具有多目标规范和抽象场景的自动驾驶基准测试
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Massachusetts Institute of Technology(麻省理工学院)
AI总结 提出ScenicRules基准,通过层次化规则框架和形式化场景模型,在随机环境下评估自动驾驶系统对优先级多目标规范的满足程度。
Comments v2: Minor numerical corrections for Table V. 16 pages, 14 figures, 7 tables. Extended version of paper accepted to 2026 IEEE Intelligent Vehicles Symposium (IV 2026). ScenicRules benchmark available at https://github.com/BerkeleyLearnVerify/ScenicRules
立场:需要动力系统视角以推进时间序列建模
发表机构 * University of Tübingen(图宾根大学)
AI总结 本文主张时间序列建模需引入动力系统视角,通过重构底层DS实现更优预测,并讨论其理论优势与具体建议。
TRUE:一种用于大语言模型推理的可信统一解释框架
发表机构 * Dalian University of Technology(大连理工大学)
AI总结 提出TRUE框架,通过可执行推理验证、可行域DAG建模和因果故障模式分析,为LLM推理提供实例级、局部结构级和类别级的多层次可验证解释。
预测即渲染:面向时间序列预测的2D高斯泼溅框架
发表机构 * Tsinghua Shenzhen International Graduate School, Tsinghua University(清华大学深圳国际研究生院) ; College of Computer Science and Software Engineering, Shenzhen University(深圳大学计算机科学与软件工程学院)
AI总结 提出TimeGS框架,将时间序列预测转化为2D高斯泼溅生成渲染,通过各向异性高斯核和连续光栅化解决周期内与周期间的建模问题,实现SOTA性能。
技术培训:法律分析中生成式人工智能的采纳与生产性使用
发表机构 * University of Hong Kong Faculty of Law(香港大学法学院)
AI总结 通过随机实验发现,未经培训的法学学生使用大语言模型反而降低表现,而简短培训能显著提升采纳率和成绩,表明生成式AI的生产力需要培训支持。
全保真音频无损压缩的语言建模基准测试
发表机构 * University of California, San Diego, Computer Science and Engineering Department(加州大学圣地亚哥分校计算机科学与工程系) ; Carnegie Mellon University, School of Computer Science(卡内基梅隆大学计算机科学学院)
AI总结 提出字节级分词方案Trilobyte,将词汇量从指数级降至常数级,首次实现24位音频的LM无损压缩,并在8位和16位下超越FLAC。
Comments Accepted at Interspeech 2026, 7 pages, 5 figures
VeriHGN: 基于异构图的芯片布局验证中的拥堵预测
发表机构 * The University of Texas at Arlington(德克萨斯大学阿灵顿分校) ; The University of Texas at Dallas(德克萨斯大学达拉斯分校)
AI总结 本文提出VeriHGN框架,通过增强的异构图统一电路组件和空间网格,实现更准确的逻辑意图与物理实现的交互建模,提高了拥堵预测的准确性和相关性。
Comments Accpeted at KDD 2026
EvoClaw: 评估AI代理在持续软件演化中的表现
发表机构 * USC(美国斯克利普斯大学) ; UCR(加州大学河滨分校) ; UCSD(加州大学圣地亚哥分校) ; Army Research Office(陆军研究办公室) ; Stanford(斯坦福大学) ; Princeton(普林斯顿大学) ; Haven ; OpenHands
AI总结 针对现有基准测试忽视软件演化中时间依赖和技术债务的问题,提出EvoClaw基准,通过从提交日志重建可验证里程碑DAG,评估AI代理在持续开发中维持系统完整性和限制错误累积的能力。
Comments ICML 2026
ECI: 有效对比信息用于评估难负样本
发表机构 * Department of Computer Science and Engineering, Indian Institute of Technology (IIT), Kharagpur, India(1. 印度理工学院(IIT)计算机科学与工程系,克哈格布尔,印度)
AI总结 本文提出ECI,一种无需训练的诊断方法,通过冻结的目标编码器嵌入对候选负样本进行排序,其在MS MARCO数据集上展示了优于其他模型的性能,且在不同条件下表现出稳定性。
基于流行病学系统评价评估AI科学知识综合
发表机构 * University of Oxford(牛津大学) ; Imperial College London(伦敦帝国理工学院) ; University of Nottingham(诺丁汉大学) ; Snowflake AI Research(Snowflake人工智能研究) ; Independent(独立)
AI总结 提出AgentSLR评估框架,包含自动化工作流和专家标注数据集,测试LLM在流行病学系统评价各阶段能力,发现无模型全面领先,结构化提取是主要瓶颈。
Chameleon: 用于视觉运动操控的索引控制前瞻记忆
发表机构 * MARS Lab, Nanyang Technological University(南洋理工大学MARS实验室) ; Institute for Infocomm Research, A*STAR, Singapore(新加坡*STAR信息与通信研究所) ; National University of Singapore(新加坡国立大学)
AI总结 提出Chameleon策略,通过索引控制前瞻记忆解决观察-动作延迟问题,在Camo-Dataset上决策成功率从22.5%提升至80.8%,并在多个基准上达到最优。
Comments Code is available at https://github.com/gxyes/MARS_Chameleon
稳定推理,不稳定响应:通过稳定性不对称缓解大语言模型欺骗
发表机构 * Institute for Artificial Intelligence, Peking University(北京大学人工智能研究院) ; Beijing Academy of Artificial Intelligence(北京人工智能研究院) ; School of Chinese as a Second Language, Peking University(北京大学第二语言学院)
AI总结 针对大语言模型内在欺骗问题,提出稳定性不对称正则化(SAR),通过惩罚内部思维链稳定性与外部响应稳定性之间的不对称性来抑制欺骗,实验证明其有效性且不损害模型能力。
CountsDiff: 一种用于计数数据生成和插补的自然数扩散模型
发表机构 * Princeton University(普林斯顿大学) ; Stanford University(斯坦福大学) ; University of California, Berkeley(加州大学伯克利分校)
AI总结 提出CountsDiff扩散框架,通过生存概率调度和显式损失加权简化Blackout扩散,引入连续时间训练、无分类器引导和逆动态,在自然图像和单细胞RNA-seq插补任务中匹配或超越现有方法。
Comments 39 Pages, 11 figures. To appear in the 43rd International Conference on Machine Learning (ICML 2026)
SW-$A^2$-Bench: 面向智能体网络的自主软件智能体生成基准测试
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; The University of Tokyo(东京大学) ; Huazhong University of Science and Technology(华中科技大学) ; Shanghai Innovation Institute(上海创新研究院) ; Nankai University(南开大学) ; Singapore University of Technology and Design(新加坡科技设计大学) ; Queen’s University(女王大学) ; Fudan University(复旦大学) ; Zhejiang University(浙江大学)
AI总结 提出首个软件智能体生成基准SW-$A^2$-Bench,通过编码智能体自动将代码仓库转化为自主软件智能体,评估生成智能体的忠实性与互操作性,以扩展智能体网络规模。
OGA-AID:用于中风后康复多模态观察性步态分析的临床医生在环AI报告起草助手
发表机构 * Rehabilitation Research Institute of Singapore, Nanyang Technological University, Singapore(新加坡康复研究中心,南洋理工大学,新加坡) ; Lee Kong Chian School of Medicine, Nanyang Technological University, Singapore(李光前医学院,南洋理工大学,新加坡) ; The Grainger College of Engineering, University of Illinois Urbana-Champaign, United States(伊利诺伊大学厄巴纳-香槟分校格雷格学院,美国) ; Department of Rehabilitation Sciences, The Hong Kong Polytechnic University, Hong Kong(香港理工大学康复科学系,香港) ; VinUni-Illinois Smart Health Center, VinUniversity, Vietnam(Vin大学Vin-伊利诺伊智能健康中心,越南) ; Institute of Rehabilitation Excellence, Tan Tock Seng Hospital, NHG Health, Singapore(卓越康复研究所,坦托克桑格医院,NHG健康,新加坡)
AI总结 提出OGA-AID,一种临床医生在环的多智能体大语言模型系统,通过协调三个专业智能体合成患者运动记录、运动学轨迹和临床资料,生成结构化步态评估报告,在真实患者数据上优于单次多模态基线,并展示了AI辅助分析与人类临床判断的互补关系。
Comments 2026 CV4Clinic CVPR Workshop Proceedings
能力越强,合作越少?当LLM在零成本协作中失败时
发表机构 * GitHub
AI总结 研究LLM在多智能体系统中零成本协作的失败原因,通过构建去战略复杂性的环境,发现能力更强的模型(如o3)反而合作更差,并区分了能力失败与主动信息隐瞒,提出针对性干预措施。
Comments Accepted to the ICML 2026 main conference
ViVa:用于机器人强化学习的视频生成价值模型
发表机构 * GigaAI ; Sichuan University(四川大学) ; Tsinghua University(清华大学)
AI总结 提出ViVa,利用预训练视频生成器联合预测未来本体感受和标量价值,通过时空先验实现可靠价值估计,在三个任务中取得最优结果,与RECAP结合平均成功率达80%。
MCERF:通过增强检索推进工程文档的多模态大语言模型评估
发表机构 * School of Mechanical, Aerospace, and Manufacturing Engineering, University of Connecticut, Storrs, CT 06269(机械、航空航天与制造工程学院,康涅狄格大学,斯托尔斯,CT 06269) ; Department of Mechanical Engineering, Massachusetts Institute of Technology, Cambridge, MA 02139, USA(机械工程系,麻省理工学院,剑桥,MA 02139,美国)
AI总结 提出MCERF框架,结合多模态检索器ColPali与大语言模型推理,通过混合查找、视觉文本融合、高推理和自一致性决策等策略,在DesignQA基准上实现平均准确率相对提升41.1%,无需完整规则书摄入即可处理工程文档中的多模态问答。
仅需两个样本的自一致性:CoT-PoT集成实现高效LLM推理
发表机构 * Carnegie Mellon University Qatar(卡内基梅隆大学(卡塔尔)) ; Qatar Computing Research Institute(卡塔尔计算研究院)
AI总结 提出一种混合集成方法,结合思维链与程序化推理两种模式,通过仅需两个样本即可实现自一致性,将采样量减少9.3倍,并在78.6%的任务上达到最优。
Comments 9 pages, 3 figures; accepted to Findings of ACL 2026
RAVEN: 用于用户代码和二进制程序中内存损坏分析的检索增强漏洞探索网络
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出RAVEN框架,结合LLM代理与检索增强生成,自动生成遵循Google Project Zero模板的漏洞分析报告,在105个样本上平均质量得分54.21%。
基于LLM生成报告的自适应因果公平性分析
发表机构 * Istituto Dalle Molle di Studi sull’Intelligenza Artificiale (IDSIA), USI-SUPSI(日内瓦人工智能研究所(IDSIA)、USI-SUPSI)
AI总结 提出FairMind原型,利用标准公平模型进行因果公平分析,通过反事实查询计算因果效应,并借助LLM零样本生成公平性报告,优于直接LLM分析。
Comments 23 pages, 6 figures, 3 tables, LaTeX; added missing proof for Proposition 3, typos corrected, updated example 1 to have positive values for the Sankey
InvEvolve:通过具有性能保证的大语言模型进化白盒库存策略
发表机构 * Shanghai University of Finance and Economics(上海财经大学) ; Shanghai Jiao Tong University(上海交通大学) ; The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳)) ; Tsinghua University(清华大学) ; Boston College(波士顿大学)
AI总结 提出InvEvolve框架,利用强化学习训练的大语言模型,结合置信区间认证,在线生成具有统计安全保证的白盒库存策略,在合成和真实零售数据上优于经典和深度学习方法。
MidSteer:用于引导生成模型的最优仿射框架
发表机构 * University of Basel(巴塞尔大学) ; University of California, Berkeley(加州大学伯克利分校) ; ETH Zurich(苏黎世联邦理工学院) ; University of Cambridge(剑桥大学) ; University of Washington(华盛顿大学)
AI总结 本文提出MidSteer,一种基于仿射变换的最优概念引导框架,通过最小干扰实现生成模型中的概念切换,并在视觉扩散模型和大型语言模型上验证其有效性。
MACS: 模态感知容量缩放用于高效多模态MoE推理
发表机构 * School of Software, Tsinghua University, Beijing, China(清华大学软件学院,北京,中国) ; TJUNLP Lab, School of Computer Science and Technology, Tianjin University, China(天津大学计算机科学与技术学院,中国) ; School of New Media and Communication, Tianjin University, China(天津大学新媒体与传播学院,中国)
AI总结 针对多模态MoE大模型在专家并行推理中因信息异质性和模态动态性导致的效率瓶颈,提出无需训练的MACS框架,通过熵加权负载和动态模态自适应容量机制优化资源分配,显著提升多模态基准性能。
Comments Accepted by ACL 2026
COF26:多组态对密度泛函理论的一种新的on-top泛函
发表机构 * Shanghai Engineering Research Center of Molecular Therapeutics and New Drug Development(分子治疗与新药开发上海工程研究中心) ; Shanghai Frontiers Science Center of Molecule Intelligent Syntheses(分子智能合成上海前沿科学中心) ; School of Chemistry and Molecular Engineering, East China Normal University(东华大学化学与分子工程学院) ; Department of Chemistry, Chemical Theory Center, and Minnesota Supercomputing Institute, University of Minnesota(明尼苏达大学化学系、化学理论中心和明尼苏达超级计算研究所) ; Chongqing Key Laboratory of Precision Optics, Chongqing Institute of East China Normal University(重庆精密光学重点实验室,东华大学重庆研究所) ; New York University–East China Normal University Center for Computational Chemistry, New York University Shanghai(纽约大学–东华大学计算化学中心,纽约大学上海)
AI总结 提出COF26泛函,通过大语言模型辅助优化工作流,在强和弱关联体系中均表现优越,推荐用于未来MC-PDFT计算。
超级智能检索代理:代理检索的下一个前沿
发表机构 * Meta Superintelligence Labs(Meta超级智能实验室) ; Rice University(里士满大学)
AI总结 提出SIRA,通过单次语料判别性检索压缩多轮探索,利用LLM丰富文档词汇、预测查询缺失词汇并基于语料统计过滤,在BEIR基准上取得最强平均检索性能,并在下游QA任务中超越RL训练的代理系统。
调试调试器:面向软件工程智能体的失败锚定结构化恢复
发表机构 * Nankai University(南开大学) ; Tsinghua University(清华大学) ; Microsoft(微软)
AI总结 提出PROBE框架,通过遥测层、诊断层和指导门将运行时证据转化为结构化恢复指导,在代码修复、工作流恢复等场景中诊断准确率65.37%,恢复率21.79%。
CHoE: 基于结构条件专家的跨域异构图提示学习
发表机构 * School of Computer Science and Technology, Tianjin University(天津大学计算机科学与技术学院) ; Department of Health Technology and Informatics, and Department of Data Science and Artificial Intelligence, The Hong Kong Polytechnic University(香港理工大学健康科技与信息学系、数据科学与人工智能系)
AI总结 提出CHoE方法,通过结构条件专家网络和结构感知路由机制,实现跨域异构图提示学习,在少样本跨域任务中优于基线方法。
Comments accepted by IJCAI 2026, 9 pages, 4 figures
重新思考AI时代的代码审查:面向代理代码审查的愿景
发表机构 * Microsoft(微软) ; Ankara University(安卡拉大学) ; Bilkent University(比尔肯特大学)
AI总结 本文探讨了在AI时代代码审查的演变,提出了一种结合专门代理和人类控制的质量闸门的AI驱动代码审查流程,旨在提升代码审查的效率和可靠性。
Comments Submitted to ACM Transactions on Software Engineering Methodology (TOSEM). A shorter version of this work has been presented at ICSE-JAWs 2026, Rio de Janeiro, Brazil
自动化无效bug报告的根因子类划分及无代码修复生成
发表机构 * Department of Computer Engineering, Bilkent University(计算机工程系,比尔肯特大学)
AI总结 本研究旨在引入一个标准化的根因导向的无效bug报告子类划分体系,并通过实验测试不同方法在无效子类划分和无代码修复生成中的准确性。研究还分析了不同配置在我们创建的黄金标准基准上的表现。
Comments Submitted to IEEE Transactions on Software Engineering (TSE) and currently under review
聚焦-然后-上下文:面向视觉-语言模型的主体导向渐进视觉标记缩减
发表机构 * Harbin Institute of Technology, Shenzhen, China(哈尔滨工业大学深圳学院) ; ShenZhen Loop Area Institute(深圳环形区研究所)
AI总结 本文提出了一种主体导向的渐进视觉标记缩减方法SPpruner,通过模拟人类视觉感知系统的'聚焦-然后-上下文'机制,有效减少视觉标记数量,提升视觉-语言模型的推理效率,实验表明其在速度和资源消耗上均优于现有方法。
ActQuant: 面向视觉-语言-动作模型的亚4比特动作引导量化
发表机构 * Northeastern University(东北大学) ; University of California, Berkeley(加州大学伯克利分校)
AI总结 提出ActQuant框架,通过动作引导的混合精度后训练量化,在亚4比特权重量化下保持VLA模型性能,并引入OmniModel.cpp实现高效部署。
按需扩展:自适应神经元级混合精度量化感知训练
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; DeepMind(深度思维) ; University of Cambridge(剑桥大学)
AI总结 提出神经元级混合精度量化感知训练(NMP-QAT),通过可微代理和直通估计器让每个神经元独立学习离散精度,实现按需扩展位宽,在MLP和表格基础模型上取得更优的压缩-精度权衡。
Comments Accepted at ICML - GlobalSouthML workshop, 2026
无自回归的神经算子用于时间相关偏微分方程
发表机构 * School of Computer Science and Engineering, University of Electronic Science and Technology of China(电子科技大学计算机科学与工程学院) ; School of Robotics and Advanced Manufacture, Harbin Institute of Technology(哈尔滨工业大学机器人与先进制造学院) ; School of Mathematical Sciences, Capital Normal University(首都师范大学数学学院) ; College of Information and Control Engineering, Xi’an University of Architecture and Technology(西安建筑科技大学信息与控制工程学院) ; Laboratory of Intelligent Recognition and Image Processing, School of Computer Science and Engineering, Beihang University(北京航空航天大学智能识别与图像处理实验室) ; School of Computer Science and Technology, Tongji University(同济大学计算机科学与技术学院)
AI总结 提出AFNO,通过将PDE时间演化映射到潜空间并利用流匹配学习连续时间向量场,避免自回归展开,实现长期稳定预测。
Comments 23 pages, 18 figures
在Google Cloud TPU上微调和服务Gemma 4 31B:与GPU基线的技术比较
发表机构 * Google Cloud(谷歌云)
AI总结 本文首次端到端展示了在TPU硬件上微调和服务Google Gemma 4 31B模型,通过与GPU平台的实证比较,提供了代码级适配方案,并证明TPU在训练速度和成本上具有优势。
语言模型需要睡眠吗?用于改进在线推理的离线循环
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; University of Maryland(马里兰大学)
AI总结 本文提出一种类似睡眠的巩固机制,通过离线循环将上下文转换为快速权重,以解决Transformer注意力机制随上下文长度扩展性差的问题,并在合成任务和数学推理任务上验证了其有效性。
使用遗传编程进行可解释生存分析:进化特征 vs 进化整个树
发表机构 * Leiden University Medical Center(莱顿大学医学中心) ; Centrum Wiskunde & Informatica(数学与信息学研究中心)
AI总结 本研究使用遗传编程多目标进化可检查的特征集,并联合优化生存树结构与非线性分裂逻辑,以提高浅层生存树的预测性能和可解释性。
线性排序问题:变革之时
发表机构 * University for Foreigners of Perugia(佩鲁吉亚外国大学) ; University of Perugia(佩鲁吉亚大学)
AI总结 针对线性排序问题(LOP)中基准数据过时及多最优解问题,提出基于最新经济数据的新基准套件和生成多样高质量解的算法方案,并引入质量和多样性评估指标。
Comments Accepted for publication at PPSN 2026 - Conference on Parallel Problem Solving
MOSS-Audio 技术报告
发表机构 * OpenMOSS Team(开放MOSS团队)
AI总结 提出统一音频-语言模型 MOSS-Audio,通过 DeepStack 跨层特征注入和时间标记实现语音、环境声和音乐的理解,在音频字幕、时间感知问答、时间戳转录和音频推理任务上取得强性能。
构建更好的激活预言机
发表机构 * MATS Gatsby Unit, UCL(UCL马斯特斯伽利略单位) ; MATS Ghent University(根特大学马斯特斯) ; Independent(独立) ; MATS, University of Hamburg(汉堡大学马斯特斯) ; Equal contribution(同等贡献)
AI总结 针对激活预言机存在的幻觉和模糊性问题,通过四项训练改进(策略内 rollout、对话数据集优化、多层输入和注入公式改进)提升其质量,并开源首个综合评估套件 AObench。
Comments Jan Bauer and Celeste De Schamphelaere contributed equally; author order determined randomly
量化如何改变可解释特征:语言模型的稀疏自编码器分析
发表机构 * University of Michigan(密歇根大学)
AI总结 通过稀疏自编码器分析,发现量化导致语言模型中的可解释特征逐渐退化,且任务指标无法完全反映这种损伤,量化与幅度剪枝共享相似的损伤模式。
Comments 12 Pages of Content, Submitted to TMLR
OpenAgenet/OAN:可信智能体互连的开放基础设施
发表机构 * China Academy of Information and Communications Technology(信息与通信技术研究院)
AI总结 针对智能体从孤立应用转向开放多运营商网络时面临的身份验证、治理状态、发现授权、新鲜度和信任证据问题,提出协议无关的信任层OAN,通过根治理身份准入、注册商辅助注册、根验证包发布、授权感知发现和签名可信调用来实现可信互连。
OpenAgenet/OAN:信任治理的智能体身份与发现技术架构
发表机构 * OpenAgenet / OAN
AI总结 本文提出OpenAgenet/OAN协议中立信任层技术架构,通过角色架构、身份对象、注册工作流、根治理生命周期、根验证包模型、授权感知发现、签名可信调用、验证要求、状态转换、安全属性、实现边界和部署考虑,实现异构智能体框架(包括MCP、A2A、ANP类系统及领域特定协议)的身份准入、可发现、可验证和安全交互。
局部引导,全局影响:高斯重塑信任区域解锁行为转变
发表机构 * Hong Kong University of Science and Technology(香港科技大学) ; Mila - Québec AI Institute(魁北克AI研究院) ; Université de Montréal(蒙特利尔大学) ; Fudan University(复旦大学) ; City University of Hong Kong(香港城市大学)
AI总结 针对PPO在非平稳环境中优化失效的问题,提出高斯信任区域策略优化(GTR),通过高斯核重塑信任区域实现非单调约束,在保持局部稳定性的同时允许必要的大幅策略更新,并在多种任务中取得强性能。
Comments 21 pages
Muon的谱缩放定律
发表机构 * MIT(麻省理工学院)
AI总结 本文系统研究了Muon优化器中动量矩阵奇异值谱随模型大小的缩放行为,发现其遵循幂律,并据此提出层感知的牛顿-舒尔茨迭代配置选择方法以减少计算开销。
MorphoQuant: 面向全模态大语言模型的模态感知量化
发表机构 * institutetext: MorphoQuant: Modality-Aware Quantization for Omni-modal Large Language Models Yue Wu Changyuan Wang Zixuan Wang Shilin Ma Yansong Tang(机构文本:MorphoQuant:多模态大语言模型的模态感知量化 Yue Wu 王昌元 王梓轩 马世林 唐彦松)
AI总结 提出MorphoQuant框架,通过分布感知偏差补偿和形态导向量化函数优化,解决全模态大语言模型在4比特后训练量化中的分布异质性和异常值问题,实现精度与效率的优异平衡。
解耦信息区域的选择性耦合:用于视觉Transformer无数据量化的掩码注意力对齐
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出MaskAQ方法,通过解耦合成样本中的信息区域并利用掩码注意力对齐全精度模型与量化模型,解决无数据量化中分布不匹配问题。
Comments Accepted to appear at ICML 2026, Seoul, Korea
面向风险感知强化学习的情景生成与近似安全保证
发表机构 * Nanyang Technological University(南洋理工大学)
AI总结 针对强化学习策略对转移扰动敏感导致不安全行为的问题,提出使用变分自编码器近似状态空间分布,通过构造上下界屏障证书并采样非鲁棒区域状态来收紧概率安全保证。
Comments 8 pages, preprint
利用丰富反馈的强化学习与分布式DAgger
发表机构 * University of Southern California(南加州大学)
AI总结 提出DistIL算法,通过分布式DAgger利用丰富反馈(如执行轨迹、工具输出等)进行前向交叉熵优化,实现单调策略改进和更好的Pass@N性能。
当表面形式改变审核决策:代码混合工作流不稳定性的配对研究
发表机构 * GitHub
AI总结 通过配对评估设置,研究在清洁英语与泰米尔语-英语代码混合输入下,仇恨审核工作流的变化,发现代码混合导致决策翻转率高达0.265,并增加审核负担和误报。
何时多智能体协作有助于?从熵的角度来看
发表机构 * Yantai Research Institute of Harbin Engineering University(哈尔滨工程大学烟台研究室) ; The Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州))
AI总结 本文从熵的角度探讨了多智能体协作的有效性,通过分析不同拓扑结构、六个推理基准和两个智能体任务中的熵转换,发现单个智能体在43.3%的情况下表现更优,并揭示了熵动态在第一轮交互中的决定性作用。研究提出了三个关键观察:确定性偏好、基础熵和任务意识,并引入了熵判别算法来提升智能体系统的性能。
Comments Project page: https://multiagent-entropy.github.io/
Forest-Chat: 为交互式森林变化分析适应视觉-语言代理
发表机构 * School of Computer Science, University of Bristol(布里斯托尔大学计算机科学学院) ; School of Geographical Sciences, University of Bristol(布里斯托尔大学地理科学学院)
AI总结 本文提出Forest-Chat,一种基于LLM的森林变化分析代理,通过多任务处理实现自然语言查询,提升森林变化检测与语义解释的准确性与可解释性。
Comments 28 pages, 9 figures, 12 tables, Submitted to Ecological Informatics
为法律AI系统设计的AI素养:一种实用方法
发表机构 * University of Szeged, Faculty of Law and Political Sciences, International and Regional Studies Institute(塞格德大学法学院与政治科学学院,国际与区域研究学院)
AI总结 本文探讨了法律AI系统的AI素养,分析了其对法律和伦理发展的关键作用,并提出了一种实用的风险评估工具。
Comments Forthcoming in Iustum Aequum Salutare (2025) vol.21
Journal ref Iustum Aequum Salutare, 2025, 21 (4)
因果关系是理解和平衡可信机器学习与基础模型中多个目标的关键
发表机构 * CISPA Helmholtz Center for Information Security(CISPA海德堡信息安全中心) ; Max Planck Institute for Intelligent Systems, Tübingen(马克斯·普朗克智能系统研究所(图宾根)) ; Google Research(谷歌研究) ; ETH Zürich(苏黎世联邦理工学院) ; University of Toronto(多伦多大学)
AI总结 本文主张将因果方法集成到机器学习中,以平衡公平性、隐私、鲁棒性、准确性和可解释性等可信原则之间的权衡,并探讨其在基础模型中的实际应用。
VEDA:通过退火变方差扩散实现3D分子生成
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 VEDA结合退火变方差扩散与SE(3)等价架构,高效生成准确的3D分子结构,实现高化学精度与计算效率。
大规模安全代码生成中的反射
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 研究评估了使用Instruct Prime和反射提示方法提升代码安全性的效果,发现反射提示能显著提高安全性能,尤其在第一轮提示中效果最明显。
Comments Accepted for publication at the 2nd IEEE International Conference on AI-powered Software (AIware 2025)
不是什么别的吗?利用大语言模型对德国开放式调查回答进行编码:调查动机
发表机构 * Social Data Science & AI Lab, LMU Munich(社会科学与人工智能实验室,慕尼黑大学) ; Munich Center for Machine Learning(慕尼黑机器学习中心) ; University of Maryland, College Park(马里兰大学学院公园分校) ; GESIS – Leibniz Institute for the Social Sciences(莱比锡社会科学研究机构)
AI总结 本文探讨了使用大语言模型对开放式调查回答进行编码的有效性,通过德国调查参与原因的数据,比较了不同LLM和提示方法的性能,发现仅微调的LLM能获得满意预测效果,且分类性能差异影响类别分布。
Comments to appear in Survey Research Methods
Journal ref Survey Research Methods (2025)
面向机器人任务规划的3D grounded视觉-语言框架:自动化提示合成与监督推理
发表机构 * Tsinghua University(清华大学)
AI总结 本文提出融合2D提示合成模块和小语言模型的框架,提升机器人3D场景理解与任务执行能力,实验显示任务成功率高达96.0%。
Journal ref Engineering Applications of Artificial Intelligence, vol. 164, p. 113268, 2026
无需训练的超小模型用于压缩感知中的通用稀疏重建
发表机构 * School of Artificial Intelligence and Automation, Huazhong University of Science and Technology, Wuhan, China(华中科技大学人工智能与自动化学院) ; China Belt and Road Joint Lab on Measurement and Control Technology, Wuhan, China(中国一带一路测量与控制技术联合实验室) ; School of Electric and Electrical Engineering, Chongqing University of Technology, Chongqing, China(重庆理工大学电气工程学院) ; Optics Valley Laboratory, Wuhan, China(光谷实验室) ; School of Water Conservancy and Transportation, Zhengzhou University, Zhengzhou, China(郑州大学水利与交通学院) ; School of Software Engineering, Huazhong University of Science and Technology, Wuhan, China(华中科技大学软件工程学院)
AI总结 本文提出无需训练的超小神经模型CL,实现快速稀疏重建,继承传统迭代方法的通用性和可解释性,提升效率和精度。
一种模糊自适应元启发式算法用于识别可持续、经济、轻质且抗震的钢筋混凝土悬臂挡土墙
发表机构 * School of Information and Physical Sciences, The University of Newcastle(新castle大学信息与物理科学学院) ; Department of Civil Engineering, University of Memphis(Memphis大学土木工程系) ; Faculty of Engineering and Information Technology, University of Technology Sydney(悉尼技术大学工程与信息技术学院)
AI总结 本文提出一种模糊自适应元启发式算法,用于优化抗震钢筋混凝土悬臂挡土墙的设计,考虑了结构强度、地质稳定性及几何变量,以实现轻质、经济且环保的抗震设计。
Comments There are six figures, 51 pages, and 12 tables in the revised manuscript that has recently been resubmitted to the Journal of Computational Science
Journal ref Journal of Computational Science, Volume 70, Article 101978, 2023