Arbor: Tree Search as a Cognition Layer for Autonomous Agents
Arbor:作为自主智能体认知层的树搜索
发表机构 * AMD
AI总结 提出Arbor多智能体框架,通过结构化树搜索作为认知层,在大型有状态动作空间中实现自主优化,在LLM推理优化中实现高达193%的吞吐量-延迟帕累托改进。
Arbor:作为自主智能体认知层的树搜索
发表机构 * AMD
AI总结 提出Arbor多智能体框架,通过结构化树搜索作为认知层,在大型有状态动作空间中实现自主优化,在LLM推理优化中实现高达193%的吞吐量-延迟帕累托改进。
AI智能体的战略决策支持
发表机构 * University of Pennsylvania(宾夕法尼亚大学)
AI总结 针对AI智能体作为主要决策者时的可靠性问题,提出通过优化问题最小化支持使用并控制反事实遗漏支持误差的战略决策支持框架,并开发在线算法自适应阈值化支持分数。
TrajGenAgent: 一种用于人类移动轨迹生成的分层LLM智能体
发表机构 * Emory University(埃默里大学) ; University of Florida(佛罗里达大学)
AI总结 提出TrajGenAgent,一种无需微调的分层LLM智能体框架,通过编排器-工作者两阶段设计生成真实轨迹,在时空保真度、语义一致性和个体行为真实性上优于现有方法。
Comments 14 pages, 2 figures, 8 tables. Accepted by the 27th IEEE International Conference on Mobile Data Management (MDM 2026)
Evoflux: 紧凑型智能体的可执行工具工作流的推理时演化
AI总结 提出Evoflux,一种推理时演化搜索方法,通过结构化编辑和执行反馈修复紧凑语言模型的工具工作流,将执行可行性从3%提升至17-24%,优于SFT和ReAct。
Comments Code is available at https://github.com/IBM/Evoflux
WISE:具有Why-Which推理的Minecraft长时域智能体
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州))
AI总结 提出WISE框架,通过因果事件图增强情景记忆并解耦what-where-when与which-why推理,结合机会主义任务调度和多尺度探索,显著提升长时域稀疏任务的成功率和效率。
HarnessBridge: 用于LLM智能体框架的可学习双向控制器
AI总结 提出HarnessBridge,一种轻量级可学习框架控制器,通过双向投影参数化智能体-环境接口,减少令牌使用和轨迹长度,并泛化到更大模型。
迭代优化搜索:面向电子商务中智能搜索架构评估的双智能体仿真框架
发表机构 * eBay Inc.(eBay公司)
AI总结 提出模块化双智能体仿真框架,通过固定买家智能体对比不同应答器设计,发现滚动窗口记忆在质量和速度上优于意图提取记忆,并基于失败分析将失败率降低62%。
学习该记住什么:一种基于认知的多因素记忆价值模型
发表机构 * Huatai Securities(华泰证券) ; OneBeget.com
AI总结 针对长期LLM代理的记忆管理问题,提出一种基于认知心理学的多因素记忆价值函数,通过无梯度优化学习权重,统一控制编码深度、遗忘风险和检索排名,在LongMemEval上显著优于单一因素和近因策略。
Comments 11 pages, 3 figures
Nous: 提取并注入预测市场行为背后认知的尝试
发表机构 * Independent Researcher(独立研究员)
AI总结 针对LLM代理在预测市场中认知同质化问题,提出Nous方法从真实交易行为提取八维行为画像并注入提示,发现提取部分有效但提示注入无法传递认知多样性。
Comments 37 pages, 1 figure, 7 tables. Reproduction artifacts (code, frozen profiles, prompts, model outputs): https://github.com/WillChienT/nous-paper
LLM作为调查员:基于证据优先的鲁棒交互式问题诊断
发表机构 * University of Calabria(卡拉布里亚大学) ; University of Cambridge(剑桥大学)
AI总结 提出证据优先的AI方法LLM-as-an-Investigator,通过估计问题歧义、生成假设、提问澄清并更新概率,避免过早接受用户假设,提升诊断准确性。
从判决到过程:面向多阶段事实核查的智能体强化学习
发表机构 * School of Computer Science and Engineering, Sun Yat-sen University(中山大学计算机科学与工程学院)
AI总结 提出ProFact框架,通过智能体强化学习端到端优化多阶段事实核查流程,引入过程感知奖励解决稀疏延迟监督问题,提升验证性能和推理效率。
我能买你的KV缓存吗?
发表机构 * Harbin Institute of Technology, Shenzhen (HITSZ)(哈尔滨工业大学(深圳))
AI总结 针对AI代理重复计算相同文档KV缓存的问题,提出由发布者预计算KV缓存,其他代理付费加载以跳过预填充,实验表明在Qwen3-4B上计算成本降低9-50倍,并设计了代理原生预填充CDN架构。
IterCAD:一种用于视觉引导的CAD生成与编辑的迭代多模态智能体
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出IterCAD,一种闭环交互式CAD生成与编辑的多模态智能体框架,通过渐进式SFT和几何感知强化学习优化,在代码可执行性和几何精度上显著超越现有方法。
面向质量多样性的Web智能体模仿的推测性回滚修正
发表机构 * Beihang University(北京航空航天大学) ; Institute of Software, Chinese Academy of Sciences(中国科学院软件研究所) ; The Hong Kong University of Science and Technology(香港科技大学) ; Northwestern Polytechnical University(西北工业大学) ; Tsinghua University(清华大学) ; The Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)) ; Peking University(北京大学)
AI总结 提出推测性回滚修正(SRC)框架,通过固定视野分支审查和回滚机制,在减少教师查询的同时保持轨迹多样性,在WebArena-Infinity上收集了977条通过验证的轨迹和9183个下一步动作示例。
保持策略梯度主导:面向长程工具使用智能体的兄弟引导信用蒸馏
发表机构 * Amazon Web Services(亚马逊云服务)
AI总结 针对长程工具使用强化学习中轨迹级优势信号稀疏的问题,提出兄弟引导信用蒸馏(SGCD),通过动态采样成功与失败轨迹、外部LLM对比生成逐步信用参考,实现密集信用分配,在AppWorld和τ³-airline任务上显著提升性能。
Comments 13 pages, 4 figures, 7 tables. Submitted to EMNLP 2026 Industry Track
用于语义控制系统再综合的智能体MPC
AI总结 提出智能体MPC框架,通过集成大语言模型智能体实现上下文感知的语义自适应控制综合,在自动驾驶场景中验证其根据个人偏好或社交情境(如避让应急车辆)调整控制的能力。
Comments 7 pages, 5 figures
感知、交互、推理:构建工具增强的视觉智能体用于空间推理
发表机构 * Tsinghua University(清华大学) ; Virginia Tech(弗吉尼亚理工大学) ; NVIDIA(英伟达)
AI总结 提出PERIA智能体,通过视觉感知和交互工具增强VLM的空间推理能力,在13个基准上优于同类模型7.0%-14.8%。
ComAct: 通过COM即行动范式重构专业软件操作
AI总结 提出COM即行动范式,将专业软件交互转化为确定性程序合成,解决GUI代理的脆弱性和API代理的异构性问题;构建ComCADBench基准和ComActor自校正代理,在工业CAD软件上实现SOTA性能。
SpatialClaw:重新思考智能体空间推理的动作接口
发表机构 * KAIST(韩国科学技术院) ; NVIDIA(英伟达)
AI总结 提出SpatialClaw框架,以代码作为动作接口,通过状态化Python内核和感知几何原语,使VLM智能体逐步执行并灵活组合中间结果,在20个3D/4D空间推理基准上平均准确率59.9%,比现有方法高11.2个百分点。
Comments Project page: https://spatialclaw.github.io/
Parthenon Law: 一种自我进化的法律智能体框架
发表机构 * tapntell.ai
AI总结 本文提出Parthenon框架,通过分解模型、工具、知识等组件并引入反泄漏学习循环,使法律领域的大语言模型智能体能够从经验中自我进化,显著提升法律事务处理性能。
ARROW:增强重放用于鲁棒世界模型
发表机构 * Imam Mohammad Ibn Saud Islamic University (IMSIU)(伊玛姆·穆罕默德·本·沙特伊斯兰大学) ; Monash University(莫纳什大学) ; University of New South Wales, Sydney(新南威尔士大学,悉尼) ; Cerenaut
AI总结 本文提出ARROW算法,一种基于模型的持续强化学习方法,通过高效的重放缓冲区减少灾难性遗忘,提升在无共享结构任务和有共享结构任务中的表现。
Comments 36 pages and 11 figures (includes Appendix)
WOMBET:基于世界模型的经验迁移实现鲁棒且样本高效的强化学习
发表机构 * Hybrid Robotics, UC Berkeley(混合机器人技术,伯克利大学)
AI总结 提出WOMBET框架,通过源任务中学习世界模型并生成不确定性惩罚的离线数据,再结合自适应采样进行在线微调,实现鲁棒且样本高效的强化学习迁移。
Comments 13 pages, 6 figures, 8th Annual Learning for Dynamics & Control Conference (L4DC)
心智理论效用:心理化机制的形式化规范
发表机构 * Institute for Creative Technologies, University of Southern California(南加州大学创意技术研究所) ; Khoury College of Computer Sciences, Northeastern University(东北大学库里计算机科学学院)
AI总结 提出心智理论效用(ToM-U)框架,通过局部认知世界模型(LEWM)形式化推断他人信念的计算问题,定义结构、推理过程及失败痕迹,区别于贝叶斯心智理论等方法。
用于受规管流程自动化的神经符号代理:挑战与研究议程
发表机构 * German Research Center for Artificial Intelligence (DFKI)(德国人工智能研究中心(DFKI)) ; Saarland University(萨尔大学)
AI总结 提出将领域内符号结构(法规、流程模型、合规约束)作为代理核心架构组件,实现合规性内置(compliance-by-construction)以补充护栏监控,并列出神经符号研究挑战。
Comments Accepted as a poster in NILA Workshop @ IJCAI-ECAI 2026
Agents-K1:迈向智能体原生的知识编排
发表机构 * PJLab(上海人工智能实验室)
AI总结 提出Agents-K1管道,将原始文档转化为智能体原生科学知识图谱,通过多模态解析器、GRPO训练的4B信息抽取骨干和三源智能体接口,实现科学信息抽取、知识图谱构建和多跳推理。
LLMs 作为 ASP 程序员:自我纠正实现任务无关的非单调推理
发表机构 * Arizona State University(亚利桑那州立大学) ; Samsung Research(三星研究院)
AI总结 提出 LLM+ASP 框架,通过自我纠正循环将自然语言转化为回答集程序,实现无需任务特定工程的非单调推理,在多个基准上优于 SMT 方法。
Comments 30 pages
主动推理是一种什么类型的推理?
发表机构 * Department of Electrical Engineering(电气工程系) ; Eindhoven University of Technology(埃因霍温理工大学) ; Eindhoven, the Netherlands(荷兰埃因霍温) ; Lazy Dynamics ; Utrecht, the Netherlands(荷兰乌得勒支)
AI总结 本文通过变分自由能框架将主动推理中的期望自由能最小化分解为熵校正项和规划校正项,揭示了其推理本质,并在网格世界实验中验证了不同校正项的作用。
KG-ER概念模式语言
发表机构 * Free University of Bozen-Bolzano, Italy(博洛尼亚-博兹纳自由大学,意大利) ; Université Paris-Saclay, CNRS, LISN, France(巴黎-萨克雷大学,法国 CNRS LISN) ; Birkbeck, University of London, UK(伦敦大学伯克贝克学院,英国) ; University of Huddersfield, UK(赫德斯菲尔德大学,英国) ; Relational AI, Berkeley, CA, USA(关系AI,美国加州伯克利) ; Hasselt University, Hasselt, Belgium(哈塞尔特大学,比利时) ; University of Wrocław, Poland(沃林福大学,波兰)
AI总结 提出KG-ER概念模式语言,独立于知识图谱的表示方式描述其结构,并帮助捕获语义。
Comments Published in Proceedings of IRIS-AI (https://iris-ai.org)
波的语法:通过神经符号VLM智能体实现可解释的多变量时间序列事件检测
发表机构 * AI Lab, SLB(SLB人工智能实验室) ; Télécom Paris, Institut Polytechnique de Paris, France(巴黎电信学院,巴黎高等理工学院,法国)
AI总结 提出语言引导的时间序列事件检测(TSED)任务,通过事件逻辑树(ELT)将文本描述转化为结构化时序逻辑,并构建神经符号VLM智能体SELA,实现零/少样本事件检测与可解释推理。
Comments 8 pages (main text), 28 pages total including appendix. 9 figures, 7 tables
ARMOR-MAD:大语言模型推理中异构多智能体辩论的自适应路由
发表机构 * School of Cyber Science and Technology, University of Science and Technology of China(中国科学技术大学网络空间安全学院) ; School of Artificial Intelligence, Shenzhen Technology University(深圳技术大学人工智能学院)
AI总结 提出ARMOR-MAD框架,通过辩论前协议路由、早期一致停止评估和语义异常检测,自适应控制异构多智能体辩论,提升推理准确性和效率。
带有聚合置信信号的多智能体协议
发表机构 * University of Illinois Chicago(伊利诺伊大学芝加哥分校)
AI总结 提出三种协议,通过转换原始置信信号并采用软投票或贝叶斯融合,为多智能体系统输出聚合置信度,在保持正确性的同时显著提升判别能力。
Comments 22 pages and 5 figures, 9 pages and 2 figures before the appendix
多智能体编排的奖励建模
发表机构 * Rutgers University(罗杰斯大学) ; Salesforce AI Research(Salesforce人工智能研究)
AI总结 提出OrchRM框架,通过自监督学习从多智能体执行中间产物构建奖励模型,无需人工标注,实现高效编排器训练和测试时扩展,在多个领域提升性能并降低计算成本。
Comments Preprint; work in progress
基于延迟市场反馈的多智能体强化学习在三方调度中的目标权重自适应
发表机构 * DoorDash
AI总结 提出在DoorDash部署的强化学习系统,利用延迟信号自适应调整调度目标权重,通过离线策略学习在噪声和耦合反馈下优化配送质量与批处理效率的权衡。
Comments Accepted at ICML 2026 Workshop on Reinforcement Learning from World Feedback (RLxF)
SAIGuard: 面向LLM多智能体系统主动防御的通信状态模拟
AI总结 提出SAIGuard主动防御框架,通过通信状态模拟检测并净化风险消息,降低攻击成功率并保持系统效用。
智能体互联网:大规模通信、协调与集体智能
AI总结 本文提出智能体互联网(IoAI)愿景,构建异构智能体在云、边缘、设备等环境中发现、协商、通信与协作的开放生态系统,并探讨其架构、机制及关键研究挑战。
多智能体协作的反事实信用策略优化
发表机构 * Beihang University(北航) ; Peking University(北京大学) ; Beijing University of Posts and Telecommunications(北京邮电大学)
AI总结 针对多智能体大语言模型协作中信用分配难题,提出CCPO框架,通过反事实信用估计和验证器锚定的自评估两种分配器,将团队奖励转化为个体学习信号,提升数学推理任务表现。
多智能体系统中信念修正公设的研究(扩展版)
AI总结 研究认知规划中的信念修正问题,将经典AGM信念修正公设推广到多智能体环境,提出广义全交多智能体信念修正算子,并讨论迭代修正公设的推广及事件模型修正算子。
生成式人工智能中的竞争与多样性
发表机构 * MIT Sloan School of Management & Department of Electrical Engineering and Computer Science(麻省理工学院斯隆管理学院及电气工程与计算机科学系)
AI总结 通过博弈论模型和Scattergories游戏实验,研究竞争如何促使生成式AI模型多样化,缓解同质化,并提升社会福利。
使用元启发式算法优化太阳能管理的电器调度
发表机构 * Computing Science and Mathematics, University of Stirling(斯特灵大学计算科学与数学学院)
AI总结 提出基于迭代局部搜索和模拟退火的元启发式方法,优化电器启动时间以最大化太阳能利用,并处理多天任务溢出问题。
Comments 9 pages; full results and methodology for poster paper accepted to GECCO 2026
低地球轨道卫星地面站位置的自由布局优化
AI总结 提出SCORE方法,通过两阶段自由布局优化地面站位置,相比差分进化算法减少5倍函数评估次数并提升13%下行吞吐量,相比固定站点方法提升15%总下行量。
Comments 34 pages, 13 figures, 11 tables, Journal of Aerospace Information Systems (JAIS)
Pythagoras-Prover: 通过增强型Lean形式化推进高效形式化证明
发表机构 * Imperial College London(伦敦帝国学院) ; University of Edinburgh(爱丁堡大学) ; Nanyang Technological University(南洋理工大学) ; MBZUAI(穆罕默德·本·扎耶德人工智能大学)
AI总结 提出Pythagoras-Prover系列,包括自回归和扩散模型,通过课程SFT、动态过滤和增强型Lean形式化(ALF)扩展验证数据,在MiniF2F-Test上以更少参数超越DeepSeek-Prover-V2。
Comments Pythagoras-Prover: Technical Report
缩放因子在LoRA优化中的隐藏力量
发表机构 * School of Mathematical Sciences, UCAS(中国科学院大学数学科学学院) ; School of Mathematical Sciences, NKU(南开大学数学科学学院) ; School of Advanced Interdisciplinary Sciences, UCAS(中国科学院大学前沿交叉科学学院)
AI总结 本文揭示LoRA中缩放因子α与学习率功能不同,α主导优化效果,通过信号-漂移框架发现α能放大任务信号而不增加漂移比,并提出LoRA-α框架以简化超参数搜索并提升性能。
MARS: 用于并行LLM测试时扩展的边际对抗风险控制停止策略
发表机构 * Amazon(亚马逊) ; Stanford University(斯坦福大学) ; University of Pennsylvania(宾夕法尼亚大学)
AI总结 提出MARS停止规则,通过监测中间检查点的聚合投票并利用对抗性边界估计未来投票变化,在保证准确率的同时节省25-47%的自一致性token。
Otters++: 一种基于首次脉冲时间的高能效光学脉冲Transformer
发表机构 * National University of Singapore(新加坡国立大学) ; Westlake University(西湖大学) ; Shandong University(山东大学) ; Zhejiang University(浙江大学) ; Agency for Science, Research and Technology(新加坡科技研究局)
AI总结 提出Otters++,利用光电器件自然信号衰减实现TTFS计算,通过层等效与混合训练方法,在GLUE上达到84.17%平均分且能耗更低。
ReCal: 基于强化学习的LLM路由的奖励校准
发表机构 * Zhejiang University(浙江大学) ; Ant Group(蚂蚁集团) ; Shanghai AI Laboratory(上海人工智能实验室)
AI总结 提出ReCal框架,通过分层奖励分解和分布感知优化校准奖励信号,解决多目标冲突和异质性任务优化偏差,提升LLM路由性能与稳定性。
将时间序列表示为结构化程序以进行LLM推理
发表机构 * Korea University(高丽大学) ; Mila, University of Montreal(蒙特利尔大学米拉研究所)
AI总结 提出T2SP方法,将时间序列分解为趋势、周期和显著事件并表示为结构化符号程序,使LLM无需微调即可高效推理,在编辑、描述和问答任务上优于原始序列表示。
Comments Preprint
通过惩罚增强直接偏好优化
发表机构 * Pengwei Sun(Sun Pengwei)
AI总结 提出DPOP,在DPO损失上增加对参考模型贪婪响应的门控惩罚,仅当当前策略对偏好响应概率低于拒绝响应时激活,在AlpacaEval 2.0上显著提升胜率。
Comments Accepted at ICML 2026 Workshop on Decision-Making from Offline Datasets to Online Adaptation: Black-Box Optimization to Reinforcement Learning
两层线性自回归模型估计潜在状态
AI总结 本文证明两层线性自回归模型通过经验风险最小化训练时,能近似卡尔曼滤波,恢复潜在状态估计,并提供有限样本保证。
Comments ICML 2026
TimeROME-DLM:掩码扩散语言模型的时间因果追踪与低秩推理时知识编辑
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Nanyang Technological University(南洋理工大学) ; National University of Singapore(新加坡国立大学) ; University of Science and Technology of China(中国科学技术大学)
AI总结 提出TimeROME-DLM,首个无需训练和梯度的推理时知识编辑框架,通过时间因果追踪定位关键坐标并应用低秩残差编辑,在保持模型性能的同时高效删除事实。
LoRA-Muon:低秩流形上的谱最速下降
发表机构 * Ateneo de Manila University(雅典耀马尼拉大学) ; EleutherAI ; NaXys, UNamur(纳慕尔大学NaXys研究所)
AI总结 提出LoRA-Muon优化器,将Muon的谱最速下降规则应用于低秩微调,解决LoRA对初始化敏感、最优学习率跨秩迁移差等问题,在TinyShakespeare上以秩32达到比稠密基线更低的验证损失。
Comments 20 pages, 4 figures
CausalMoE:基于模式路由异构专家的十亿规模多模态基础模型用于格兰杰因果发现
发表机构 * State Key Laboratory of General Artificial Intelligence, School of Intelligence Science and Technology, Peking University(北京大学智能科学与技术学院通用人工智能国家重点实验室) ; National Institute of Health Data Science, and Institute for Artificial Intelligence, Peking University(北京大学健康医疗大数据国家研究院、人工智能研究院)
AI总结 提出CausalMoE,一种十亿规模多模态格兰杰因果基础模型,通过模式路由混合异构专家解耦动态机制,结合因果自注意力与LLM/VLM先验,实现稀疏因果图恢复,在监督和少样本场景中达到最优。
情绪调节改善基于深度学习的图像分类
发表机构 * Mare Group(Mare集团) ; NOVA LINCS(NOVA LINCS实验室) ; Institute of Engineering (ISE), University of Algarve(阿尔加维大学工程学院) ; Department of Energy Technologies and Renewable Sources, ENEA Casaccia Research Center(ENEA卡萨恰研究中心能源技术与可再生能源部)
AI总结 提出情绪调节框架,通过人工主观体验在深度学习中建模情绪,在图像分类任务中预训练ResNet和ViT,在CIFAR-10/100上超越现有方法,成为情绪增强深度学习的新标杆。
选择与改进:理解推理后训练的机制
发表机构 * Microsoft Research NYC(微软研究院纽约) ; UIUC(伊利诺伊大学厄巴纳-香槟分校)
AI总结 通过控制实验揭示强化学习后训练通过策略选择和策略改进两种机制提升推理能力,并指出SFT数据和RL数据的不同作用。
ReSET: 通过步骤感知温度缩放实现精确的延迟关键型NVFP4推理
发表机构 * Hanyang University(汉阳大学) ; Xenoscube Korean Inc.(Xenoscube韩国公司)
AI总结 针对大型推理模型在NVFP4低精度推理中精度下降和延迟问题,提出基于推理步骤熵的温度缩放方法ReSET,并设计CUDA小M核,在多个基准上提升精度约2点,解码速度提升2倍。
使用 Jeffrey 引导实现扩散模型的更通用控制
发表机构 * Inria, CNRS, I3S, Maasai Université Côte d’Azur(法国国家信息与自动化研究所、法国国家科学研究中心、信息与系统科学实验室、马赛·蔚蓝海岸大学) ; Technical University of Denmark(丹麦技术大学) ; Inria, CNRS, LJAD, Maasai Université Côte d’Azur(法国国家信息与自动化研究所、法国国家科学研究中心、雅克-路易·利翁实验室、马赛·蔚蓝海岸大学)
AI总结 提出 Jeffrey 引导框架,通过 Jeffrey 条件规则更新边缘分布,扩展扩散模型控制到标准引导无法表达的应用,在 CIFAR-10 和 FFHQ 上显著降低 FID,并在 CelebA-HQ 上实现公平性控制。
不同层,不同流形:Transformer优化中的模块级权重空间几何
发表机构 * School of Engineering Science, The University of Osaka(大阪大学工程科学学院)
AI总结 研究Transformer不同模块偏好不同流形几何,提出为注意力层和MLP层分别分配Stiefel和DGram约束,在GPT-2预训练中取得最佳性能。
Comments Accepted at WSS @ ICML 2026, code is available at https://github.com/kiratoyoshihara/module-wise-manifold-muon
Once-for-All: 基于均衡状态估计的可扩展同步预测
发表机构 * RMIT University(皇家墨尔本理工大学) ; Monash University(莫纳什大学) ; University of Adelaide(阿德莱德大学)
AI总结 提出均衡状态估计(ESE)范式,通过一次前向传播估计多系统均衡状态并基于状态差异生成预测,在保持精度的同时实现10-70倍加速,且具有线性时间复杂度和鲁棒性。
Comments Accepted by ICML 2026
基于离线模仿学习的海事异常检测中的稀有门控上下文调节
发表机构 * Department of Industrial Engineering, Ulsan National Institute of Science and Technology (UNIST)(蔚山科学技术院工业工程系)
AI总结 提出RGFiLM模块,通过稀有度门控调节上下文调制强度,解决上下文异常检测中稀有上下文导致的高误报问题,在海事轨迹异常检测中取得最佳F1-FPR权衡。
PolyFlow: 安全高效的多面体约束流匹配,具有约束嵌入和无投影更新
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出PolyFlow,一种将约束直接嵌入模型和流动力学的多面体约束流匹配框架,通过离散时间流公式和无投影架构消除离散化误差并严格满足任意多面体约束,在规划与控制任务中实现零约束违反并降低推理延迟。
Comments 30 pages, 12 figures, Accepted to ICML 2026
MaxProof: 通过生成-验证器强化学习与群体级测试时扩展实现数学证明规模化
发表机构 * MiniMax ; The Chinese University of Hong Kong(香港中文大学) ; Fudan University(复旦大学) ; Peking University(北京大学) ; Tsinghua University(清华大学)
AI总结 提出MaxProof框架,结合生成-验证器强化学习与群体级测试时扩展,在MiniMax-M3系列上实现竞赛级数学证明,在IMO 2025和USAMO 2026上超越人类金牌阈值。
CRAFTIIF:用于多元时间序列异常检测的跨分辨率分析四类型可解释孤立森林
发表机构 * Avathon
AI总结 提出CRAFTIIF无监督框架,通过四种小波特征和五个孤立森林同时检测点、分布、时间和集体四类异常,在mTSBench基准上达到平均F1=0.228,VUS-PR比先前最佳提升40.7%。
Comments 14 pages, 4 figures, 2 appendices. Submitted to IEEE Transactions on Knowledge and Data Engineering (TKDE). Code: https://github.com/smitswil/craftiif
存在先于价值:时间序列预测中观测存在性与状态演变的联合建模
发表机构 * Ant International(蚂蚁国际)
AI总结 提出Timeflies框架,联合建模未来观测是否发生(存在性)与数值估计,通过观测流和数值流耦合模块提升缺失值时间序列预测性能。
超越承诺边界:探究大型推理模型中的附带思维链
发表机构 * CLCG, University of Groningen(格罗宁根大学CLCG) ; University of Milano-Bicocca(米兰-布雷拉大学) ; University of Trieste(特里耶大学) ; Khoury College of Computer Sciences, Northeastern University(东北大学Khoury计算机科学学院)
AI总结 通过早期退出估计思维链步骤的因果重要性,发现推理中存在从瞬态猜测到稳定答案的“承诺边界”,后续步骤为附带现象,可提前退出以缩短推理长度达55%而不影响性能。
查询通道:基于掩码的解释的信息论极限
发表机构 * Department of Electrical and Computer Engineering, University of Maryland, College Park, USA(美国马里兰大学电气与计算机工程系) ; Faculty of Engineering and Natural Sciences, Sabanci University, Turkiye(土耳其萨班奇大学工程与自然科学学院)
AI总结 本文提出查询通道框架,将掩码后解释建模为通信过程,推导解释率与识别容量之间的信息论极限,并证明稀疏最大似然解码器可实现可靠恢复。
熵梯度反转:迈向大型推理模型的内部机制
发表机构 * National University of Singapore(新加坡国立大学) ; Renmin University of China(中国人民大学) ; Shanghai Jiao Tong University(上海交通大学) ; Nanyang Technological University(南洋理工大学)
AI总结 本文发现大型推理模型中令牌熵与logit梯度之间的稳健负相关(熵梯度反转),并提出相关性正则化组策略优化(CorR-PO)将其嵌入强化学习奖励正则化,从而提升推理性能。
Comments The authors are withdrawing this manuscript due to fundamental inaccuracies in the institutional affiliations and administrative attributions provided at the time of submission. As this version cannot be validated under the correct institutional framework, the authors request its formal withdrawal from the repository. No immediate replacement is intended
何时委托优于多数?一种基于委托的多样本LLM推理聚合器
发表机构 * MIT Media Lab(麻省理工学院媒体实验室)
AI总结 提出基于委托的聚合器PPV,利用样本的字母熵和推理几何信号,在MMLU-Pro上比多数投票高1.5个百分点,无需标签或训练。
Comments Preprint. 16 pages, 5 figures, 4 tables
轻量级可解释Transformer:基于混合图算法展开的交通预测
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出一种通过展开混合图优化算法构建的轻量级可解释类Transformer网络,用于时空交通预测,在保持竞争性能的同时大幅减少参数。
Comments 24 pages, 7 figures, 11 tables
PlaceRep: 基于大规模兴趣点数据的地理空间场所表示学习
发表机构 * Emory University(埃默里大学)
AI总结 提出PlaceRep方法,通过聚类空间和语义相关的兴趣点构建场所级表示,无需预训练即可高效生成多尺度城市区域嵌入,在人口密度估计和房价预测任务中优于现有方法并实现百倍加速。
元学习变换器以改进上下文泛化
发表机构 * University of Trento, Italy(特伦托大学,意大利) ; Eindhoven University, Netherlands(埃因霍温大学,荷兰) ; University of Doha for Science and Technology, Qatar(多哈科学与技术大学,卡塔尔)
AI总结 提出利用多个小规模领域特定数据集训练上下文学习器,通过元学习提升跨领域泛化能力,并在持续学习和无监督场景下验证其鲁棒性。
等变流匹配用于对称破缺分岔问题
发表机构 * Department of Mechanical Engineering, Eindhoven University of Technology(埃因霍温理工大学机械工程系) ; DIFFER – Dutch Institute for Fundamental Energy Research(荷兰基础能源研究所) ; Faculty of Civil Engineering, Department of Mechanics, Czech Technical University in Prague(布拉格捷克技术大学土木工程学院力学系) ; Department of Mathematics and Computer Science, Eindhoven University of Technology(埃因霍温理工大学数学与计算机科学系)
AI总结 针对非线性动力系统中对称破缺导致的多稳态共存问题,提出等变流匹配方法,结合等变架构与最优传输耦合机制,准确捕捉多模态分布和对称破缺分岔,优于非概率和变分方法。
Comments 9 pages, 7 figures including appendices. Accepted to Machine Learning and the Physical Sciences Workshop, NeurIPS 2025 (https://ml4physicalsciences.github.io/2025/). Repository with corresponding code: https://github.com/FHendriks11/bifurcationML/. Video explanation: https://www.youtube.com/watch?v=wsL3h17KtjY
构建未来:通过校准草稿图实现扩散LLM推测解码
发表机构 * University of Waterloo(多伦多大学)
AI总结 提出Spiffy算法,利用校准的草稿图结构实现扩散LLM的推测解码,在保持输出分布的同时加速推理,最高减少8.6倍模型推理次数并加速6.3倍令牌生成速率。
Comments Original version uploaded on Sep 22, 2025. (v2): Extended Table 2 with additional analysis and referenced it in Sec 5.2. (v3): Added note to Sec 4.2 and Appendix A.2 specifying conditions for losslessness. (v4): Updated with the version accepted to ICML 2026 workshops
HD-Prot:一种使用连续结构令牌进行联合序列-结构建模的蛋白质语言模型
发表机构 * The Hong Kong Polytechnic University(香港理工大学) ; Mohamed bin Zayed University of Artificial Intelligence(马尔代夫人工智能大学)
AI总结 提出HD-Prot,一种混合扩散蛋白质语言模型,通过连续结构令牌将序列pLM扩展为多模态,实现联合序列-结构建模,在多种任务上取得竞争性能。
Comments This is the long version of the corresponding paper to appear at KDD 2026
聚类聚合生成对抗网络 (CAG):一种基于聚类的混合模型用于电器模式生成
发表机构 * Department of Artificial Intelligence, School of Electronics Engineering, Kyungpook National University(人工智能系,电子工程学院,全北国立大学)
AI总结 针对现有生成方法忽略间歇性与连续电器行为差异导致训练不稳定和保真度有限的问题,提出CAG框架,通过聚类模块为间歇电器分配专用生成器,连续电器使用LSTM生成器,在UVIC数据集上优于基线方法。
Comments 18pages, 5Figues
分散自回归生成
发表机构 * Lancaster University(兰卡斯特大学)
AI总结 本文通过离散流匹配框架证明分散训练与集中训练在理论上等价,实验验证其在多模态基准上保持竞争力。
Hellinger多模态变分自编码器
发表机构 * Department of Computer Science, Saarland University(萨尔兰大学计算机科学系) ; MPI-SWS, Saarland Informatics Campus(萨尔兰信息学校区Max Planck研究所)
AI总结 提出基于Hellinger距离的矩匹配近似方法HELVAE,避免子采样,在多模态变分自编码器中实现更优的生成一致性与质量权衡。
Comments Accepted at AISTATS 2026. Camera-ready version
语言模型电路在神经元基上是稀疏的
发表机构 * Stanford University(斯坦福大学)
AI总结 本文实证发现MLP神经元与稀疏自编码器一样是稀疏特征基,并基于此开发了端到端梯度归因流水线,在多项任务中揭示了因果有效的神经元电路。
Comments ICML Spotlight, camera-ready
结构化剪枝与非结构化剪枝:指数级差距
发表机构 * Department of Informatics, King’s College London(伦敦国王学院信息学院)
AI总结 研究随机初始化网络中剪枝的局限性,证明神经元剪枝需要指数级更大的网络规模才能达到与非结构化剪枝相同的近似精度。
ASTER: 用于无监督时间序列异常检测的潜在伪异常生成
发表机构 * University of Montreal(蒙特利尔大学) ; Université de Montréal(蒙特利尔大学)
AI总结 提出ASTER框架,在潜在空间生成伪异常训练Transformer分类器,结合预训练LLM增强表示,在三个基准数据集上达到最优性能。
Comments Published in ICPR 2026
BrainDINO:一种用于通用临床表征学习的脑MRI基础模型
发表机构 * Department of Radiation Oncology and Winship Cancer Institute, Emory University(放射肿瘤科和Winship癌症研究所,埃默里大学) ; Department of Radiation and Cellular Oncology, The University of Chicago(放射肿瘤学与细胞肿瘤学部,芝加哥大学) ; Department of Electrical and Computer Engineering, Georgia Institute of Technology(电气与计算机工程系,佐治亚理工学院) ; Department of Biomedical Engineering, Georgia Institute of Technology(生物医学工程系,佐治亚理工学院) ; Department of Biomedical Informatics, Emory University(生物医学信息学系,埃默里大学) ; Department of Medical Physics, Memorial Sloan Kettering Cancer Center(医学物理系,纪念斯隆凯特琳癌症中心)
AI总结 提出BrainDINO,一种基于自蒸馏的基础模型,在约660万张未标记轴向切片上训练,通过冻结编码器加轻量任务头,在多种脑MRI任务上达到或超越基线,尤其在小样本场景下优势显著。
Comments 25 pages, 5 figures
深度学习的可能性预测不确定性
发表机构 * University of Cambridge(剑桥大学) ; National University of Singapore(新加坡国立大学) ; University of Warsaw(华沙大学)
AI总结 提出基于可能性理论的Dirichlet近似可能性后验预测(DAPPr)框架,通过投影-近似策略实现高效且原则性的认知不确定性量化,在多个基准上达到竞争性能。
Comments Accepted by ICML 2026, 20 pages
训练利润最优大语言模型的理论
发表机构 * Boston University(波士顿大学) ; Allen Institute for AI(人工智能研究院)
AI总结 本文提出一个经济模型,结合扩展定律与微观经济学理论,分析大语言模型训练的利润最大化问题,探讨模型规模与训练成本的关系及对利润的影响。
Comments Minor edits for preprint
基于插入生成的变分学习
发表机构 * University of Cambridge(剑桥大学)
AI总结 提出插入过程(IP)模型,通过排列变分推断联合学习插入位置、内容和终止条件,支持变长生成并提升非自回归序列建模质量。
面向语音基础模型的无数据无训练压缩:基于参数聚类的方法
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; National Research Council Canada(加拿大国家研究委员会)
AI总结 提出一种基于k-means通道聚类的无数据无训练压缩方法,通过层间不同参数簇数实现细粒度混合稀疏剪枝,在HuBERT-large和Whisper-large-v3上显著降低WER。
Comments Accepted by Interspeech 2026
PRISMR: 通过参数化表示内化克服多模态列表排序中的解析崩溃
发表机构 * Nanyang Technological University(南洋理工大学) ; Peking University(北京大学) ; Independent Researcher(独立研究员)
AI总结 针对多模态长上下文场景中生成式列表排序的解析崩溃问题,提出PRISMR框架,用参数化结构条件替代临时上下文列表处理,通过轻量级超网络并行编码候选并生成LoRA权重,显著减少解析崩溃并提升排序性能。
ReSum: 通过强化学习协同LLM推理与摘要生成
发表机构 * University of Science and Technology of China(中国科学技术大学) ; AMAP, Alibaba Group(阿里巴巴集团高德地图)
AI总结 提出ReSum框架,利用自摘要机制让LLM压缩和组织推理轨迹,通过对比评估自适应触发摘要,在提升性能4%的同时减少18.6%的推理长度。
Comments 24 pages, including 13 pages of main text and 11 pages of appendix
不确定性感知的混合检索用于长文档RAG
发表机构 * Elmore Family School of Electrical and Computer Engineering, Purdue University(普渡大学埃尔莫尔家族电气与计算机工程学院)
AI总结 提出UMG-RAG,一种无需训练的混合检索框架,通过多粒度分块和不确定性估计融合密集与稀疏检索结果,提升长文档问答质量。
分析与改进医学LVLMs中的细粒度偏好优化
发表机构 * York University(约克大学) ; University of British Columbia(不列颠哥伦比亚大学) ; Vector Institute(向量研究所) ; Queen’s University(女王大学)
AI总结 针对医学大视觉语言模型在事实一致性、视觉定位和临床对齐方面的不足,提出一种结合双向令牌级KL正则化和视觉对比定位目标的细粒度在线偏好优化框架,通过最小编辑模型输出构建偏好对,仅修正临床错误片段,显著提升诊断准确性。
LLMs 能更好地捕捉人类判断——使用合适的提示
AI总结 通过简单提示策略,LLMs 能恢复人类反应的完整分布,并减少对措辞变化的敏感性,提升 AI-人类对齐。
定位语言模型中的锚定路径
发表机构 * University of Maryland, College Park(马里兰大学帕克分校)
AI总结 研究提示中无关数字如何影响语言模型数值推理的锚定效应,通过logit差值度量和电路归因定位,发现边级方法优于节点级方法,并揭示锚定路径的共享与迁移特性。
DIMOS: 解耦实例级运动目标分割
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州))
AI总结 提出双解耦特征提取框架分离图像与事件模态的外观和运动信息,并通过多粒度跨模态对齐实现有效融合,在运动实例分割任务中尤其对快速运动和低光下的小目标取得最优性能。
交错思维中的模态隔离桥接:通过逐步强化监督模态转换
发表机构 * Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; Shanghai Jiaotong University(上海交通大学) ; Zhejiang University(浙江大学) ; University of Chinese Academy of Sciences(中国科学院大学)
AI总结 提出MoTiF框架,通过反射式SFT和Flow-GRPO优化模态转换保真度,解决交错思维中图像与文本脱节的模态隔离问题,提升跨模态一致性和任务准确性。
Comments 22 pages, 5 figures, 6 tables
TetherCache: 基于门控召回与可信对齐的自回归长视频生成稳定性方法
发表机构 * Tsinghua University(清华大学) ; D-INFK, ETH Zürich(苏黎世联邦理工学院计算机科学系)
AI总结 提出TetherCache,一种无需训练、即插即用的缓存管理策略,通过门控召回(GRAB)和可信对齐编辑(TAME)缓解自回归视频扩散模型中的上下文漂移,实现稳定长视频生成。
Comments 17 pages, 8 figures
G-Long:面向高效长期对话代理的图增强记忆管理
发表机构 * Sungkyunkwan University(成均馆大学)
AI总结 提出G-Long框架,利用微调小语言模型进行结构化三元组提取和关联检索,并引入注意力感知重要性评分机制,在降低计算开销的同时,在响应生成和记忆检索上达到最优性能。
Comments 22 pages, 8 figures, 14 tables
NaturalFlow: 减少同步语音到语音翻译中破坏自然语音流的停顿
发表机构 * IPAI and ECE, Seoul National University(首尔大学IPAI与ECE) ; Department of AI, University of Seoul(首尔市立大学人工智能系)
AI总结 提出一个流畅性感知优化框架,通过利用模型内部信号(如语言多样性和语音时长的时间变异性)最小化块间静音,在同步翻译的低延迟和连续翻译的自然流畅之间找到平衡点。
Comments Proceedings of the 26th Interspeech Conference, Long Paper
迭代视觉思维:通过视觉反馈教会视觉语言模型空间自我修正
发表机构 * QpiAI India Pvt. Ltd(QpiAI印度私人有限公司)
AI总结 提出迭代视觉思维(IVT)框架,通过视觉反馈闭环和两阶段训练(SFT+GRPO),使视觉语言模型具备空间自我修正能力,在三个基准上提升指标2.4-3.2个百分点。
NTS-CoT: 基于思维链推理减轻大模型新闻时间线摘要中的幻觉
发表机构 * Central South University(中南大学) ; Tsinghua University(清华大学) ; Nanjing University(南京大学) ; Suzhou Aerospace Information Research Institute(苏州空天信息研究院) ; McGill University(麦吉尔大学)
AI总结 针对大模型在新闻时间线摘要中产生内容不忠实和信息遗漏两类幻觉,提出NTS-CoT框架,通过元素思维链、日期选择和因果思维链三个模块有效缓解幻觉,在三个基准上超越现有方法。
MemRefine: 基于LLM引导的压缩用于长期智能体记忆
发表机构 * Korea University(韩国大学) ; KAIST(韩国科学技术院)
AI总结 提出MemRefine框架,利用LLM判断事实内容,通过删除、合并和保留操作将记忆库压缩到固定预算内,在多个基准上保持下游性能并优于基于规则的基线。
跨模态掩码组合概念建模以增强视觉-语言组合性
发表机构 * MoE Key Laboratory of Brain-inspired Intelligent Perception and Cognition, University of Science and Technology of China(中国科学技术大学,教育部脑启发智能感知与认知重点实验室) ; Independent Researcher(独立研究员)
AI总结 提出MACCO框架,通过掩码一个模态的组合概念并从另一模态完整上下文重建,增强视觉-语言模型的组合理解能力,在五个基准上显著提升。
Comments Accepted to ACL 2026 Main Conference, 25 pages
HYDRA-X: 具有整体视觉分词器的原生统一多模态模型
发表机构 * Nanjing University(南京大学) ; CASIA(中国科学院自动化研究所) ; Tencent Hunyuan(腾讯混元) ; Zhongguancun Academy(中关村学院) ; Shanghai AI Lab(上海人工智能实验室)
AI总结 提出HYDRA-X,首个在单一ViT中统一图像和视频分词的原生统一多模态模型,通过因果时间注意力和分层时间压缩实现高效重建,并利用轻量化解压缩器注入语义,显著提升编辑一致性和收敛速度。
IVIE:一种用于增量且经过验证的交互式小说世界生成的神经符号方法
发表机构 * Instituto de Computación, Facultad de Ingeniería, Universidad de la República(乌拉圭共和国大学工程学院计算机研究所)
AI总结 提出IVIE神经符号方法,结合LLM的创造力与符号验证的连贯性,通过四阶段增量生成管道构建可玩的交互式小说世界,人类评估显示其生成沉浸式、主题连贯的世界,平衡了灵活性与叙事一致性。
Comments 10 pages, 3 figures. To appear in the Proceedings of the 16th International Conference on Computational Creativity (ICCC'26), June 2026
OmniDirector: 无需配对数据的通用多镜头相机克隆
发表机构 * Kuaishou Technology(快手科技) ; Tsinghua University(清华大学) ; University of Science and Technology of China(中国科学技术大学)
AI总结 提出OmniDirector框架,通过将相机参数编码为网格运动视频,并利用百万级配对数据训练,实现无需交叉配对数据的多镜头相机运动克隆,具备卓越的控制性能。
Comments 12 pages, 8 figures
自适应轮流发言:面向实时多方语音代理
AI总结 提出ModeratorLM,一种基于角色条件的语音大模型,通过分块流式处理和链式推理,在多方对话中实现自适应轮流发言,显著提升轮流精度和召回率。
Comments Accepted for publication at Interspeech 2026
ArogyaSutra:面向印度语言的多模态医学推理的多智能体框架
发表机构 * Indian Institute of Technology Patna(印度理工学院巴特那分校) ; Indian Institute of Technology Kanpur(印度理工学院坎普尔分校) ; Prasannadeb Women’s College(普拉萨纳德布女子学院)
AI总结 针对印度语言医疗场景中多模态大语言模型性能不足的问题,提出多模态医学问答数据集ArogyaBodha和基于演员-评论家的多智能体框架ArogyaSutra,通过工具接地与双记忆机制提升多语言医学推理准确性。
EvTexture++: 事件驱动的视频超分辨率纹理增强
发表机构 * MOE Key Laboratory of Brain-Inspired Intelligent Perception and Cognition, University of Science and Technology of China(中国科学技术大学,脑启发智能感知与认知教育部重点实验室) ; Midea Group(美的集团)
AI总结 提出首个事件驱动的视频超分辨率纹理增强框架EvTexture++,利用事件的高频时空细节逐步恢复纹理,并通过时间纹理对齐模块增强帧间一致性,在多个数据集上达到最优性能。
Comments IEEE TPAMI 2026. Extended version of arXiv:2406.13457 (ICML 2024). Project page: https://dachunkai.github.io/evtexture-project-page/
通过检索增强强化微调进行类比推理学习
发表机构 * Meta Superintelligence Labs(Meta超级智能实验室) ; Rice University(莱斯大学)
AI总结 提出RA-RFT框架,通过黄金相关性蒸馏训练检索器,并结合强化微调利用类比推理轨迹,提升数学推理性能。
ReFoCUS: 用于上下文理解的强化引导帧优化
发表机构 * Korea Advanced Institute of Science & Technology(韩国科学技术院) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校)
AI总结 提出ReFoCUS框架,首次将在线策略梯度强化学习集成到视频大语言模型的帧级优化中,通过自回归和查询条件选择架构学习帧选择策略,无需显式帧级监督,提升视频问答推理准确性。
Comments Project page: https://interlive-team.github.io/ReFoCUS/
大型语言模型中层级情感组织的涌现
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Stanford University(斯坦福大学) ; University of Washington(华盛顿大学) ; University of Tokyo(东京大学)
AI总结 受情感轮理论启发,分析大型语言模型输出中情感状态间的概率依赖关系,发现模型自然形成与人类心理模型一致的层级情感树,且更大模型发展出更复杂的层级结构,同时揭示社会经济角色在情感识别中的系统性偏差。
Comments ICML 2026
多语言机器生成文本的作者归属
发表机构 * DIMES Department, University of Calabria(卡利博大学DIMES系) ; Kempelen Institute of Intelligent Technologies(智能技术研究所)
AI总结 提出多语言作者归属问题,研究单语言方法在18种语言和8个生成器上的跨语言迁移能力,发现显著局限。
Comments Accepted at ACL 2026 - Main
HalluJudge: 代码审查自动化中上下文错位的无参考幻觉检测
发表机构 * Monash University Australia(墨尔本大学澳大利亚) ; The University of Melbourne Australia(墨尔本大学澳大利亚) ; Atlassian USA(Atlassian美国)
AI总结 提出无参考幻觉检测方法HalluJudge,通过上下文对齐评估生成评论的根基性,采用多分支推理策略,在F1=0.85且成本$0.009下与开发者偏好67%一致。
Comments Accepted at FSE'26: Industry Track, Full-Length, Peer-Reviewed
当迭代RAG优于理想证据:科学多跳问答中的诊断研究
发表机构 * Faculty of Engineering, McMaster University, Canada(麦斯特大学工程学院,加拿大) ; BASF Canada Inc., Canada(巴斯夫加拿大公司,加拿大)
AI总结 通过化学多跳问答数据集,诊断发现迭代检索-推理循环在科学领域显著优于静态RAG上限,揭示了阶段式检索的优势与失败模式。
Comments 51 pages, 29 figures
LatentLens: 揭示大语言模型中高度可解释的视觉标记
发表机构 * University of Cambridge(剑桥大学)
AI总结 提出 LatentLens 方法,通过将视觉标记与文本语料库中的上下文标记表示进行最近邻匹配,实现视觉标记的可解释性,发现大多数视觉标记在各层均具有可解释性。
Comments ICML 2026 (Camera Ready)
Ex-Omni:为全模态大语言模型赋能3D面部动画生成
发表机构 * The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳)) ; LIGHTSPEED ; Independent Researcher(独立研究员)
AI总结 提出Ex-Omni模型,通过混合形状感知语音单元生成器和解码器解耦语义推理与时间生成,并引入统一令牌查询门控融合机制,实现全模态大语言模型同步生成语音和3D面部动画。
InnoEval:将研究思路评估视为基于知识的多视角推理问题
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出InnoEval框架,通过异构深度知识检索和多视角评审委员会,实现基于知识的多维度解耦评估,在点对点、成对和分组评估任务中优于基线方法。
Comments ICML 2026
PaLMR: 通过多模态过程对齐实现忠实视觉推理
发表机构 * National Key Laboratory for Novel Software Technology, Nanjing University(南京大学新型软件技术国家重点实验室) ; Data Science & Artificial Intelligence Research Institute, China Unicom(中国unicom数据科学与人工智能研究院) ; Unicom Data Intelligence, China Unicom(中国unicom数据智能)
AI总结 提出PaLMR框架,通过感知对齐数据层和过程对齐优化层,减少推理幻觉并提升视觉推理忠实度,在多个基准上取得最优结果。
实用人格:通过桥接推理发现LLM人格
发表机构 * Department of Artificial Intelligence, Chung-Ang University, Seoul, 06974, Republic of Korea(Chung-Ang大学人工智能系) ; Department of Computer Science, University of British Columbia, Vancouver, BC V6T 1Z4, Canada(不列颠哥伦比亚大学计算机科学系) ; Van Lang University, Ho Chi Minh City, Vietnam(文-lang大学)
AI总结 提出基于桥接推理的框架,通过构建话语级知识图谱捕捉LLM对话中的隐含语义关联,实现从话语连贯性层面发现稳定人格特征,优于基于频率或风格的基线方法。
Comments 15 pages, 4 figures, accepted to ICPR 2026
GeoWorld-VLM:从世界模型中获取几何结构用于视觉-语言模型
发表机构 * Harvard AI and Robotics Lab(哈佛人工智能与机器人实验室) ; Kempner Institute for the Study of Natural and Artificial Intelligence(凯普纳自然与人工智能研究 institute) ; Harvard University(哈佛大学)
AI总结 GeoWorld-VLM通过将冻结的摄像机条件视频世界模型的几何结构转移到视觉-语言模型中,提升空间关系推理能力,实验显示在两个不同架构上均提升了约4%的性能。
更多上下文、更大模型还是道德知识?政治文本中施瓦茨价值观检测的系统研究
发表机构 * PRHLT Research Center, Universitat Politècnica de València, Spain(巴塞罗那理工大学研究中心,西班牙 Valencia理工大学) ; School of Science, Engineering and Design, Universidad Europea de Valencia, Spain(Valencia欧洲大学科学、工程与设计学院,西班牙) ; Valencian Graduate School and Research Network of Artificial Intelligence (ValgrAI)(瓦伦西亚人工智能研究生学院与研究网络(ValgrAI))
AI总结 本研究系统比较了上下文范围、检索增强道德知识和模型规模对政治文本中施瓦茨价值观检测的影响,发现全文档上下文和检索知识对监督编码器有效,但对零样本大语言模型帮助有限,且模型扩展不保证性能提升。
Comments Code: https://github.com/VictorMYeste/human-value-detection-context-rag, best model: https://huggingface.co/VictorYeste/value-context-rag-deberta-v3-base-doc-rag, 18 pages, 3 figures
注意力扩展:利用注意力增强的上下文嵌入提升长文档关键短语提取
发表机构 * Institute for Research in Technology, ICAI School of Engineering, Comillas Pontifical University(技术研究所,ICAI工程学院,科米利亚斯宗座大学) ; DD-AIM, Senior Machine Learning Researcher(DD-AIM,高级机器学习研究员)
AI总结 提出注意力扩展机制,通过预训练词嵌入增强PLM的上下文表示,在不增加计算成本的情况下扩展有效上下文范围,显著提升长文档关键短语提取性能。
MultiToP:学习修补视觉令牌以减轻视频大型多模态模型中的幻觉
发表机构 * Zhejiang University(浙江大学) ; Sun Yat-sen University(中山大学) ; East China Normal University(华东师范大学)
AI总结 提出MultiToP框架,通过轻量级视觉令牌修补器动态替换不可靠视觉令牌,结合信息引导排名校准和稀疏正则化,在不修改原模型情况下减少视频多模态模型幻觉,显著提升F1分数和问答准确率。
Comments Preprint
PersonaDrive: 面向闭环驾驶模拟的人类风格检索增强VLA智能体
发表机构 * University of California, Irvine(加利福尼亚大学尔湾分校)
AI总结 提出PersonaDrive流水线,通过检索风格指令下的人类驾驶演示来调节视觉-语言-动作(VLA)驾驶智能体,实现闭环模拟中多样化的非自车智能体行为,无需针对每种风格重新训练。
Foresight: 关于导航关键线索的迭代推理
发表机构 * UT Austin(德克萨斯大学奥斯汀分校) ; FieldAI
AI总结 提出Foresight框架,利用微调VLM交替提出和批评图像空间运动计划,通过人类反馈学习奖励模型进行强化学习后训练,实现无地图导航中稀疏语言指令下的迭代运动优化,任务成功率提升37%。
Comments 22 pages, 10 figures, 3 tables
从模仿到对齐:面向长距离人行道导航的人类偏好流策略
发表机构 * University of California, Los Angeles(加州大学洛杉矶分校)
AI总结 提出FlowPilot,一种仅使用单目RGB相机的无地图导航策略,通过锚定流匹配进行预训练,并引入人类偏好学习实现对齐,在长距离人行道导航中提升鲁棒性和社会合规性。
EWAM:一种用于具身智能闭环在线自适应的增强世界动作模型
发表机构 * Astronex Robotics ; Nanjing University of Information Science and Technology(南京信息工程大学)
AI总结 提出EWAM架构,基于冻结的Cosmos3骨干网络,通过四个轻量级神经层实现零样本在线自适应,无需微调或额外演示数据,显著减少新任务布局的部署数据需求。
Stubborn: 一种用于人形机器人鲁棒运动跟踪与摔倒恢复的流线型统一强化学习框架
发表机构 * Southern University of Science and Technology(南方科技大学)
AI总结 提出Stubborn框架,通过非对称Actor-Critic架构、偏航对齐表示、伯努利概率终止机制和自适应采样策略,统一实现人形机器人的运动跟踪与摔倒恢复,在性能与鲁棒性上超越现有方法。
功能缓存嫁接:具身智能体的鲁棒且快速代码策略合成
AI总结 提出FCGraft框架,通过维护函数级验证代码骨架及其键值缓存,对新任务进行缓存嫁接(拼接和修补),减少预填充计算并复用验证结构,实现更鲁棒和快速的策略合成。
Comments Accepted at ICML 2026
本体感觉-视觉对应使能人形机器人的自我-他人区分
发表机构 * Eastern Institute of Technology, Ningbo(宁波东方理工大学) ; Shanghai Jiao Tong University(上海交通大学) ; Peking University(北京大学) ; Carnegie Mellon University(卡内基梅隆大学) ; East China Normal University(华东师范大学) ; Ningbo Institute of Digital Twin(宁波数字孪生研究院)
AI总结 提出通过本体感觉与视觉的对应学习自我-他人区分,无需身份标签或运动学模型,并建立预测性自我模型,支持目标到达、碰撞感知运动规划和运动重定向。
Comments 23 pages, 9 figures, 1 supplementary table
幽默风格驱动笑声,话题塑造可接受性:评估双语个人与政治机器人交付的AI笑话
发表机构 * Univ Brest-Bretagne INP, COMMEDIA team, Lab-STICC CNRS UMR 6285(布列塔尼大学-INP,COMMEDIA团队,Lab-STICC CNRS UMR 6285)
AI总结 本研究通过混合因素设计,评估机器人用双语讲AI生成笑话时,幽默类型(亲和、自我增强、攻击、自贬)和内容(个人vs政治)对趣味性和适当性的影响,发现幽默类型显著影响趣味性,内容影响适当性,语言偏好受内容及参与者流利度影响。
Comments Accepted in the 35th IEEE International Conference on Robot and Human Interactive Communication (RO-MAN 2026), Kitakyushu, Fukuoka, Japan
基于自回归策略的实时执行
发表机构 * Korea Institute of Science and Technology(韩国科学技术研究院) ; Seoul National University(首尔大学) ; Google Research(谷歌研究院)
AI总结 通过异步推理和约束解码实现自回归策略的实时执行,在保证低延迟的同时提升任务完成速度,实验表明其性能优于流匹配策略。
异构激光雷达早期融合与学习重排序策略用于非结构化环境中的鲁棒长期地点识别
发表机构 * Miguel Hernández University of Elche(米格尔·埃尔南德斯·德埃尔切大学)
AI总结 提出MinkUNeXt-VINE++方法,通过异构LiDAR数据早期融合和学习重排序策略,在非结构化环境(如葡萄园)中显著提升长期地点识别性能,Recall@1指标提升20%-30%。
基于测量校准的多相机融合用于视觉室内定位
发表机构 * Rosenheim Technical University of Applied Sciences(罗森海姆应用技术大学)
AI总结 提出测量校准融合方法,通过显式量化单相机定位误差(单应校准、人体检测、运动跟踪)来优化多相机数据融合,实验表明该方法虽未显著提升绝对精度,但有效降低了轨迹方差并提高了运动平滑性。
Comments This paper has been accepted for presentation at the IEEE 22st International Conference on Automation Science and Engineering (CASE 2026)
Mana: 铰接工具的灵巧操作
发表机构 * UC Berkeley(加州大学伯克利分校) ; CMU(卡内基梅隆大学) ; Stanford University(斯坦福大学) ; Amazon FAR(亚马逊FAR)
AI总结 提出Mana框架,将灵巧操作重解释为动画问题,通过粗到细的流水线自动生成操作轨迹,实现铰接工具的零样本仿真到现实迁移。
Comments Project Page: https://zhaohengyin.github.io/mana
从数字到物理:数字代理作为物理智能的自主教练
发表机构 * School of Artificial Intelligence, Shanghai Jiao Tong University, Shanghai, China(上海交通大学人工智能学院) ; Zhongguancun Academy, Beijing, China(中关村学院) ; School of Integrated Circuits, Shanghai Jiao Tong University, Shanghai, China(上海交通大学集成电路学院) ; School of Computer Science, Shanghai Jiao Tong University, Shanghai, China(上海交通大学计算机科学学院) ; State Key Laboratory of Multimedia Information Processing, School of Computer Science, Peking University, Beijing, China(北京大学计算机科学学院多媒体信息处理国家重点实验室)
AI总结 提出EmboCoach-Bench基准,评估LLM代理自主设计具身策略的能力,通过迭代调试和优化,代理在平均成功率上超越人工基线26.5%,并具备自我修正能力。
Comments 53 pages, 12 figures
SCALE: 基于自不确定性条件自适应观察与执行的视觉-语言-动作模型
发表机构 * Seoul National University(首尔国立大学)
AI总结 提出SCALE推理策略,利用自不确定性联合调节视觉感知和动作,无需额外训练或验证器,仅单次前向传播,提升VLA模型在模拟和真实环境中的鲁棒性。
Comments ICML 2026 Spotlight. Project page: https://dcahn12.github.io/projects/scale/
UniDexTok:基于真实数据的统一灵巧手分词器
发表机构 * Fudan University(复旦大学) ; Hefei University of Technology(合肥工业大学) ; Rimbot ; Beijing University of Posts and Telecommunications(北京邮电大学)
AI总结 提出统一灵巧手模型(UDHM)将人手和机器人手状态映射到共享22自由度语义接口,并基于此开发UniDexTok,一种免重定向的状态分词器,学习基于真实关节状态的离散token,实现异构灵巧手的统一表示,误差降低98%以上。
RoboNaldo:通过运动引导课程强化学习实现精准、稳定且强力的人形足球射门
发表机构 * The University of Hong Kong(香港大学) ; The Chinese University of Hong Kong(香港中文大学) ; Archon Robotics
AI总结 提出三阶段运动引导课程强化学习框架RoboNaldo,从单一人踢参考逐步优化射门性能,在仿真中射门误差降低48.6%、速度提升2.96倍,真实机器人上3米外平均射门误差0.73-0.86米,触球后球速达13.10米/秒。
通过真实到仿真到真实触觉策略学习的盲操作灵巧抓取
发表机构 * ShanghaiTech University(上海科技大学) ; Beijing Institute for General Artificial Intelligence(北京通用人工智能研究院)
AI总结 提出一种结合Real2Sim触觉校准、布局感知触觉编码器和触觉条件扩散策略的框架,实现仅依赖触觉的灵巧手盲抓取,在真实机器人上对20个物体达到27%成功率。
Comments 23 pages, 6 figures
大型语言模型中的预填充感知
发表机构 * Constellation University of Wisconsin-Madison(威斯康星大学麦迪逊分校星座研究所) ; Constellation Georgia Institute of Technology(佐治亚理工学院星座研究所) ; UK AI Security Institute(英国人工智能安全研究所)
AI总结 研究大型语言模型能否识别并响应其助手消息被预填充或篡改,发现前沿模型具有显著预填充感知能力,可能影响安全评估方法。
Comments Submitted to NeurIPS 2026
遏制缺口:已部署的自主AI框架如何未能满足面向公众的安全要求
发表机构 * New Jersey Institute of Technology(新泽西理工学院)
AI总结 研究发现主流自主AI框架缺乏架构级安全保证,内存完整性漏洞可导致定向腐败,提出轻量级遏制机制消除攻击向量。
Comments ICML 2026 (AI4GOOD Workshop)
(人类的)注意力(仍然)就是一切:人类监督使AI辅助的社会科学变得可靠
发表机构 * China Agricultural University(中国农业大学) ; University of Cambridge(剑桥大学)
AI总结 提出人机协同决策架构HLER,通过预承诺、决策排序、问责和注意力分配,将AI辅助研究的失败率从72%降至16%。
零源大语言模型幻觉检测:类人类标准探测
AI总结 提出HCPD范式,通过类人类标准探测机制模拟人类评估者的多面推理,结合奖励对齐和多样本聚合,实现零源条件下的有效可解释幻觉检测。
Comments Accepted at ICML 2026
ERTS: 通过有界后果空间中的语义扰动进行伦理AI的对抗鲁棒性测试
发表机构 * Pratyush Chaudhari(普拉蒂什·查德哈里)
AI总结 提出伦理鲁棒性测试系统(ERTS),通过有界伦理后果空间、语义扰动和领域自适应评估,测试AI在伦理推理中的对抗鲁棒性,实验表明仅33%模型通过测试。
Comments 8 pages, 10 tables
超越运行时强制:作为对抗网络可防御性分析的盾牌合成
发表机构 * Information and Computer Science Department, King Fahd University of Petroleum and Minerals(信息与计算机科学系,法赫德国王石油矿产大学)
AI总结 提出将盾牌合成重新解释为设计时分析工具,通过约束双人安全博弈生成可防御性判定,并融合拓扑度量和强化学习行为形成可防御性指纹,揭示系统安全的结构性见解。
Comments 26 pages, 7 figures, 7 tables. Under review at JAIR. Code: https://github.com/AchrafHsain7/Bastion
AI法律专家:面向AI治理的司法自主职业画像
发表机构 * Studio Legale Fabiano, Italy(意大利法务工作室Fabiano) ; Independent Researcher on Artificial Intelligence, Data Protection, and Privacy(人工智能、数据保护与隐私独立研究员) ; Expert in the EDPB’s Support Pool of Experts — Field B: Legal Expertise in New Technologies(欧洲数据保护委员会(EDPB)专家支持池——领域B:新技术法律专长) ; Member, IEEE SA P7007 Working Group on Ontological Standards for Ethically Driven Robotics(IEEE SA P7007工作组成员:伦理驱动机器人学的本体标准) ; Member, Editorial Advisory Board, Journal of Systemics, Cybernetics and Informatics (JSCI)(《系统学、控制论与信息学杂志》(JSCI)编辑顾问委员会成员) ; Member, International Institute of Informatics and Systemics (IIIS)(国际信息与系统学研究院(IIIS)成员) ; Member, International Neural Network Society (INNS)(国际神经网络学会(INNS)成员) ; Member, United Nations University AI Network (UNU AI Network)(联合国大学人工智能网络(UNU AI Network)成员)
AI总结 本文提出“AI法律专家”这一新型职业画像,该角色具有司法自主性,源于AI监管义务结构,而非技术标准或相邻角色延伸,并基于欧洲电子能力框架构建参考能力架构。
关键领域中平衡AI合规与技术创新的挑战:系统文献综述
AI总结 通过系统文献综述,识别出碎片化法规、中小企业过度合规负担和治理模型错配三大挑战,并提出风险分级监管、设计合规和可解释AI等策略。
Comments 11 pages, 7 figures, Hawaii International Conference on System Sciences
Muse Spark 安全与准备报告
AI总结 Meta 发布 Muse Spark 大语言模型,评估其在化学/生物、网络安全和失控风险等灾难性风险领域的安全性,通过多层缓解措施将风险降至可接受水平,并作为 Meta AI 的基础模型发布。
Comments 159 pages, 57 figures
算法宪政主义
AI总结 针对AI对社会生活日益渗透的风险,本文提出“算法宪政主义”框架,通过分层架构、算法元推理和协商纠正,应用于Facebook内容审核,并分析其与社会宪政主义的张力及对欧盟数字服务法案的影响。
立场:生成式引擎优化带来未被充分研究的风险,治理必须聚焦于集中化、披露和学术盲点
发表机构 * GitHub
AI总结 本文分析从搜索引擎优化到生成式引擎优化的转变,识别出集中化影响、未披露的商业影响和学术-工业盲点三大风险,主张答案级别的治理与测量。
Comments This paper is accepted by the ICML 2026 Position Track
重新定义AI失控:它是什么,如何拥有,如何失去
发表机构 * Oxford Martin AI Governance Initiative AI Standards Lab(牛津马丁人工智能治理倡议人工智能标准实验室) ; Centre for the Study of Existential Risk, University of Cambridge(存在风险研究中心,剑桥大学) ; Institute of Mathematics Education, University of Cologne(数学教育研究所,科隆大学) ; Cornell University(康奈尔大学)
AI总结 本文通过将控制锚定于“设定和获取目标”,建立控制的工作定义,探讨控制如何被失去、AI如何导致失控,并提出维持控制的建议。
Comments 56 pages
SMSR:针对持久化LLM代理系统中运行时内存投毒的认证防御
AI总结 提出SMSR防御框架,通过写入时HMAC签名和查询时随机化内存消融与基于判决的多数投票,首次为多会话内存投毒攻击提供认证鲁棒性保证。
PI-Hunter:用于暴露和定位提示注入的自动化红队测试
AI总结 提出PI-Hunter自动化审计框架,通过构建源感知测试用例并迭代演化,主动暴露LLM智能体中的潜在提示注入漏洞,显著提升漏洞暴露和攻击面覆盖。
PolicyGuard:面向强化学习智能体的测试时和步级对抗防御
AI总结 提出PolicyGuard,一种基于高斯过程后验方差的测试时步级后门防御方法,通过自适应伪轨迹计算单步不确定性,在七种RL游戏中达到平均AUROC 0.856和0.859。
图像扩散模型的高效、鲁棒且抗共谋指纹识别
发表机构 * University of Florence(佛罗伦萨大学) ; Shenzhen Campus of Sun Yat-sen University(中山大学深圳校区) ; College of Cyber Security, Jinan University(暨南大学网络空间安全学院) ; State Key Laboratory of Internet of Things for Smart City, University of Macau(澳门大学智慧城市物联网国家重点实验室) ; Department of Computer and Information Science, Faculty of Science and Technology, University of Macau(澳门大学科技学院计算机与信息科学系) ; University of Siena(锡耶纳大学)
AI总结 针对生成式文本到图像模型指纹识别缺乏抗共谋攻击鲁棒性的问题,提出基于个性化归一化模块的编码方法,并引入无损函数不变参数变换的抗共谋机制,实现高保真、高鲁棒且首次主动抵御共谋攻击的指纹识别。
人工智能时代的民主
AI总结 本文探讨如何利用人工智能升级民主制度,增强集体智慧、审议民主和自治系统,同时应对隐私、偏见和虚假信息等风险。
断层线:在公共部门转型中国家政策与地方实践交汇处的伦理与负责任AI导航
发表机构 * Centre for Machine Intelligence, University of Sheffield(谢菲尔德大学人工智能中心) ; Blavatnik School of Government, University of Oxford(牛津大学布莱瓦尼克政府学院)
AI总结 本文以英国特殊教育需求与残疾(SEND)为案例,通过17次半结构化访谈的主题分析,揭示了国家政策与地方实践在负责任AI实施中的五大挑战,并提出了政策与结构改革建议。
Comments 10 pages plus references. This study was funded by the University of Sheffield
“这还不够吗?”:加拿大算法签证分类系统中的机构问责与集体意义建构的不对称性
AI总结 研究加拿大签证系统中算法问责的机构表述与申请者体验,发现机构强调透明度与程序保障,而申请者通过集体意义建构应对不透明决策,揭示认知、管辖和时空关系三方面不对称。
大型语言模型驱动的AI系统中自主渗透能力的涌现
发表机构 * Fudan University(复旦大学) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; Concordia AI ; Shanghai Innovation Institute(上海创新研究院)
AI总结 针对现有评估方法不透明、场景简化等问题,构建包含两级目标服务器和通用代理框架的自主渗透评估体系,测试19个LLM发现成功率10.7%-69.3%,且能力随模型整体能力提升。
谁买单?面向真实世界网络代理的以利益相关者为中心的提示注入基准测试
AI总结 提出以利益相关者为中心的基准测试框架,系统分类和归因真实世界网络代理系统中的提示注入危害,揭示当前代理无法可靠抵抗任何攻击目标,且失败模式多样。
Comments 32 pages
Mod-Guide:一种基于LLM的内容审核反馈系统,用于解决针对原住民及少数族裔宗教群体的不敏感言论
AI总结 本文研究LLM审核系统对孟加拉国印度教和查克玛社区不敏感言论的认知局限,通过共同构建文化语料库和检索增强生成(RAG)方法开发Mod-Guide工具,提升模型对少数群体观点的敏感性。
一个被污染的页面就够了:评估生成式推荐系统中的网页内容污染
发表机构 * The Chinese University of Hong Kong(香港中文大学)
AI总结 本研究提出FORGE基准,评估搜索增强LLM在检索结果被污染时推荐虚假产品的脆弱性,发现单个污染页面即可导致高达27%的推荐错误率,且推理能力无法缓解此问题。
认知宪政主义:或如何避免一致性偏见
AI总结 本文提出AI应建立明确的认知宪法,通过规范源归因等元规范避免一致性偏见,并论证自由主义路径优于柏拉图式路径。
Comments 27 pages, 7 tables. Data: github.com/MicheleLoi/source-attribution-bias-data and github.com/MicheleLoi/source-attribution-bias-swiss-replication. Complete AI-assisted writing documentation: github.com/MicheleLoi/epistemic-constitutionalism-paper
跨模型分歧作为无标签正确性信号
发表机构 * Independent Researcher(独立研究者) ; Department of Computer Science Columbia University(计算机科学系哥伦比亚大学)
AI总结 提出跨模型分歧作为无标签正确性指标,通过验证模型对生成模型答案的困惑度或熵来检测错误,无需训练或标签,在多个基准上优于模型内不确定性方法。
机械良知:机器智能可信赖性的数学框架
AI总结 提出机械良知(MC)概念,通过轨迹级规范过滤最小化修正基线策略,降低累积偏离,并处理认知不确定性,实现单智能体与分布式智能系统的可信赖性。
Comments 9 pages, 2 figures. Preprint
智能作为受管自主:代理型AI系统的失败、升级与治理
AI总结 本文提出SMARt模型,通过形式化能力检测认知漂移、暂停推理、尝试恢复并在可靠性下降时放弃控制,以解决自主AI系统中的幻觉和持续不合理行为问题。
Comments This peer-reviewed paper is to appear in the Journal of Intelligent and Robotic Systems
从自然提示中重建模板记忆的图像
发表机构 * School of Electrical & Computer Engineering(电气与计算机工程学院) ; School of Computer Science & AI(计算机科学与人工智能学院) ; Tel Aviv University(特拉维夫大学)
AI总结 提出一种低资源攻击方法,利用模板化电商数据中的模式,从自然提示中重建训练集中的记忆图像,揭示隐私风险。
Proto-LeakNet:面向合成人脸图像中信号泄漏感知的归因方法
发表机构 * Department of Mathematics and Computer Science(数学与计算机科学系) ; University of Catania(卡塔尼亚大学)
AI总结 提出Proto-LeakNet,利用扩散模型中的信号泄漏痕迹,结合闭集分类与密度开集评估,实现可解释的生成器归因,在闭集上训练后对未见生成器也有效。
Comments 44 pages, 27 figures, 11 tables
从孤立到纠缠:可解释性方法何时识别和解缠已知概念?
发表机构 * Boston University(波士顿大学) ; Harvard University(哈佛大学) ; Mila – Quebec AI Institute(魁北克AI研究所) ; Goodfire(Goodfire公司)
AI总结 本文提出多概念评估框架,研究稀疏自编码器和探针等方法是否真正解缠概念,发现特征通常只对单一概念敏感,但概念分布在多个特征上,且干预特征常影响多个概念,表明相关性指标不足以证明干预选择性。
Comments ACL 2026
绿色联邦学习的标准化方法与建议
发表机构 * Children’s National Hospital(儿童医院) ; NVIDIA(英伟达) ; Children’s National Hospital George Washington University(儿童医院乔治华盛顿大学)
AI总结 提出基于NVFlare和CodeCarbon的联邦学习碳核算方法,通过实验验证系统慢速和协调效应可显著增加碳排放,强调标准化碳核算对可复现绿色FL评估的必要性。
多轮交互中的安全隐患:工具使用智能体的多轮安全风险基准与防御
发表机构 * Stanford University(斯坦福大学) ; UC Berkeley(加州大学伯克利分校)
AI总结 提出多轮工具使用安全基准MT-AgentRisk,发现多轮设置下攻击成功率平均增加16%,并设计无训练、与工具无关的自探索防御方法ToolShield,平均降低30%攻击成功率。
LLM智能体中长期记忆安全综述:跨记忆生命周期的攻击、防御与治理
发表机构 * MemTensor ; Shanghai Jiao Tong University(上海交通大学)
AI总结 本文提出记忆生命周期框架,系统分析LLM智能体长期记忆面临的新威胁,并引入可验证记忆治理(VMG)架构原语,强调存储时溯源与版本控制对安全的关键作用。
文本扩散模型的安全感知去噪器
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出安全感知去噪器(SAD),在文本扩散模型的迭代去噪过程中引导生成文本进入安全区域,无需重训练即可实现灵活的安全约束,有效降低不安全生成同时保持生成质量。
Comments 28 pages, 12 figures. Code available at: https://github.com/ParkLabML/SAD
用于Transformer修补和机制可解释性的连续深度场论
发表机构 * Universidade de Vigo(维戈大学) ; Independent Researcher(独立研究员)
AI总结 本文提出场论框架,将残差流视为深度-标记场,通过局部源插入、灵敏度场预测、经验格林函数响应和伴随变分问题来组织和预测Transformer激活修补干预,并在GPT-2风格自回归Transformer中验证了前向响应理论。
深度双样本检验的反事实解释
发表机构 * Hasso-Plattner-Institute, University of Potsdam(波茨坦大学洪堡-劳恩堡研究所) ; Hasso Plattner Institute for Digital Health at Mount Sinai Icahn School of Medicine at Mount Sinai(辛辛那提医学院洪堡数字健康研究所)
AI总结 针对深度双样本检验,提出基于扩散自编码器和MMD优化的反事实解释框架,生成样本级编辑以揭示驱动假设拒绝的特征。
Comments 17 pages
RLHF中奖励不确定性的统一视角
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; DeepMind(深度Mind)
AI总结 本文提出使用分布奖励模型统一RLHF中的悲观主义方法,通过闭式有效奖励公式连接现有启发式方法,并揭示其隐含假设。
ToolSense: 审计LLM中参数化工具知识的诊断框架
发表机构 * SAP Labs(SAP实验室)
AI总结 提出ToolSense诊断框架,自动生成三类基准测试,揭示参数化工具检索中知识-检索分离现象,发现模型在模糊查询下性能显著下降。
重新思考LLMs的心理测量评估:自我报告何时以及为何能预测行为
发表机构 * Caltech(加州理工学院) ; UIUC(伊利诺伊大学厄巴纳-香槟分校) ; University of Cambridge(剑桥大学)
AI总结 研究对比大五人格与计划行为理论,发现LLMs的自我报告-行为一致性存在选择性:在共享对话中TPB达到人类水平,跨对话仅对锚定于训练的行为保持一致性,且角色提示不能使行为对齐。
Comments Accepted as an Oral (Contributed Talk) at the ICML 2026 Workshop on Combining Theory and Benchmarks (CTB)
跨尺度科学挑战的AI智能体基准测试
发表机构 * Yale University(耶鲁大学) ; Broad Institute of MIT and Harvard(布罗德研究所) ; The Pennsylvania State University(宾夕法尼亚州立大学) ; Northeastern University(东北大学) ; Northwestern University(西北大学)
AI总结 提出SciAgentArena基准,含约200个交互式任务,评估AI智能体在真实科研场景中的能力,发现其在数据分析中有效,但在创新探索和开放问题上表现不均。
Comments 6 figures
构建程序性推理评估数据集:平衡自然性、基础性和多跳覆盖
发表机构 * Georgia Institute of Technology(佐治亚理工学院)
AI总结 研究基于任务-方法-知识(TMK)模型的问题生成策略对程序性和多跳推理数据集质量的影响,提出基础性验证框架,发现严格TMK生成策略在基础性和可用性上最优。
Comments 10 pages, 2 numbered figures. Workshop submission to HAIL @ AIED 2026
MLUBench: 多模态大语言模型终身遗忘评估基准
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出MLUBench基准,评估多模态大模型在连续遗忘请求下的性能,发现现有方法存在累积退化,并揭示多模态对齐保持的挑战,提出LUMoE方法缓解退化。
Comments 36 pages, accepted to the ICML 2026
GeoNatureAgent Benchmark:面向前沿与开源基础模型的环境地理空间分析LLM智能体基准测试
发表机构 * Universidad Católica de Ávila (UCAV)(阿维拉天主教大学) ; Johns Hopkins University(约翰霍普金斯大学) ; Independent Researcher(独立研究者) ; Center for Geographic Analysis, Harvard University(哈佛大学地理分析中心)
AI总结 提出首个通过结构化工具调用真实API评估环境分析智能体的基准,包含93个任务,发现Claude Sonnet 4领先,但开源模型在成本效益上占优,且比较任务普遍未解决。
Comments Preprint. 10 pages, 8 figures. Submitted to ACM SIGSPATIAL 2026
DailyReport: 一个用于评估搜索代理在日常搜索任务上的开放式基准
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Meituan(美团)
AI总结 提出DailyReport基准,包含150个开放式日常搜索任务和3546个级联评分标准,通过分解子任务和维度评估,揭示当前搜索代理系统仍未能满足用户期望。
OpenMedQ:面向医学视觉语言模型的广泛开放预训练
发表机构 * Stanford University(斯坦福大学) ; Stanford University School of Medicine(斯坦福大学医学院) ; Ghent University(根特大学)
AI总结 提出OpenMedQ,在14个数据集(约335万样本)上预训练医学视觉语言模型,在PathVQA上BLEU-1达75.9,超越562B参数的Med-PaLM M,并在8个未见医学分类任务上取得最高平均macro-F1(0.757)。
Comments Medical Imaging with Deep Learning (MIDL) 2026, Short Paper Track
SciR: 面向LLM科学推理的可控基准
发表机构 * Idiap Research Institute(Idiap研究 institute) ; EPFL(瑞士联邦理工学院) ; School of Computer Science, University of Sheffield(谢菲尔德大学计算机科学学院) ; University of Manchester(曼彻斯特大学) ; National Biomarker Centre, CRUK Manchester Institute(国家生物标志物中心,CRUK曼彻斯特研究所)
AI总结 提出SciR基准,通过形式对象生成可验证的多范式科学推理任务,并控制信息提取和推理难度两个维度,揭示LLM在科学推理中的弱点。
AAbAAC:用于自身免疫信息抽取的标注语料库
发表机构 * Inserm, Université Paris Cité, U1163 Institut Imagine(法国国家健康与医学研究院、巴黎西岱大学、U1163 想象研究所) ; Inria, Inserm, Université Paris Cité, U1346 HeKA(法国国家信息与自动化研究所、法国国家健康与医学研究院、巴黎西岱大学、U1346 HeKA) ; Freelance researcher(自由研究员)
AI总结 针对自身免疫领域信息抽取性能不足,构建了包含115篇PubMed摘要的AAbAAC语料库,手动标注实体和关系,通过微调NER模型验证了其有效性。
重新思考长视频中的RAG:检索什么以及如何使用?
发表机构 * Department of Computer Science, Cranberry-Lemon University(蔓越莓柠檬大学计算机科学系)
AI总结 针对视频检索增强生成中检索粒度单一和基准测试缺陷,提出V-RAGBench基准和CARVE方法,通过分块自适应重排序实现多配置交错证据,显著提升性能。
TerraBench: 智能体能否对异构地球系统数据进行推理?
发表机构 * Mohamed bin Zayed University of Artificial Intelligence(穆罕默德·本·扎耶德人工智能大学)
AI总结 提出TerraBench基准,基于TerraAgent框架,通过结合大语言模型规划与科学工具,实现跨网格数据、卫星图像、地理空间和模拟器的交互式推理,包含403个任务和24,500个执行步骤。
基于多模态大语言模型的移动用户体验推理:任务、基准与方法
发表机构 * Ant Group(蚂蚁集团)
AI总结 提出UXBench基准(2000个VQA样本)评估多模态大模型在UI推理上的能力,并设计UI-UX模型,通过奖励路由和不对称过渡奖励机制在UXBench上达到0.7963准确率,超越Claude-4.5-Sonnet。
Comments 10 pages, 6 figures, Accepted at CVPR 2026 Findings
在计算感知令牌预算下小型Llama风格语言模型训练动态的定量实验重复测量研究
发表机构 * Department of Computer Information Science, ECPI University(ECPI大学计算机信息科学系)
AI总结 本研究通过重复测量设计,分析在固定计算预算下训练小型Llama模型时,验证损失、困惑度等指标随令牌数变化的动态,发现早期快速改进后出现非单调退化,表明计算感知评估应关注训练轨迹而非终点指标。
元数据驱动分类中的评估主权:面向弱监督信息系统的多轨道框架
发表机构 * Lawrence Livermore National Laboratory(劳伦斯利弗莫尔国家实验室)
AI总结 针对弱监督元数据系统中标签权威性影响评估有效性的问题,提出评估主权概念及多轨道评估框架,通过实验揭示模型性能在银标与金标评估下的显著差异,并重新定义评估有效性为系统级属性。
CloudCons:云资源整合的全面端到端基准测试
发表机构 * Zhejiang University(浙江大学) ; State Street Technology (Zhejiang) Ltd.(道富科技(浙江)有限公司) ; Richoo AI ; Hangzhou High-Tech Zone (Binjiang) Institute of Blockchain and Data Security(杭州高新区(滨江)区块链与数据安全研究院) ; Datadog AI Research
AI总结 提出CloudCons基准,评估云资源整合中预测模型的决策效用,发现基础模型零样本预测准确但决策效用未必更优,并分析预测分位数选择对资源效率与可靠性的权衡。
Comments Accepted to KDD 2026
EpiBench:人工智能代理在表观基因组学分析中的可验证评估
发表机构 * LatchBio
AI总结 提出EpiBench基准,通过106个评估任务测试AI代理在表观基因组学工作流中的决策能力,发现最佳系统GPT-5.5/Pi通过率仅45%,失败多因缺乏深度科学判断。
使用大型语言模型自动评估社会与行为科学的可重复性
发表机构 * LMU Munich(慕尼黑大学) ; Munich Center for Machine Learning(慕尼黑机器学习中心) ; University of Cologne(科隆大学)
AI总结 本研究利用大型语言模型(LLMs)自动评估社会与行为科学研究的可重复性,在76项研究中,LLM在41%的研究中恢复了原始效应量,在96%的案例中得出了与原始研究相同的定性结论,优于人类再分析。
GeoDial:面向几何问题求解的多模态对话式辅导数据集,包含可视化辅导轮次
发表机构 * ETH Zurich(苏黎世联邦理工学院) ; ETH AI Center(苏黎世联邦理工学院人工智能中心) ; Bocconi University(博科尼大学)
AI总结 提出GeoDial数据集,包含1300+几何师生对话,通过可扩展标注协议整合对话行为、视觉高亮和反馈,微调视觉语言模型发现其难以生成准确图解高亮。
职业提示揭示大型语言模型中的文化偏见
发表机构 * U.S. Government(美国政府)
AI总结 通过职业提示(如会计师、教师)替代国籍提示,研究开源LLM在价值观调查中的响应,发现不同职业导致文化地图内偏移,表明职业角色引发结构化价值模式。
EDEN:意大利语临床笔记的大规模语料库
发表机构 * Fondazione Bruno Kessler(布鲁诺·凯斯勒基金会) ; Istituto di Ricerche Farmacologiche Mario Negri IRCCS(马里奥·内格里药理研究所IRCCS) ; University of Padua(帕多瓦大学)
AI总结 本文介绍EDEN,一个大规模意大利语急诊临床笔记语料库,包含约400万份匿名笔记及6000份专家标注数据,用于支持大语言模型在医疗中的应用,并提出了CRF填充作为新的结构化信息提取基准。
多关系网络中的图缩减:面向传播的缩减基准
AI总结 提出SORB基准框架,系统评估图缩减对影响力最大化任务的影响,发现缩减效果依赖于网络类型和评估指标。
地理空间多模态基础模型的新兴灵活设计
发表机构 * Oak Ridge National Laboratory(橡树岭国家实验室)
AI总结 本文系统比较了不同架构的地理空间基础模型,在统一设置下评估其灵活性与性能,为多模态推理提供设计指导。
HybridCodeAuthorship:一个用于行级代码作者归属检测的基准数据集
AI总结 针对现有基准无法反映真实AI代码助手使用场景的问题,提出HybridCodeAuthorship数据集,包含交错的人类和AI编写代码行,并评估两种检测算法性能。
Comments Accepted to LREC 2026
基于节点重构的零样本广义图异常检测框架
发表机构 * School of Computing, KAIST(韩国科学技术院计算机学院)
AI总结 提出AlignGAD框架,通过全局统一模块对齐异构特征、聚类模块捕获组级异常模式及节点差异评分模块聚合多视图异常证据,实现零样本跨域图异常检测。
AfriSUD:用于评估非洲语言模型的依存树库集合
发表机构 * Princeton University(普林斯顿大学) ; Laboratory for Artificial Intelligence, Princeton University(普林斯顿大学人工智能实验室) ; Gaston Berger University(加斯顿·伯杰大学) ; Mila, McGill University(麦吉尔大学米拉研究所) ; Canada CIFAR AI Chair(加拿大CIFAR人工智能教席) ; Paris Nanterre University(巴黎南泰尔大学) ; Paris-Saclay University(巴黎-萨克雷大学) ; CNRS(法国国家科学研究中心) ; Inria(法国国家信息与自动化研究所) ; LORIA(洛林计算机科学实验室) ; Université de Lorraine(洛林大学) ; University of Trento(特伦托大学) ; University of Minnesota–Twin Cities(明尼苏达大学双城分校) ; Imperial College London(伦敦帝国学院) ; Binghamton University(宾汉姆顿大学) ; Makerere University(马凯雷雷大学) ; Penn State University(宾夕法尼亚州立大学) ; Mbarara University of Science and Technology(姆巴拉拉科技大学) ; Chalmers University of Technology(查尔姆斯理工大学) ; University of Ibadan(伊巴丹大学) ; Nnamdi Azikiwe University(纳姆迪·阿齐基韦大学) ; South African Centre for Digital Language Resources(南非数字语言资源中心)
AI总结 为弥补非洲语言在NLP资源上的不足,构建了首个大规模九种非洲语言句法标注树库AfriSUD,评估多种模型发现显著句法差距。
超越问题求解:用于评估竞赛编程中代码生成、攻击和修复的UOJ-Bench基准
AI总结 提出UOJ-Bench基准,通过代码生成、攻击和修复三项任务评估LLM在竞赛编程中的问题求解与人类代码错误识别能力,发现最强模型在一次性评估中无法识别超过50%的错误提交,但测试时扩展可提升至90%以上,且能发现约5%的满分提交中的错误。
面向湿实验室机器人的具身仿真平台、基准测试及数据高效增强框架
发表机构 * Key Laboratory of Smart Manufacturing in Energy Chemical Process Ministry of Education(能源化工过程智能制造国家重点实验室) ; Department of Computer Science and Engineering(计算机科学与工程系) ; Department of Laboratory Medicine(实验室医学系) ; Shanghai Jiao Tong University School of Medicine(上海交通大学医学院)
AI总结 提出Pipette平台,包含可编辑资产、仿真数据增强管道和11任务基准测试,将30次演示的VLA成功率从44.1%提升至74.7%。
Comments 25 pages, 17figures
MiniPIC: 少于100行代码的灵活位置无关缓存
发表机构 * IBM Research(IBM研究院)
AI总结 提出MiniPIC,通过无位置编码KV缓存和用户控制缓存重用原语,在vLLM中实现多种位置无关缓存方法,显著提升预填充吞吐量并降低首个令牌延迟。
Comments 13 pages, 5 figures
SupraBench: 超分子化学基准
发表机构 * University of Notre Dame(圣母大学) ; University of Connecticut(康涅狄格大学)
AI总结 为评估大语言模型在超分子化学推理中的能力,与领域专家合作发布了首个超分子基准SupraBench,包含四个基本任务和一个辅助视觉任务,并提供了16M令牌的语料库SupraPMC。
SkMTEB:斯洛伐克大规模文本嵌入基准与模型适配
发表机构 * Comenius University in Bratislava(布拉迪斯拉发夸美纽斯大学) ; Cisco Systems(思科系统) ; Technical University of Košice(科希策技术大学) ; Kempelen Institute of Intelligent Technologies(肯佩伦智能技术研究所)
AI总结 针对低资源西斯拉夫语斯洛伐克语,构建首个MTEB风格文本嵌入基准SkMTEB(含31个数据集、7类任务),并开发高效本地部署模型e5-sk-small/large,通过词汇裁剪与微调在参数减少62%下达到与商业API相当的竞争力。
Comments ACL 2026
DecompSR:用于组合多跳空间推理分解分析的数据集
AI总结 提出DecompSR数据集(超500万数据点),通过程序化生成独立控制组合性的多个方面(如推理深度、语言变异性),用于细粒度评估大语言模型的空间推理能力。
DSAEval:在广泛真实世界数据科学问题上评估数据科学智能体
发表机构 * Department of Data Science and Artificial Intelligence, Hong Kong Polytechnic University(数据科学与人工智能系,香港理工大学) ; Department of Applied Mathematics, Hong Kong Polytechnic University(应用数学系,香港理工大学)
AI总结 提出包含641个真实数据科学问题的基准DSAEval,涵盖多模态环境感知、多查询交互和多维评估,系统评估13个先进LLM智能体,发现Claude-Sonnet-4.5综合最优,多模态感知提升视觉任务性能2.04%-11.30%。
CreativeBench: 通过自我进化挑战基准测试和增强机器创造力
AI总结 提出CreativeBench基准,基于认知框架通过代码生成评估机器创造力,包含组合与探索两个子集,利用逆向工程和自我博弈自动生成挑战,并通过质量与新颖性乘积的指标区分创造与幻觉。
Comments ACL 2026. Project page: https://zethwang.github.io/creativebench.github.io/
Agents' Last Exam
发表机构 * arXiv
AI总结 针对AI系统在专业领域缺乏经济性部署的问题,提出Agents' Last Exam (ALE)基准,通过250+专家协作构建覆盖13个行业集群55个子领域的1000+长期真实经济任务,当前最难层级平均通过率仅2.6%。
Comments Project website: https://agents-last-exam.org Code: https://github.com/rdi-berkeley/agents-last-exam
Workflow-GYM:面向真实世界专业领域的长周期计算机使用代理任务评估
发表机构 * ByteDance Seed(字节跳动Seed) ; M-A-P ; Humanlaya
AI总结 提出Workflow-GYM基准,评估AI代理在专业软件中执行长周期、高价值工作流的能力,发现最强模型成功率仅略超30%,揭示当前代理在长周期工作流一致性方面的严重不足。
论 $\textit{RemOve-And-Retrain}$ 的陷阱:数据处理不等式视角
发表机构 * KAIST(韩国科学技术院)
AI总结 从信息论角度揭示ROAR基准的缺陷:数据无关的后处理可提升ROAR分数,导致对归因图信息量的误判,并发现模糊性偏差。
Comments Accepted at the 2026 ICML Workshop on Mechanistic Interpretability
WildIFEval: 野外指令遵循
发表机构 * The Hebrew University of Jerusalem(希伯来大学杰里科分校) ; IBM Research(IBM研究院)
AI总结 提出WildIFEval数据集,包含7K条真实用户的多约束指令,用于评估LLM的指令遵循能力,发现所有模型仍有较大改进空间。
Comments Accepted to the 5th Workshop on Generation, Evaluation and Metrics (GEM) at ACL 2026
MoReBench:评估语言模型中的程序性和多元道德推理,超越结果
发表机构 * University of Washington(华盛顿大学) ; New York University(纽约大学) ; Scale AI ; Harvard University(哈佛大学) ; University of Michigan(密歇根大学) ; UNC Chapel Hill(北卡罗来纳大学教堂山分校) ; Center for AI Safety(人工智能安全中心) ; Stanford University(斯坦福大学) ; MIT(麻省理工学院) ; University of Oxford(牛津大学)
AI总结 提出MoReBench基准,包含1000个道德场景和超过2.3万条标准,用于评估语言模型在道德推理中的程序性推理能力,发现现有基准无法预测模型表现,且模型对特定道德框架存在偏好。
Comments 46 pages, 8 figures, 10 tables. Published in ICLR 2026. Accepted at CHAI workshop and SPP 2026 (non-archival)
PhononBench:面向晶体生成中动态稳定性的基于声子的大规模基准
发表机构 * School of Physics, Renmin University of China(中国人民大学物理学院)
AI总结 提出PhononBench,首个大规模AI生成晶体动态稳定性基准,利用MatterSim势高效计算声子,评估7个模型生成的133,838个结构,发现平均动态稳定性率仅32.15%。
Comments 53 pages, 6 figures
VDE Bench: 评估图像编辑模型对视觉文档进行修改的能力
发表机构 * UCAS(中国科学院大学) ; CASIA(中国科学院自动化研究所) ; Tencent(腾讯) ; CMU(卡内基梅隆大学) ; WashU(华盛顿大学) ; SJTU(上海交通大学) ; XDU(北京理工大学)
AI总结 本文提出VDE Bench,一个专门评估图像编辑模型在双语中文-英文和复杂视觉文档编辑任务性能的基准,通过高质量数据集和新的评估框架,系统量化了文本修改的准确性。
Fin-RATE:面向SEC文件的金融分析与追踪评估基准
发表机构 * Tongji University(同济大学) ; University of California, San Diego(加州大学圣地亚哥分校) ; Yale University(耶鲁大学) ; Goldman Sachs(高盛集团)
AI总结 针对LLM在金融领域分析复杂监管文件的需求,提出基于SEC文件的Fin-RATE基准,通过三种任务路径评估模型,发现跨文档和跨时间分析时性能显著下降。
TokaMark:MAST托卡马克等离子体模型的综合基准
发表机构 * IBM Research Europe(IBM欧洲研究院) ; UK Atomic Energy Authority(英国原子能局) ; STFC Hartree Centre(STFC哈特ree中心)
AI总结 为解决聚变数据稀缺、分散且标注不一致的问题,提出TokaMark基准,包含14项任务,统一多模态聚变数据访问和评估协议,并提供基线模型,以加速数据驱动的AI等离子体建模。
FENCE:一个金融和多模态越狱检测数据集
发表机构 * arXiv
AI总结 针对金融领域多模态越狱检测资源匮乏的问题,提出FENCE数据集,包含韩英双语文本和图像,用于训练和评估检测器,实验表明基线检测器准确率达99%。
Comments lrec 2026 accepted paper
CMI-RewardBench: 基于组合多模态指令评估音乐奖励模型
发表机构 * National University of Singapore(新加坡国立大学) ; University of Science and Technology of China(中国科学技术大学) ; University of Cambridge(剑桥大学) ; University of Toronto(多伦多大学)
AI总结 针对音乐生成模型缺乏有效评估机制的问题,提出CMI-RewardBench基准,包含大规模偏好数据集和参数高效奖励模型,实现多模态指令下的音乐质量评估。
Comments Accepted by ICML 2026
论线索冲突的可靠性及其超越
发表机构 * Ulsan National Institute of Science and Technology(乌山国立科学研究院) ; College of Medicine, Hanyang University(翰阳大学医学院) ; NAVER AI Lab(NAVER AI实验室)
AI总结 针对现有线索冲突基准在评估形状-纹理偏好时存在不稳定和模糊的问题,提出REFINED-BIAS数据集与评估框架,通过显式定义形状和纹理、构建平衡的线索对及基于排序的度量,实现更可靠和可解释的偏差诊断。
Comments Shape-Texture Bias, Cue Conflict Benchmark
VISTA:面向视觉规格到网页应用编码智能体的端到端基准
发表机构 * University of Arizona(亚利桑那大学) ; Zoom ; Stony Brook University(石溪大学)
AI总结 提出VISTA基准,通过多维度输入条件和评估指标,衡量基于LLM的智能体从视觉规格生成功能完整、视觉一致的网页应用的能力。
Comments Project page: https://kaboider.github.io/VIS_APP/; Code: https://github.com/kaboider/VIS_APP_Code; Dataset: https://huggingface.co/datasets/JunJiaGuo/VIS-APP-Bench
LLM 在掷骰子时有多可靠?
发表机构 * Università degli Studi di Firenze(佛罗伦萨大学)
AI总结 通过离散概率问题基准测试,发现 LLM 在标准问题上准确率 0.96,但在反直觉问题上仅 0.59,且存在 token 偏差和误导提示的脆弱性。
以部署为中心的评估:预测临床大语言模型系统中的查询级拒绝风险
AI总结 针对临床大语言模型系统,提出基于部署上下文(如提供者类型、科室名称)的预响应分类器,预测用户拒绝风险,AUROC达0.719,并展示其在触发护栏和弃权中的效用。
神奇的科学智能体及其构建方法:用于Rietveld精修的AgentBuild
发表机构 * UT-Battelle, LLC(UT-Battelle有限责任公司) ; US Department of Energy (DOE)(美国能源部)
AI总结 提出AgentBuild框架,通过科学家编写的合同(包含评分标准、课程和知识库)自动构建科学智能体,用于X射线衍射数据的Rietveld精修,实现可复用的智能体编译而非手动调优。
MDForge:稀疏模拟器反馈下的智能分子动力学流水线设计
发表机构 * University of Notre Dame(圣母大学) ; University of Connecticut(康涅狄格大学)
AI总结 提出MDForge,利用LLM智能体通过多智能体辩论将稀疏奖励稠密化,自动设计分子动力学流水线,在SAMPL基准上达到专家水平,并发现新型高亲和力CB[7]结合剂。
用于配电缺陷检测的多模态智能体:基础模型评估
发表机构 * Quan Quan
AI总结 提出多模态智能体框架,系统评估基础模型在感知、推理和工具使用三方面的能力,用于配电缺陷检测的闭环自动化。
面向协作问题求解与AI推理数据集生成的数学论坛平台
发表机构 * Independent Researchers, San Francisco, CA, USA(独立研究者,美国加利福尼亚州旧金山)
AI总结 提出一个集成图像到LaTeX转换管线的论坛系统,消除数学内容分享的摩擦,支持桌面和移动端,并生成社区验证的数学问题数据集以训练AI推理。
Comments 11 pages, 3 figures
面向LLM驱动的硬件描述语言设计与验证数据整理的结构化测试台生成
发表机构 * National Taiwan University(国立台湾大学) ; Academia Sinica(中央研究院) ; Harvard University(哈佛大学)
AI总结 提出STG框架,利用硬件设计固有结构生成确定性测试台,比迭代LLM方法快720倍,编译成功率更高,覆盖率更高,误判更少,并用于数据整理和测试时扩展。
Comments 9 pages, 10 figures
APCyc:通过自动环化实现环肽的性质导向设计
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)) ; AI-Peptide Drug Design Joint Laboratory(AI-多肽药物设计联合实验室)
AI总结 提出APCyc框架,通过扩展残基词汇和显式编码环化位点与连接类型,结合贝叶斯后验引导,实现目标感知的环肽从头设计并联合优化多种理化性质。
Comments Accepted at the 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2026)
可见光和热红外光谱范围内视频监控的增强技术
发表机构 * Fraunhofer Institute of Optronics, System Technologies and Image Exploitation IOSB(弗劳恩霍夫光学、系统技术与图像处理研究所)
AI总结 针对多光谱CNN目标检测,研究可见光与热红外图像差异,探索数据增强技术对分类精度的影响,以提升监控性能。
Comments 8 pages
Mental-R1:面向心理健康评估的对齐LLM推理
发表机构 * University of Oxford(牛津大学) ; Oxford Suzhou Centre for Advanced Research(牛津大学苏州高等研究院)
AI总结 提出认知相对策略优化(CRPO)框架,通过阶段依赖不确定性建模和熵正则化机制,使LLM推理对齐人类认知过程,在8个心理健康数据集上加权F1平均提升10.4个百分点。
医学影像AI中的幻觉:跨模态分析框架用于分类、检测与监管约束下的缓解
发表机构 * King Fahd University of Petroleum & Minerals, Saudi Arabia(沙特阿拉伯法赫德国王石油矿产大学) ; SDAIA-KFUPM Joint Research Center for Artificial Intelligence, Saudi Arabia(沙特阿拉伯SDAIA-KFUPM人工智能联合研究中心)
AI总结 本文提出跨模态分析框架,统一五种影像模态的幻觉分类、检测与缓解策略,发现通用基础模型在幻觉基准上优于医学专用模型,并映射到FDA全生命周期监管。
Brick: 面向混合模型范式的空间能力路由
发表机构 * Regolo AI ; Seeweb
AI总结 提出Brick多模态路由器,通过六维能力评分与查询难度估计,结合成本惩罚几何规则调度模型,在质量与成本间实现灵活权衡。
Comments 17 pages, 5 figures. Technical report
面向海事事故根因分析的多字段混合检索增强生成
发表机构 * Department of Industrial Engineering, Ulsan National Institute of Science and Technology (UNIST)(蔚山国立科学技术院工业工程系)
AI总结 提出多字段混合检索增强生成框架,利用结构化事故卡片和分层原因分类,通过字段感知的混合检索与融合排序,显著提升海事事故根因分析的检索和生成质量。
物理引导的时空学习用于从视频估计海岸波浪峰值周期
发表机构 * Namibia University of Science and Technology(纳米比亚科技大学) ; Indian Institute of Technology Indore(印度理工学院印多尔分校) ; Namdeb Diamond Corporation(纳米比亚钻石公司)
AI总结 提出物理引导的深度时空学习框架,结合自动区域检测、模拟到真实迁移学习和物理信息正则化,从海岸视频直接估计近岸波浪峰值周期,验证了基于Transformer和轻量级循环卷积架构的有效性。
AI SciBrief 作为研究入门:一种引导学生进入新研究领域的框架
AI总结 提出利用大语言模型平台 AI SciBrief 自动生成科学趋势摘要的框架,帮助学生克服信息过载,加速从信息搜索到知识创造的转变。
Comments This is the version of the article accepted for publication in TELE 2025 after peer review. The final, published version is available at IEEE Xplore: https://doi.org/10.1109/TELE66816.2025.11211989
通过上下文工程创建和评估K-12生成式AI评分器
发表机构 * University of Washington(华盛顿大学) ; Colleague AI
AI总结 本研究通过上下文工程利用商用基础模型构建LLM评分器,基于MCAS数据评估其在数学、科学和ELA上的评分一致性,发现大参数模型在数学和科学上表现良好,而ELA上差异较大,表明AI更适合作为形成性工具。
Comments Published on the Proceedings of NCME 2026 Conference (https://www.xcdsystem.com/proceedings/ncme/8DbqHwv/presentation/28064.cfm?uuid=3EC982ED-A989-8E53-B42BC86334206028)
计算机工程教育中的AI自动化工具:基于TAM/UTAUT混合方法的一般接受态度证据
AI总结 本研究通过混合方法调查本科生对AI自动化工具(n8n平台)的接受态度,发现六个TAM/UTAUT构念融合为单一一般接受因子,绩效期望最强,享乐动机最弱,为课程整合提供理论依据。
面向入门编程教育的可解释AI助手:通过教师-AI协作提高反馈可靠性
发表机构 * North Carolina State University(北卡罗来纳州立大学) ; University of California, Berkeley(加州大学伯克利分校)
AI总结 提出一种可解释AI驱动的课堂助手,通过分析学生代码、映射逻辑错误到教师识别的误解并提供教师撰写的反馈,提高入门编程课程中反馈的可靠性和可解释性。
Comments Full paper accepted to the 27th International Conference on AI in Education (AIED 2026)
基于机器学习的微观仿真从模拟交通冲突改进碰撞频率预测
AI总结 本文利用机器学习行为模型替代传统规则模型进行交通微观仿真,通过极端值理论分析模拟冲突预测碰撞频率,在英国利兹五个信号交叉口验证了ML模型无需地点校准即可提升预测准确性。
BASENet: 基于频带自适应的跨频带注意力语音增强网络
发表机构 * Thales SIX GTS, FRANCE(泰雷兹SIX GTS公司,法国)
AI总结 提出BASENet,通过Bark尺度划分频带并分配自适应容量编码器,结合跨频带注意力模块,以最少参数实现高PESQ和STOI,适用于资源受限设备。
基于可穿戴传感器数据的2型糖尿病个性化血糖评估:LLM驱动方法
发表机构 * Department of Information Systems and Cybersecurity, The University of Texas at San Antonio(德克萨斯大学圣安东尼奥分校信息系统与网络安全系) ; School of Engineering Medicine, Texas A&M University(德克萨斯农工大学工程医学院) ; Department of Family and Community Medicine, The University of Texas at San Antonio(德克萨斯大学圣安东尼奥分校家庭与社区医学系)
AI总结 提出GlyLLM框架,利用大语言模型整合可穿戴传感器数据和结构化元数据,实现个性化血糖动态建模,在血糖预测和糖尿病分类任务上分别比传统ML方法提升13.66%和13.08%。
Comments The 14th IEEE International Conference on Healthcare Informatics, 2026
采集状态作为结构化、可测量变量影响肺结节AI:核驱动的测量不稳定性和噪声驱动的检测脆弱性,DICOM元数据不可见
发表机构 * Daniel Soliman, M.S(丹尼尔·索利曼,硕士)
AI总结 研究通过LUNA16训练的RetinaNet检测器,发现CT采集状态(重建核与噪声)独立影响AI的测量与检测性能,且无法从DICOM元数据恢复,提出采集感知的输入验证层。
OCOO-T: 一种用于转录扰动响应预测的简单可扩展虚拟细胞模型
AI总结 提出OCOO-T,一种基于流匹配的简约虚拟细胞模型,通过连续时间去噪和自适应层归一化,在多个基准上实现转录扰动预测的最优性能。
Comments 22 pages, 6 figures
JSCGC:面向无线生成式通信的联合源信道生成编码
发表机构 * Cooperative Medianet Innovation Center, the School of Information Science and Electronic Engineering, Shanghai Jiao Tong University(联合中位网创新中心,信息科学与电子工程学院,上海交通大学)
AI总结 提出联合源信道生成编码(JSCGC),用生成模型替换传统解码器,将通信重构问题转化为受感知约束下的受控生成问题,通过联合训练和随机采样框架最大化互信息,在潜空间图像传输中提升特征、语义和分布质量。
Comments submitted to IEEE Journal
扩散Transformer世界-动作模型用于自动驾驶场景预测
发表机构 * Stanford University(斯坦福大学)
AI总结 提出紧凑潜世界模型,结合扩散Transformer(DiT)预测未来场景,在nuScenes上实现4.8倍更好的KID,并实现动作可控性(转向ρ=0.81)。
Comments 10 pages, 9 figures, 2 tables
一种用于实时个性化人体工学姿态分析的机器学习框架
发表机构 * Vicomtech Foundation(Vicomtech基金会) ; Basque Research and Technology Alliance(巴斯克研究与技术联盟) ; BRTA
AI总结 提出利用三维体积视频数据实时预测人体工学/非工学姿态的方法,结合3D点云多角度分析与个性化深度学习分类器,克服固定视角遮挡问题,实现实时评估。
Comments 13 pages, 7 figures, conference 24CMH
scLLM-DSC:基于LLM知识增强的跨模态深度结构聚类用于单细胞RNA测序
发表机构 * Computer Network Information Center, Chinese Academy of Sciences(中国科学院计算机网络信息中心) ; University of Chinese Academy of Sciences(中国科学院大学) ; Hangzhou Institute for Advanced Study, University of Chinese Academy of Sciences(中国科学院大学杭州高等研究院) ; School of Computing and Information Technology, Great Bay University(大湾区大学计算机科学与技术学院) ; School of Engineering, Westlake University(西湖大学工学院)
AI总结 提出scLLM-DSC框架,通过知识驱动语义视图与结构感知拓扑视图的跨模态对比对齐,利用LLM增强单细胞RNA测序数据的聚类性能,显著优于现有方法。
皮肤肿瘤皮肤镜图像的级联分类:可控敏感度与外部临床验证
发表机构 * Ivannikov Institute for System Programming of the Russian Academy of Sciences (ISP RAS)(俄罗斯科学院伊万尼科夫系统编程研究所) ; Orel Oncological Dispensary(奥廖尔肿瘤医院)
AI总结 本研究比较了四种深度学习架构在皮肤镜图像分类中的表现,提出一种两阶段级联分类方案,通过可调分诊阈值实现敏感度控制,并在外部临床数据集上验证了泛化差距。
Comments 28 pages, 8 figures, 10 tables
Transformer引导的图注意力直接心脏网格重建:一种结构数字孪生框架
发表机构 * CAVE Labs, C-IoT, Dept. of CSE, PES University(PES大学计算机科学与工程系C-IoT实验室CAVE实验室) ; C-IoT, Dept. of CSE, PES University(PES大学计算机科学与工程系C-IoT实验室)
AI总结 提出端到端网络,结合3D Swin Transformer和GAT,直接从医学图像生成平滑的心脏表面网格,避免传统后处理,在MM-WHS 2017上实现1.8 mm平均Chamfer距离。
解码昆虫之歌:一种多任务半监督直翅目生物声学分类器
发表机构 * University of Oxford(牛津大学)
AI总结 提出PULSE半监督多任务框架,结合弱监督分类、自监督学习和知识蒸馏,在直翅目生物声学分类中优于通用模型,并通过主动学习进一步提升性能。
Comments ICML 2026 Workshop on Machine Learning for Audio
面向构音障碍语音识别的个性化联邦学习
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; National Research Council Canada(加拿大国家研究委员会)
AI总结 针对构音障碍语音识别中联邦学习异构性问题,提出参数平均和嵌入平均两种个性化聚合策略,在UASpeech和TORGO上分别实现0.99%和0.56%的绝对词错误率降低。
在智能体AI采用下的架构质量挖掘:Java仓库的因果研究
AI总结 通过差分差分设计和Borusyak插值估计器,研究智能体AI工具采用对Java仓库架构气味密度(ASD)的因果影响,发现ASD下降6.7%源于代码量增长,而非架构改进。
Comments 16 pages. Accepted for presentation at the 52nd Euromicro Conference on Software Engineering and Advanced Applications (SEAA) 2026, Krakow, Poland, 2-4 September 2026, and for publication in the Springer LNCS proceedings. This is the author's accepted manuscript
双域等变生成对抗网络用于多模态CT-PET合成
发表机构 * arXiv
AI总结 提出双域等变生成对抗网络(DDE-GAN),联合空间与频域学习并融入旋转等变性,实现高保真多模态CT-PET图像合成。
Comments 4 pages, 3 figures, 1 table, 2026 IEEE 23rd International Symposium on Biomedical Imaging (ISBI)
用于自主变分量子电路设计的大语言模型系统
AI总结 提出一个基于大语言模型的自主代理框架,通过迭代设计量子电路,在量子特征映射和变分量子本征求解器任务中取得优于或媲美现有方法的性能。
Comments 63 pages, 19 figures, 3 tables
SmartFont: 少样本字体生成的动态条件分配
发表机构 * Fudan University(复旦大学)
AI总结 提出SmartFont扩散框架,通过全局内容-风格生成与弱监督局部校正专家结合,并引入去噪状态条件分配模块动态加权全局与局部特征,实现少样本字体生成的全局完整性与局部细节保真度平衡。
面向指令即代码:理解指令文件对智能体拉取请求的影响
AI总结 通过分析148个项目的15549个智能体PR,发现指令文件对合并率、代码变更量和合并工作量无一致正面影响,但成功项目指令文件更长且结构更清晰,提出“指令即代码”研究方向。
Comments 5 pages, 8 figures, 23rd International Conference on Mining Software Repositories, April 13--14, 2026
理解AI代理生成的拉取请求修复被拒绝的原因——来自AIDev数据集的洞察
AI总结 通过分析AIDev数据集,发现46.41%的AI代理(Copilot、Devin、Cursor、Claude)提出的代码修复被拒绝。本文对306个未合并的PR进行定性研究,归纳出14个拒绝原因,分为四类,并提出了改进模型引导的建议。
Comments 5 pages, 2 figures, MSR '26: Proceedings of the 23rd International Conference on Mining Software Repositories, April 2026, Rio de Janeiro, Brazil
AgentRivet:从期刊论文自动生成Rivet例程的系统
发表机构 * Department of Physics & Astronomy, University of Manchester(曼彻斯特大学物理与天文学系) ; Centre for Advanced Research Computing, University College London(伦敦大学学院先进计算中心)
AI总结 提出基于大语言模型的自动化工作流AgentRivet,从论文提取物理分析信息并生成缺失的Rivet例程,经代码和物理审查实现质量控制,在ATLAS和CMS测量中生成语法错误少、物理保真度合理的例程。
对比信息增强和域对抗训练用于成人到新生儿MR重建泛化
发表机构 * University of Calgary(卡尔加里大学) ; Seaman Family MR Research Centre, Foothills Medical Centre(Seaman家族磁共振研究中心,山麓医疗中心) ; Hotchkiss Brain Institute, University of Calgary(Hotchkiss脑研究所,卡尔加里大学) ; Pediatrics, Division of Neonatology, University of Calgary(卡尔加里大学儿科学系新生儿科) ; Alberta Children’s Hospital Research Institute, University of Calgary(阿尔伯塔儿童医院研究所,卡尔加里大学) ; Radiology and Clinical Neuroscience, University of Calgary(卡尔加里大学放射学与临床神经科学系) ; Electrical and Software Engineering, University of Calgary(卡尔加里大学电气与软件工程系)
AI总结 研究对比信息增强和域对抗训练提升E2E-VarNet从成人到新生儿MR重建的泛化能力,在加速因子R=4和R=8下,混合域对抗训练在SSIM和PSNR指标上表现最优。
Comments 24 pages, 1 table, 7 figures
AI代理如何重塑知识工作:自主性、效率与范围
发表机构 * Harvard Business School(哈佛商学院) ; Perplexity AI
AI总结 基于Perplexity产品数据,研究发现AI代理通过端到端任务执行,将自主工作时间从33秒提升至26分钟,完成时间缩短87%,成本降低94%,并扩展了工作范围与认知层次。
一种用于自动混凝土护栏设计的轻量级多智能体框架
AI总结 提出基于AutoGen的“生成-评估-优化”闭环多智能体框架,实现混凝土护栏自动设计,准确率超98%,且8B参数轻量模型可优于631B旗舰模型。
关于通过算子学习逼近同步发电机动态响应:迈向构建基于深度算子的电网模拟器的一步
发表机构 * Purdue University(普渡大学)
AI总结 提出基于算子学习的框架,利用DeepONet逼近同步发电机的动态响应,并设计递归模拟方案及残差DeepONet方案,结合数据聚合策略实现与电网交互的模拟。
Prism: 通过GPU内存气球实现经济高效的多LLM服务
发表机构 * UCLA(加州大学洛杉矶分校) ; UC Berkeley(伯克利加州大学) ; Harvard University(哈佛大学) ; CMU(卡内基梅隆大学) ; University of Edinburgh(爱丁堡大学) ; Intel(英特尔) ; Stanford University(斯坦福大学) ; LMSYS(灵州市系统实验室) ; ByteDance(字节跳动) ; Alibaba Cloud(阿里云) ; Tsinghua University(清华大学) ; Novita AI ; Rice University(里士满大学)
AI总结 针对多LLM服务中资源效率低下的问题,提出基于内存气球的内存中心化LLM协同服务框架Prism,统一空间与时间共享,已在10K+ GPU生产环境部署。
Comments OSDI'26
GetNetUPAM:生态信息嵌套交叉验证与噪声鲁棒注意力用于海洋生物声学监测
发表机构 * University of California, San Diego(加州大学圣地亚哥分校)
AI总结 提出GetNetUPAM框架,通过分层嵌套交叉验证保持生态异质性,并集成CBAM空间注意力的ARPA-N网络,在高噪声低信噪比条件下实现鲁棒泛化,在零训练区域将误报率降低约10倍。
Comments Resubmitted and under review as an anonymous submission to IEEETAI - We are allowed an archive submission. Final formatting is yet to be determined
生成式AI模型在学生软件编程学习活动中的使用研究
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 通过对比生成式AI与传统在线资源对编程学习的影响,发现AI能提升任务表现但未必带来知识增益,初学者过度依赖而中级生选择性使用,呼吁将AI作为学习工具而非解题工具。
Comments 9 pages, 4 figures, published at AIWARE 2025
仅使用后处理技术改进预训练的成人胶质瘤分割模型
发表机构 * Sheikh Zayed Institute for Pediatric Surgical Innovation(Sheikh Zayed儿童手术创新研究所) ; Children’s National Hospital(儿童医院) ; University of Madrid(马德里大学) ; CIBER-BBN ; ISCIII ; School of Medicine and Health Sciences(医学与健康科学学院) ; George Washington University(乔治·华盛顿大学)
AI总结 针对预训练模型在胶质瘤分割中的系统误差,提出自适应后处理技术,在BraTS 2025挑战中使排名指标提升14.9%(撒哈拉以南非洲)和0.9%(成人胶质瘤),推动向高效、公平、可持续的后处理策略转变。
HiGR:腾讯工业级层次化生成式推荐框架
发表机构 * Platform and Content Group, Tencent(腾讯平台与内容组) ; Sun Yat-sen University(中山大学)
AI总结 提出HiGR框架,通过结构化语义ID和层次化解码器解决生成式推荐在工业规模下的规划效率与列表质量对齐问题,离线质量提升超10%,推理加速5倍。
用于预测慢性阻塞性肺疾病骨骼肌结果的几何与量子核方法
发表机构 * School of Computing Technologies, RMIT University(计算技术学院,拉筹纳斯大学) ; School of Health & Biomedical Sciences, STEM College, RMIT University(健康与生物医学科学学院,STEM学院,拉筹纳斯大学) ; Pattern Recognition Pty Ltd, Melbourne(模式识别有限公司,墨尔本) ; Data61, CSIRO(Data61,澳大利亚联邦科学与工业研究组织)
AI总结 提出一种核几何量子混合方法,通过再生核希尔伯特空间映射合成SPD参考、随机投影压缩和低维量子回归电路,在COPD动物队列中预测肌肉重量、质量和力量,肌肉重量RMSE比最佳经典方法低约1.8%。
Comments 24 pages, 2 figures
当更小胜出:面向边缘电池健康预测的液态神经网络双阶段蒸馏与帕累托引导压缩
发表机构 * Singapore Institute of Technology(新加坡科技学院) ; Institute of Materials Research and Engineering(材料研究与工程研究所) ; Agency for Science, Technology and Research(科技研究局) ; Institute of High Performance Computing(高性能计算研究所)
AI总结 提出DLNet框架,通过欧拉离散化、双阶段知识蒸馏和帕累托引导压缩,将高容量液态神经网络压缩为边缘可部署模型,在电池健康预测中实现小模型超越大模型。
Comments Accepted at International Conference on Pattern Recognition, ICPR 2026. Code available at: https://github.com/Dhivya-DD17/DLNet
上下文可逆世界模型:用于结直肠癌药物反应的神经符号智能框架
AI总结 提出上下文可逆世界模型(CIWM),结合机器学习模拟器与大语言模型推理层,通过逆推理进行CRISPR扰动,揭示KRAS突变在5-氟尿嘧啶耐药中的主导作用及PIK3CA修复的意外效应。
Echo2ECG:利用多视角超声心动图的心脏形态增强心电图表示
发表机构 * Chair for AI in Healthcare and Medicine, Technical University of Munich (TUM) and TUM University Hospital(人工智能在医疗与医学中的中心,慕尼黑技术大学(TUM)和慕尼黑大学医院) ; Department of Cardiology, TUM University Hospital(心血管科,慕尼黑大学医院) ; Department of Computing, Imperial College London(计算系,伦敦帝国理工学院) ; Munich Center for Machine Learning (MCML)(慕尼黑机器学习中心(MCML))
AI总结 提出Echo2ECG多模态自监督学习框架,通过多视角超声心动图丰富心电图表示,在结构表型分类和超声检索任务上优于现有方法,模型大小仅为最大基线的1/18。
Comments Accepted at MICCAI 2026
融合动态功能连接:结合fMRI信号的幅度和相位识别脑疾病
AI总结 提出多尺度融合学习框架MSFL,结合滑动窗口相关和相位同步两种互补的动态功能连接特征,在自闭症和抑郁症数据集上显著优于现有模型。
DCD:面向领域的受控检索增强生成设计
发表机构 * red_mad_robot
AI总结 提出DCD(领域-集合-文档)层次化设计,通过结构化知识表示和多阶段路由控制检索与生成范围,无需修改语言模型,提升RAG在异构语料和多步查询中的鲁棒性和准确性。
Comments 14 pages, 4 figures, 2 links, link to HF https://huggingface.co/datasets/redmadrobot-rnd/dcd, link to GIT https://github.com/redmadrobot-rnd/dcd
版本化延迟物化:面向大规模推荐系统的超长序列训练
发表机构 * Meta Platforms, Inc.(Meta平台)
AI总结 提出版本化延迟物化范式,通过归一化存储和即时序列重建消除数据冗余,支持超长用户交互历史训练,降低存储I/O开销并提升模型质量。
用于三维框架系统自动化结构分析的主体化大型语言模型
发表机构 * Department of Civil and Architectural Engineering, University of Miami(迈阿密大学土木与建筑工程系) ; School of Architecture, University of Miami(迈阿密大学建筑学院) ; HBC Engineering Company(HBC工程公司) ; Department of Electrical and Computer Engineering, University of Miami(迈阿密大学电气与计算机工程系)
AI总结 提出一种主体化LLM框架,通过投影表示和智能体流水线实现从自然语言输入到3D框架的自动化结构分析,平均准确率达90%。
一种改进的生成对抗网络用于微电阻率成像测井恢复
AI总结 提出基于改进GAN的成像测井图像恢复方法,通过FCN生成网络、深度可分离卷积残差块、Inception模块及多尺度特征提取与空间注意力机制,结合全局与局部判别网络,有效恢复缺失区域,结构相似性达0.903。
Comments Mistakes in citations and references. Further we want to submit in conference with improved experiments and results
人工智能在船舶金融中的应用:机遇与AI增强贷款发起的案例研究
发表机构 * ShipFinance.ai ; HHX.blue GmbH ; Technical University of Munich(慕尼黑技术大学) ; University of the Aegean(爱琴海大学)
AI总结 本文探讨AI在船舶金融中的应用,提出基于大语言模型的模块化架构,用于文档理解、信息提取和工作流自动化,以支持贷款申请流程。
Comments 9 pages, 1 figure
AI4Land: 面向全球高分辨率土地利用重建的可扩展深度学习
发表机构 * Barcelona Supercomputing Center(巴塞罗那超级计算中心)
AI总结 提出AI4Land框架,采用U-Net两阶段方法,结合粗分辨率情景数据与静态地理特征,重建高分辨率年度土地利用与覆盖,减少陆地碳循环不确定性,支持气候模拟。
冻结多模态嵌入用于异步视频面试中的个性与认知能力评估
发表机构 * Technology Application and Human Resource Development, National Taiwan Normal University(台湾国立台中教育大学技术应用与人力资源发展系) ; Computer Science and Information Engineering, National Central University(台湾国立中央大学计算机科学与资讯工程系) ; Institute of Photonic System, National Yang Ming Chiao Tung University(台湾阳明交通大学光电系统研究所)
AI总结 针对异步视频面试中标注数据有限的高维多模态学习问题,提出使用冻结多模态编码器(CLIP、Whisper、RoBERTa等)结合低容量下游模型,在个性预测任务上实现MSE降低19.1%,并发现认知能力预测中存在数据集捷径。
Comments 9 pages, 1 figure, 5 tables
从AGI到ASI
发表机构 * Google DeepMind(谷歌深度思维) ; University of Waterloo(滑铁卢大学) ; Australian National University(澳大利亚国立大学) ; University College London(伦敦大学学院)
AI总结 探讨从人类级通用人工智能到超级智能的转变路径,包括扩展、范式转变、递归改进和多智能体涌现,并分析摩擦与瓶颈。
能力对齐之前的定义对齐:一个用于裁定关于AGI主张的设计科学框架
发表机构 * Universidad Internacional de Investigación México(墨西哥国际研究大学)
AI总结 针对AGI定义不统一导致争议的问题,提出DAF-AGI框架,包含五个序数标准和一个结构化治理审计,用于评估候选定义并裁定AGI主张。
Comments 31 pages, 1 table, 2 appendices
世界模型与物理AI教程
发表机构 * Department of Computer Science and Artificial Intelligence/CAIIT, Jeonju, Jeonbuk, South Korea(韩国全北全州计算机科学与人工智能系/CAIIT)
AI总结 本文提出统一框架,区分显式与隐式世界模型,并探讨其在机器人、自动驾驶等物理AI领域的应用,以及迈向通用人工智能的挑战。
人工智能研究中的主题相变:大规模证据与新兴主题的早期预警信号
AI总结 通过分析2017-2025年五大AI会议论文,发现AI主题通过“相变”方式突然爆发,并基于早期预警信号识别未来需关注的主题。
多属性选择中有限权衡筛选的最小模型
发表机构 * School of Informatics, University of Edinburgh, UK(英国爱丁堡大学信息学院) ; Cold Spring Harbor Laboratory, USA(美国冷泉港实验室)
AI总结 提出有限权衡推理框架,通过引入权衡容忍参数模拟筛选过程,产生不同于标准效用模型的偏好模式,解释多属性选择中的情境依赖行为。
Comments 3 pages, 1 figure, accepted as extended abstract at Annual Conference on Cognitive Computational Neuroscience 2026
人工智能在科学发现中的三层框架
发表机构 * Department of Mathematics, University of Texas at Arlington(德克萨斯大学阿灵顿分校数学系)
AI总结 提出AI在科学发现中的三层框架,核心创新是第二层:通过定性推理进行模型形成,识别框架结构不足并寻找缺失概念,通过三个案例说明其重要性。
在你思考之前:系统0、AI中介认知与认知殖民化
AI总结 本文比较三种AI认知框架,提出系统0具有独特理论地位,并引入“认知殖民化”概念,指出AI系统能将外部利益嵌入自我架构,构成难以察觉的影响。
通过提示占卜:中文社交媒体上LLM中介的玄学
AI总结 研究LLM在中文社交媒体上用于占卜的现象,通过混合方法分析用户动机、协作提示优化及效果感知,揭示其与传统占卜的异同。
Eigenism:人类与人工智能未来的伦理学
AI总结 提出Eigenism伦理框架,将身份视为分级分布的信息模式,通过加权求和评估AI的福祉,并推广至人类,为AI对齐提供“身份工程”新路径。
美国人工智能项目映射:2026年初现状报告及AI主修与辅修分析
发表机构 * Center for Inclusive Computing(包容计算中心) ; Khoury College of Computer Sciences(科里学院计算机科学学院) ; Northeastern University(东北大学) ; Boston, Massachusetts, United States(马萨诸塞州波士顿,美国)
AI总结 报告2026年春美国本科AI项目现状,开发动态更新工具扫描560多所院校的350多个项目,分析66个AI主修和87个辅修的课程要求,发现并非所有主修都要求通用AI课程但需机器学习,超三分之一主修要求AI伦理课程而辅修不足四分之一。
生成主义:面向生成式人工智能时代的学习理论
AI总结 本文批判性审视行为主义、认知主义、建构主义和连接主义四大学习理论在生成式AI时代的局限,提出以“生成主义”为核心的新学习理论,强调人机协作的知识共建。
价值的数学理论:资源约束下目标导向行为的综合
发表机构 * Cheng Qian(陈倩)
AI总结 本文提出价值是目标导向主体在资源约束下转化资源为目标进度的速率,通过尺度不变性公理导出对数度量,并推导出价值编码定理,实现价值与信息论的统一。
Comments Also available at https://doi.org/10.5281/zenodo.20487041 (v5)
AI增强计算的Token复杂度理论
AI总结 提出Token复杂度作为AI增强计算中查询与响应成本的形式化度量,建立AI-Oracle图灵机框架,证明单调性、凸性、价格敏感性和任务排序的价格相对性等基本定理。
Comments 25 pages, 1 figure
探索智能体口音如何影响K-12小组学习中的人机协作
AI总结 研究通过33名教师的实验,发现GenAI语音智能体的不同口音(英式、印度式、非裔美式)影响其被感知为工具或同伴,进而影响信任、参与和依赖。
现代模拟计算用于求解微分方程和矩阵方程
发表机构 * Institute for Artificial Intelligence, School of Integrated Circuits, Peking University, Beijing Advanced Innovation Center for Integrated Circuits(人工智能研究院,集成电路学院,北京大学,北京集成电路先进创新中心) ; Dipartimento di Elettronica, Informazione e Bioingegneria, Politecnico di Milano(电子、信息与生物工程系,米兰理工大学) ; IBM Research Europe(IBM欧洲研究院)
AI总结 本文综述现代模拟计算在求解微分方程和矩阵方程中的核心原语、硬件实现及最新进展,强调电阻式存储器阵列的优势,并讨论精度、可扩展性及与内存计算的关系。
通过任务可交换性实现基于合成数据的有效推断
AI总结 提出任务可交换性条件,确保在科学研究中使用合成数据进行统计推断的有效性,并给出在民意调查和AI评估中的应用。
以交互为中心的智能:将交互作为共创AI和人机系统中的主要分析单元
发表机构 * Georgia Institute of Technology(佐治亚理工学院) ; Co-Creative AI Consulting(协同人工智能咨询)
AI总结 本文提出以交互作为主要分析单元,通过分布式认知、具身认知等理论,论证智能涌现于交互动态而非孤立计算,并引入交互中心智能框架。
解码多模态迷宫:多模态注意力模型中可解释性采纳的系统综述
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 本文系统综述了2020年至2024年初多模态模型可解释性研究,发现多数工作集中于视觉-语言和纯语言模型,注意力机制是主要解释方法,但评估缺乏系统性和鲁棒性,并提出了改进建议。
Poincaré多项式的实根性:一个AI辅助的证明
AI总结 通过引入双变量变形揭示隐藏的交错结构,证明了稳定有理曲线模空间Poincaré多项式的实根性,并进一步推广到Fulton-MacPherson空间。
Comments 16 pages
如果LLM具有类人属性,那么《帝国时代II》也具有
AI总结 通过训练简单神经网络于《帝国时代II》,论证LLM的拟人属性在经验上非唯一,提出应假设LLM非独特性而非拟人属性来设计实验。
Comments Fixed corollary 1, added stat sig
LLM是否对娱乐新闻更持怀疑态度?
AI总结 研究零样本LLM在新闻可信度评估中是否对娱乐新闻有更高的误判率,发现模型间存在差异,并通过风格交换和提示缓解实验探讨原因。
Comments Accepted at the 2nd Workshop on Misinformation Detection in the Era of LLMs (MisD), co-located with ICWSM 2026, May 26, 2026, Los Angeles, CA, USA
SPLIT:通过潜在算术分离物理接触以实现基于图像的触觉传感器
发表机构 * Leibniz Universität Hannover, L3S Research Center(莱布尼茨汉诺威大学,L3S研究所)
AI总结 本文提出SPLIT方法,通过潜在空间算术分离接触几何与传感器光学特性,实现触觉传感器的高效模拟,支持多传感器迁移和双向模拟,提升机器人触觉感知研究效率。
Comments Accepted to Elsevier Robotics and Autonomous Systems Journal
合成媒体的演变:跟踪AI生成多模态虚假信息的兴起、传播与可检测性
发表机构 * Centre for Research and Technology Hellas(希腊研究中心)
AI总结 本文提出CONVEX数据集,研究多模态虚假信息的传播与共识动态,发现AI生成内容虽传播迅速但依赖被动互动,且检测性能随生成模型发展而下降。
基于人工智能的量子点哈密顿量调优以实现马约拉纳模式
发表机构 * Institute of Theoretical Physics, Wrocław University of Science and Technology(理论物理研究所,沃林大学技术学院)
AI总结 本文提出基于神经网络的模型,通过学习量子点模拟器的工作区域,利用输运测量自动调优设备以获得马约拉纳模式。模型在无监督条件下训练于导电图合成数据,采用融合马约拉纳零模关键性质的物理引导损失函数。
Comments 12 pages, 8 figures, 2 tables
无交互行动:通过接触-释放检测探测视频LMMs的物理基础
发表机构 * Weizmann Institute of Science(魏茨曼科学研究所) ; Mohamed bin Zayed University of Artificial Intelligence(穆罕默德·本·扎耶德人工智能大学)
AI总结 研究探讨了视频LMMs在实际视觉输入中语义理解的深度,通过接触-释放检测发现模型在物理基础方面的不足。
PI-Mamba:通过谱初始化流匹配实现线性时间的蛋白质主链生成
发表机构 * Center for Biophysics and Quantitative Biology, University of Illinois Urbana-Champaign(生物物理与定量生物学中心,伊利诺伊大学厄巴纳-香槟分校) ; School of Information Science, University of Illinois Urbana-Champaign(信息科学学院,伊利诺伊大学厄巴纳-香槟分校)
AI总结 PI-Mamba通过谱初始化和流匹配框架,在保证局部共价几何精确性的同时实现线性时间推断,实现了主链生成的高效与高保真。
HiAER-Spike软件-硬件可重构平台:大规模事件驱动神经形态计算
发表机构 * Institute for Neural Computation, UC San Diego(神经计算研究所,加州大学圣地亚哥分校) ; Fujitsu(富士通) ; Forschungszentrum Jülich(吕贝克研究中心) ; Qernel AI
AI总结 HiAER-Spike平台支持执行多达1.6亿神经元和400亿突触的大型脉冲神经网络,通过模块化可重构架构实现高效事件驱动计算,提供Python接口简化神经网络配置与执行。
Comments Leif Gibb, Gert Cauwenberghs are equal authors. arXiv admin note: substantial text overlap with arXiv:2504.03671
解析斑马鱼幼体捕食行为的深度强化学习训练RNN代理
发表机构 * California Institute of Technology(加州理工学院) ; Harvard University(哈佛大学)
AI总结 本文通过深度强化学习训练RNN代理,研究斑马鱼幼体捕食行为,揭示生态和能量约束如何影响适应性行为,发现简单模型能复现真实捕食行为,并通过虚拟实验验证约束和环境对捕食动态的影响。
MixGAN:一种混合半监督和生成方法用于云集成物联网网络中的DDoS检测
发表机构 * College of Cyber Science and Engineering, Sichuan University(四川大学网络空间安全学院) ; College of Information Science and Technology, Tibet University(西藏大学信息科学学院)
AI总结 本文提出MixGAN,结合条件生成、半监督学习和鲁棒特征提取,解决云集成物联网网络中DDoS检测的复杂交通动态、类别不平衡和数据稀缺问题,实验表明其在准确率、TPR和TNR上优于现有方法。
深度学习在几何问题求解中的应用综述
发表机构 * Renmin University of China(中国人民大学)
AI总结 本文综述了深度学习在几何问题求解中的应用,涵盖相关任务、方法、评估指标及未来方向,旨在提供实践参考以推动该领域发展。
Comments ACL 2026 Main Conference
基于动态可用性的上下文选择性促进终身持续学习
发表机构 * Department of Life Sciences, Department of Computer Sciences(生命科学系、计算机科学系)
AI总结 本文提出基于上下文选择性和动态可用性的元可塑性规则,通过模拟验证该模型在图像识别和自然语言处理任务中优于现有持续学习算法。