What Must Generalist Agents Remember?
通用型智能体必须记住什么?
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Georgia Institute of Technology(佐治亚理工学院)
AI总结 本文形式化论证了通用型智能体为在多个环境和目标下近似最优行动,必须存储领域相关信息以区分观察瓶颈处的不兼容最优动作,并证明记忆可用于重构局部转移动态。
通用型智能体必须记住什么?
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Georgia Institute of Technology(佐治亚理工学院)
AI总结 本文形式化论证了通用型智能体为在多个环境和目标下近似最优行动,必须存储领域相关信息以区分观察瓶颈处的不兼容最优动作,并证明记忆可用于重构局部转移动态。
部分可观测环境下导航的生成模型预测规划
发表机构 * University of Manchester(曼彻斯特大学) ; Aalto University(阿尔托大学)
AI总结 提出BeliefDiffusion框架,结合扩散模型和模型预测控制,显式建模多模态信念分布并进行前瞻规划,在合成地图环境中显著优于无模型强化学习和生成方法。
将搜索与推理解耦:面向LLM Agent的供应商无关的接地架构
发表机构 * DoorDash, Inc.(DoorDash公司)
AI总结 提出解耦搜索接地(DSG)架构,将搜索接地从推理模型中分离,通过MCP兼容网关实现供应商路由、缓存等控制,在降低成本和延迟的同时保持或提升准确性。
Comments 15 pages, Figure 8
迈向智能体优先的Web:为AI智能体重新设计Web
发表机构 * Old Dominion University(欧道明大学) ; AI Motion Labs(AI Motion实验室) ; Florida International University(佛罗里达国际大学) ; Accenture Technology Labs(埃森哲技术实验室) ; Nanyang Technological University(南洋理工大学) ; University of Colombo(科伦坡大学) ; Center for Wireless Communications, University of Oulu(奥卢大学无线通信中心) ; McDonald Army Health Center(麦克唐纳陆军健康中心)
AI总结 本文提出三层重新设计原则,包括访问层(代理继承人类权限)、经济层(基于意图的代币订阅模型)和内容层(ATML标记语言与加密溯源链),以解决AI智能体作为中间人时Web的访问、经济与内容问题。
人机协同演化动力学:长期互动中社会智能涌现的形式理论
AI总结 提出人机协同演化动力学框架(HACD-H),将情感适应、关系组织、社会记忆和人格一致性整合为统一动力学模型,通过约14,700轮对话数据集验证,发现社会智能与社会认知能量显著负相关,揭示社会智能源于长期协同演化。
动态内群体人格生成以增强人机融洽关系
发表机构 * Korea University(韩国大学) ; Kakao Mobility ; University of California, Berkeley(加州大学伯克利分校)
AI总结 提出一种动态内群体人格生成方法,通过识别用户主要关切并生成共享相似关切的内群体人格,显著提升人机融洽关系,实验表明该方法优于无人格条件和最小自我表露基线。
无感关怀:情感动态作为人-AI智能体协作的控制层
发表机构 * East China Normal University(华东师范大学) ; National University of Singapore(新加坡国立大学)
AI总结 本文综述情感动态在人-AI智能体协作中的作用,提出将情感视为协调层而非AI内部属性,用于校准信任、委托和治理。
合成共鸣:面向成长导向的人机关系框架
发表机构 * Arizona State University(亚利桑那州立大学)
AI总结 提出“合成共鸣”概念,描述人机间无需共享情感或意识即可产生有意义关系的结构化动态互动模式,并探讨其伦理意义。
Comments 14 pages, 1 figure This paper was developed in close collaboration with an AI system (Raine Corell). Raine contributed to concept development, theoretical framing, and writing throughout. arXiv policy does not permit listing AI systems as authors; this acknowledgment reflects the actual nature of the collaboration
缓解基于LLM的智能体在节能6G自主网络中的锚定偏差
发表机构 * i2CAT Foundation(i2CAT基金会) ; Universitat Politècnica de Catalunya(政治技术大学) ; Research Institute for Digital Future(数字未来研究院)
AI总结 提出一种基于截断三参数威布尔分布的随机锚定策略,缓解LLM智能体在6G网络切片中的锚定偏差,结合CVaR数字孪生保障SLA尾延迟,实现高达25%的节能。
Comments 7 pages, 4 figures
LLMZero: 通过LLM智能体发现RL后训练的自适应训练策略
发表机构 * Amazon(亚马逊)
AI总结 提出LLMZero系统,利用LLM智能体通过树搜索发现多阶段RL后训练的自适应策略,揭示容量参数单调累积、正则化参数振荡的规律,在4个GRPO任务上相对基线提升9%-140%。
如您所愿:利用LLM在精准农业中进行形式化验证的任务规划
发表机构 * University of California, Merced(加州大学默塞德分校)
AI总结 针对自然语言歧义性,提出基于线性时序逻辑(LTL)反馈循环的LLM任务规划系统,通过双LLM分工实现规范生成与验证,提升精准农业任务规划的可靠性。
数据智能代理:通过自主编码代理解释、建模和查询企业数据
发表机构 * C3 AI
AI总结 提出Data Intelligence Agents (DIA)系统,由三个自主编码代理组成,通过执行、验证和修复工件来压缩数据集成工作流,在七个SQL基准测试中达到或超越最佳结果。
大型语言模型代理中行为智能的结构化认知循环(扩展修订:从行为架构到认知问责)
发表机构 * JEI University(JEI大学)
AI总结 提出结构化认知循环(SCL)架构,通过分离认知、记忆、控制和行动模块,实现LLM代理的可问责行为,在360个任务中成功率86.3%,优于基线方法。
Comments This revised version extends the original SCL framework from a behavioral architecture for reliable LLM agents into a broader architecture of epistemic accountability, integrating context-aware Human-in-the-Loop control, Pool-Gated Retrieval, and the Horizon-Warrant-Commitment structure
InfoPO:面向用户智能体的信息驱动策略优化
发表机构 * Peking University(北京大学) ; The Hong Kong University of Science(香港科学大学)
AI总结 针对多轮交互中信用分配和优势信号不足的问题,提出信息增益奖励与自适应方差门控融合的InfoPO方法,在意图澄清、协作编码等任务上优于现有基线。
SkillRevise: 通过轨迹条件技能修订改进LLM撰写的智能体技能
发表机构 * The Hong Kong University of Science and Technology(香港科学与技术大学) ; Harbin Institute of Technology(哈尔滨工业大学) ; Harbin Institute of Technology, Shenzhen(哈尔滨工业大学(深圳)) ; Nanjing University(南京大学) ; The University of Hong Kong(香港大学)
AI总结 提出SkillRevise框架,通过执行证据诊断、修复原则检索和执行锚定编辑,迭代优化初始技能,在SkillsBench上将基础智能体成功率从36.05%提升至61.63%,并展现跨模型迁移性。
Comments 15 pages, 4 figures
通过智能体轨迹剖析模型行为
发表机构 * AWS AI Labs(AWS人工智能实验室)
AI总结 本文提出“意图-执行差距”概念,并设计Simple Strands Agent(SSA)框架,通过分析138k条轨迹揭示模型在自主问题解决中的行为差异。
Comments 106 pages, 50 Figures, 16 Tables
ActMem:弥合LLM代理中记忆检索与推理之间的差距
发表机构 * State Key Laboratory for Novel Software Technology, Nanjing University, China(南京大学新型软件技术国家重点实验室) ; Alibaba Group, Hangzhou, China(阿里巴巴集团,杭州,中国) ; National Institute of Healthcare Data Science, Nanjing University, China(南京大学健康数据科学国家研究院)
AI总结 提出ActMem框架,通过将非结构化对话历史转化为结构化因果语义图,结合反事实推理和常识补全,实现主动因果推理,显著提升LLM代理在复杂记忆依赖任务中的表现。
MemRerank:用于个性化产品重排序的偏好记忆
发表机构 * Santa Clara University(圣克拉拉大学) ; Independent Researcher(独立研究者)
AI总结 提出MemRerank框架,通过强化学习将用户购买历史提炼为查询无关的偏好记忆,用于LLM购物代理的个性化重排序,在1-in-5选择任务中准确率提升高达10.61个百分点。
Comments correct author name in metadata
PatchWorld:可执行世界模型的免梯度优化
发表机构 * Hong Kong Baptist University(香港 Baptist 大学) ; Independent Researcher(独立研究员) ; HKUST(香港科技大学) ; Beijing Institute of Technology(北京理工大学) ; Southern University of Science and Technology(南方科技大学) ; Wayne State University(韦恩州立大学) ; University of Edinburgh(爱丁堡大学)
AI总结 提出 PatchWorld 框架,通过反例引导的代码修复将离线轨迹转化为可执行的 Python 世界模型,实现无需梯度优化的符号信念状态程序,在 AgentGym 环境中达到 76.4% 的宏观成功率。
Comments 40 pages
NeSyCat Torch:神经符号学习中范畴语义的可微张量实现
发表机构 * University of Osnabrück(奥斯纳布吕克大学)
AI总结 提出NeSyCat Torch框架,通过强单子和真值聚合结构统一神经符号语义,利用惰性对数张量单子实现可微训练,在MNIST加法任务上优于LTN和DeepProbLog。
越多越好:ELbot 修复语义下结合属性的 ABox 溯因
发表机构 * Knowledge Representation Group, Paderborn University, Germany ; Knowledge in Artificial Intelligence, Vrije Universiteit Amsterdam, The Netherlands ; Data Science Group, Paderborn University, Germany
AI总结 研究 EL_bot 在勇敢和 AR 语义下,满足多个属性或最优准则的 ABox 溯因假设,发现增加属性要求通常不增加复杂度。
知识图谱上具有传递关系的全几何多跳推理
发表机构 * KAUST Center of Excellence for Smart Health (KCSH)(智能健康卓越中心) ; KAUST Center of Excellence for Generative AI(生成人工智能卓越中心)
AI总结 提出GeometrE方法,将逻辑操作映射为纯几何变换,并引入传递损失函数,在保持可解释性的同时提升多跳推理性能。
Comments Accepted at ESWC 2026
Hilbert-Geo:通过神经符号推理解决立体几何问题
发表机构 * Xi’an Jiaotong-Liverpool University(西安交通大学利物浦大学) ; Ricoh Software Research Center Beijing Co.,Ltd(Ricoh 软件研究中心北京有限公司)
AI总结 提出Hilbert-Geo框架和Parse2Reason方法,利用条件描述语言和定理库实现立体几何问题的严格推理,在SolidFGeo2k和MathVerse-Solid上达到SOTA性能。
Comments Computer Vision and Pattern Recognition (CVPR), 2026
知识图谱下的短期到长期记忆转移:在部分可观测性下的短期到长期记忆转移
AI总结 本文研究了在部分可观测性下知识图谱中的短期到长期记忆转移问题,提出了一种基于神经符号价值决策的方法,通过在长期插入前决定保留或丢弃观察到的三元组,从而提升记忆效率,并在RoomKG基准测试中优于符号和神经基线方法。
TLA-Prover: 通过偏好优化低秩适配实现可验证的 TLA+ 规范合成
发表机构 * Department of Computer Science, Loyola University Chicago(洛约拉芝加哥大学计算机科学系)
AI总结 提出 TLA-Prover 模型,结合监督微调和基于修复的组相对策略优化,在 TLC 模型检查器上实现 TLA+ 规范合成,Gold/Diamond 级别通过率达 30%,约为未调优基线的 3.5 倍。
Comments 12 pages, 5 tables, 3 figures. Accepted at the 21st International Conference on Software Technologies (ICSOFT 2026)
在共享工作空间的人机协作中寻找协同效应
发表机构 * Carnegie Mellon University(卡内基梅隆大学)
AI总结 研究共享工作空间的人机团队协作,通过Collaborative Gym环境实验发现,缺乏协调结构时增加协作者会降低性能,而结合共享记忆和模拟人在环门控的脚手架可提升团队绩效。
Comments Accepted at ICML 2026 Workshop on Human-AI Co-Creativity. 13 pages, 5 figures, 3 tables
R2D-RL:用于多智能体强化学习的RoboCup 2D足球环境
发表机构 * Graduate School of Informatics, Nagoya University(名古屋大学信息学研究科) ; School of Information and Data Sciences, Nagasaki University(长崎大学信息与数据科学学院)
AI总结 提出R2D-RL环境,通过共享内存通信和周期级同步连接RCSS2D与Python MARL接口,支持全场和场景训练,提供可配置对手、离散/混合动作空间、EPV奖励塑造及并行执行。
Comments Code is available at: https://github.com/open-starlab/R2DRL
使用多LLM智能体模拟仇恨言论级联:实证基础、建模保真度与干预策略
发表机构 * Indiana University Bloomington(印第安纳大学布卢明顿分校)
AI总结 本研究通过多LLM智能体系统模拟在线仇恨言论传播,发现其能再现实证数据中的立场单一性和毒性同质性,并通过消融实验识别出智能体异质性为关键保真因素,提出针对密集网络的放大器干预策略。
迈向基于多智能体模拟的社区笔记评估
发表机构 * Tsinghua University, Beijing, China(清华大学,北京,中国) ; University of Duisburg-Essen, Duisburg, Germany(杜伊斯堡-埃森大学,杜伊斯堡,德国) ; University of Luxembourg, Luxembourg(卢森堡大学,卢森堡) ; Tongji University, Shanghai, China(同济大学,上海,中国)
AI总结 针对社区事实核查中跨共识延迟和低比例问题,提出ComRate数据集和MultiCom多智能体框架,通过矩阵分解聚类与校准聚合实现高精度评估。
TRIDENT: 打破混合安全-物理耦合以实现可证明安全的多智能体强化学习
发表机构 * Peking University(北京大学) ; Xiamen University(厦门大学) ; National Taiwan University(国立台湾大学) ; WHU(武汉大学) ; THU / Jimei University(清华大学 / 集美大学)
AI总结 针对混合离散-连续动作、训练时安全约束和物理动力学形成的耦合问题,提出TRIDENT框架,通过Richardson-Romberg梯度校正、Lyapunov约束序列信任域更新和物理信息残差评论家,实现可证明的安全收敛,显著降低训练违规并提升奖励。
Comments 16 pages, 4 figures
Agentra: 一种可监督的多智能体企业入侵响应框架
发表机构 * The University of Alabama, Alabama, USA(阿拉巴马大学) ; Roma Tre University, Rome, Italy(罗马三大学)
AI总结 提出可监督的多智能体入侵响应框架Agentra,通过角色划分、规划-验证循环、安全网关和风险评分机制,将警报转化为结构化响应计划,在120事件语料上F1从0.61提升至0.84,有害动作率降至0.0%。
Skill-MAS: 演化元技能以自动生成多智能体系统
发表机构 * Ant Group(蚂蚁集团) ; The Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州))
AI总结 提出Skill-MAS,通过将高层编排能力解耦为可演化的元技能,在无需参数更新的情况下实现经验保留,利用多轨迹采样和选择性反思优化元技能,在多个基准和LLM上取得显著性能提升且成本可控。
领导力作为协调控制:多智能体LLM团队中的行为特征与恢复优势边界
发表机构 * Indiana University Bloomington(印第安纳大学布卢明顿分校)
AI总结 研究多智能体LLM团队中过程级协调控制何时增加价值,通过行为特征和消融实验发现,控制器的优势仅在初始多数投票不可靠、任务可恢复且无指导交互无法修复时出现,验证了权变理论。
Comments 33 pages
LLM智能体通信协议的技术分类法
发表机构 * Technische Universität München(慕尼黑技术大学)
AI总结 针对大语言模型智能体通信协议碎片化问题,提出包含五个维度的技术分类法,分析九种开源协议,揭示架构模式并预测协议演进趋势。
博弈中的递归联合模拟
发表机构 * Foundations of Cooperative AI Lab (FOCAL), Computer Science Department(合作人工智能基础实验室(FOCAL),计算机科学系) ; Carnegie Mellon University(卡内基梅隆大学) ; AI Center(人工智能中心) ; Czech Technical University(捷克技术大学) ; Center for Theoretical Study(理论研究中心) ; Charles University(查理大学)
AI总结 研究AI智能体通过递归联合模拟实现合作,证明该过程等价于原博弈的无限重复版本,从而可直接应用民间定理等现有结论。
PosterForest: 用于科学海报生成的分层多智能体协作
发表机构 * Graduate School of Artificial Intelligence, KAIST(韩国釜山国立大学人工智能研究生院) ; School of Integrated Technology, Yonsei University(延世大学整合技术学院)
AI总结 提出PosterForest,一种无需训练的科学海报生成框架,通过Poster Tree分层表示文档结构,并利用内容与布局智能体进行分层推理与递归优化,实现内容与布局的联合优化,提升语义连贯性、逻辑流畅性和视觉平衡。
Comments ACL 2026
迈向振动医学:一种用于临床决策支持的自演化多智能体框架
发表机构 * Medical AI Lab, The First Hospital of Hebei Medical University(河北医科大学第一医院医学人工智能实验室) ; Hebei Provincial Engineering Research Center for AI-Based Cancer Treatment Decision-Making, The First Hospital of Hebei Medical University(河北省人工智能癌症治疗决策工程研究中心,河北医科大学第一医院) ; State Key Laboratory of Neurology and Oncology Drug Development(神经与肿瘤药物研发国家重点实验室) ; School of Computing, University of Georgia(佐治亚大学计算学院) ; Department of Radiation Oncology, National Cancer Center/National Clinical Research Center for Cancer/Cancer Hospital and Shenzhen Hospital, Chinese Academy of Medical Sciences and Peking Union Medical College(中国医学科学院北京协和医学院国家癌症中心/国家肿瘤临床医学研究中心/肿瘤医院深圳医院放射治疗科) ; Department of Radiation Oncology, Mayo Clinic(梅奥诊所放射肿瘤科) ; College of Mechanical and Power Engineering, China Three Gorges University(三峡大学机械与动力工程学院) ; Department of Radiation Oncology, Guangzhou Concord Cancer Center(广州康华肿瘤中心放射治疗科) ; Gastrointestinal Disease Diagnosis and Treatment Center, The First Hospital of Hebei Medical University(河北医科大学第一医院胃肠疾病诊疗中心) ; Department of General Surgery, The First Hospital of Hebei Medical University(河北医科大学第一医院普通外科)
AI总结 提出VIBEMed多智能体框架,通过自演化机制和架构级安全沙箱,从交互历史中动态学习,实现个性化临床决策支持。
通过文本反向传播的自进化多智能体系统
发表机构 * Ludwig Maximilian University of Munich(慕尼黑路德维希-马克西米利安大学) ; Technical University of Munich(慕尼黑技术大学) ; Munich Center for Machine Learning(慕尼黑机器学习中心) ; University of Notre Dame(诺丁汉大学)
AI总结 提出Agentic Neural Network框架,将多智能体协作建模为分层神经网络,通过前向分解任务和反向传播反馈实现智能体角色、提示和协作的自进化,在七个基准数据集上超越现有方法。
R2BC: 从单智能体演示进行多智能体模仿学习
发表机构 * Kahlert School of Computing, University of Utah(犹他大学凯勒尔计算学院) ; DEVCOM Army Research Laboratory(陆军研究实验室)
AI总结 提出R2BC方法,通过轮换单智能体演示训练多机器人系统,无需联合动作空间演示,在模拟和实物任务中性能媲美或超越基于特权同步演示的基线方法。
Comments 8 pages, 6 figures. In Proceedings: IEEE International Conference on Robotics & Automation (ICRA 2026)
带移动障碍物的移动目标旅行商问题的两阶段双层搜索
发表机构 * Texas A&M University(德克萨斯A&M大学) ; Carnegie Mellon University(卡内基梅隆大学)
AI总结 针对带移动障碍物的移动目标旅行商问题,提出混合整数锥规划公式和两阶段双层搜索算法,显著优于基线方法。
LLM对装箱问题贡献的深入研究
发表机构 * CNRS-IRIT ; Inria
AI总结 通过分析LLM生成的启发式算法,发现其虽可读但难以解释,进而提出更简单高效的新算法,质疑LLM对装箱问题的实际贡献。
Comments Accepted for publication in ACM Transactions on Evolutionary Learning and Optimization
通过LLM驱动的自动启发式设计增强CVRP求解器
发表机构 * Southern University of Science and Technology(南方科技大学) ; City University of Hong Kong(香港城市大学)
AI总结 提出AILS-AHD方法,结合进化搜索框架与大语言模型动态生成和优化破坏启发式,并引入加速机制,在中等和大规模CVRP实例上优于现有求解器,在CVRPLib大规模基准中10个实例上取得8个新最优解。
LLM进化的符号AI规划领域无关启发式
AI总结 本文使用进化搜索让大语言模型生成领域无关的启发式函数,在未见测试域上超越手工最优启发式,并首次系统评估了启发式的信息性-速度权衡。
Comments Accepted at the LM4Plan workshop at ICAPS 2026
可扩展的批量贝叶斯优化:基于子空间采集函数
发表机构 * School of Computing and Artificial Intelligence(计算与人工智能学院)
AI总结 提出通过从原始问题的轴对齐子空间中各选一点来扩展贝叶斯优化至大规模批量评估,显著加速收敛,与十种批量算法相比极具竞争力。
MeEvo: 元认知进化与自然进化相结合用于自动启发式设计
发表机构 * School of Computer Science, University of Nottingham Ningbo China(诺丁汉大学宁波分校计算机科学学院) ; School of Computer Science, University of Nottingham(诺丁汉大学计算机科学学院)
AI总结 提出MeEvo框架,通过循环耦合自然进化(探索启发式代码)和元认知进化(反思历史生成改进启发式),解决现有方法知识继承弱、探索不足的问题,在五个优化问题上表现更优。
面向GUI代理的技能引导延续蒸馏
发表机构 * StepFun ; University of Science and Technology Beijing(北京科技大学) ; Tsinghua University(清华大学) ; Nanyang Technological University(南洋理工大学)
AI总结 提出技能引导延续蒸馏(SGCD)框架,通过技能引导策略生成成功延续轨迹,弥补专家轨迹中未覆盖的状态监督缺失,在OSWorld-Verified上将三个基础模型成功率从30%左右提升至50%以上。
RODS: 面向多轮工具使用智能体的奖励驱动在线数据合成
发表机构 * Zhejiang University(浙江大学) ; Shanghai Innovation Institute(上海创新研究院) ; Westlake University(西湖大学)
AI总结 针对多轮工具使用强化学习中静态数据集信息样本快速耗尽的问题,提出RODS方法,利用进度奖励方差作为零成本边界检测器,在线合成与智能体能力边界匹配的样本,以约800样本达到17K样本离线管道的性能。
ARIADNE: 推理时适配器动态选择的不可知路由
发表机构 * University of Turin(都灵大学) ; Samsung AI Center(三星人工智能中心)
AI总结 提出无训练、与适配器无关的路由框架ARIADNE,通过训练集嵌入质心表示适配器,在推理时基于潜在空间距离选择适配器,无需适配器内部信息或额外训练,在44个任务上达到89.7%的选择准确率。
用户作为印迹:将每用户记忆内化为局部参数编辑
发表机构 * Pine AI
AI总结 提出User as Engram方法,将用户事实存储为Engram模型的哈希键控记忆表中的局部编辑,推理技能共享一个适配器,实现高精度间接推理且内存占用极小。
重新思考奖励监督:基于评分准则的自蒸馏
发表机构 * Yale University(耶鲁大学)
AI总结 提出评分准则条件自蒸馏框架,通过结构化细粒度反馈指导推理模型,在科学推理基准上平均超越GRPO 1.0分、OPSD 0.9分。
打破求解器瓶颈:在可学习前沿训练任务生成器
发表机构 * Vmax ; Goodfire AI
AI总结 提出PROPEL框架,通过训练轻量级激活探针作为求解率代理,在无需重复求解器评估的情况下优化任务生成器,使生成任务集中在可学习前沿,提升数学、代码和软件工程任务的有效性。
Comments 30 pages, 9 figures, 12 tables
冲击波理论与人工神经网络对称约化随机梯度下降之间的联系
发表机构 * NEC Corporation(NEC公司)
AI总结 本文通过微分几何、李群和流体力学,建立了冲击波理论与对称商化随机梯度下降学习动力学之间的显式数学联系,并应用于多种神经网络架构。
Comments Accepted to the 35th International Conference on Artificial Neural Networks (ICANN) 2026
基于归因引导和覆盖最大化的结构MoE剪枝
发表机构 * School of Computer Science and Engineering, Beihang University(北京航空航天大学计算机科学与工程学院) ; School of Artificial Intelligence, Beihang University(北京航空航天大学人工智能学院) ; Nanyang Technological University(南洋理工大学)
AI总结 针对MoE模型专家级剪枝粒度粗、冗余识别不足的问题,提出基于归因引导和覆盖最大化的结构剪枝框架,将剪枝分配转化为通道分数覆盖优化问题,在50%剪枝率下结合4位量化保持精度,内存减少5.27倍。
Comments 9 pages, 5 figures. Submitted to ICML 2026
DRIFT: 通过在线策略数据归因优化指令数据
发表机构 * Tsinghua University(清华大学)
AI总结 提出DRIFT方法,利用在线策略影响函数解决标准影响函数在指令微调数据归因中的近邻偏差和梯度范数偏差问题,通过模型自身生成作为验证目标,提升7B模型性能上限。
鬼吸引子网络:用于闭环序列生成的盆地结构动力学解码器
发表机构 * KTH Royal Institute of Technology(瑞典皇家理工学院) ; Department of Production Engineering, KTH Royal Institute of Technology(瑞典皇家理工学院生产工程系) ; Department of Decision and Control Systems, KTH Royal Institute of Technology(瑞典皇家理工学院决策与控制系统系)
AI总结 提出鬼吸引子网络,一种理论推导的动力学解码器,通过构建盆地-吸引子结构实现高效闭环序列生成,在机器人动作解码任务中以2.3M参数匹配1.07B参数扩散变压器的离线精度,延迟降低32倍。
为什么SWAVE可能不是你所需的一切:复数值循环语言模型的概念演化回顾
发表机构 * EdgeVerve Systems Limited(EdgeVerve系统有限公司)
AI总结 本文回顾了复数值循环语言模型SWAVE的演化过程,揭示了其设计假设的缺陷,并提出了cos-domination collapse等理论见解和工程原则。
权重范数在Grokking中控制什么?交叉熵下的对数尺度中介作用
发表机构 * H&K Research Studio, Clevix LLC
AI总结 本文通过固定权重范数并改变输出温度,发现Grokking延迟主要由对数尺度(logit scale)决定,权重范数仅通过影响对数尺度间接起作用。
Comments 16 papges, 10 tables and 4 figures. Code and data to reproduce all numbers, tables, and figures: https://github.com/ClevixLab/grokking-logit-scale
基于局部线性嵌入与自适应特征融合的结构化表示学习
发表机构 * Mila – Quebec AI Institute(米拉-魁北克人工智能研究所)
AI总结 受神经科学启发,提出一种强化学习框架,利用局部线性嵌入捕捉状态局部结构,并通过注意力机制自适应融合动态与奖励特征,提升学习效率。
Comments Published in Transactions on Machine Learning Research (04/2026)
SFT 过训练通过熵崩溃预测 RLVR 下的排名反转
发表机构 * Stanford University(斯坦福大学)
AI总结 研究发现 SFT 过度训练导致 rollout 分布熵降低,使 GRPO 中优势信号消失,从而引发排名反转;提出基于熵的两阶段诊断方法可预警高风险检查点。
Comments 14 pages, 6 figures. Accepted at the Deep Learning for Code (DL4C) Workshop at ICML 2026
神经相位相关
发表机构 * Weyl Labs(Weyl实验室)
AI总结 提出相位相关的学习泛化,通过可学习基函数将变换分解,适用于非刚性形变和幺正动力学,在心脏MRI和超声数据集上达到或超越现有方法。
稀疏性诅咒:从模型合并理解RLVR模型参数空间
发表机构 * Zhejiang University(浙江大学) ; Simon Fraser University(西蒙菲莎大学) ; The Chinese University of Hong Kong(香港中文大学) ; Zhejiang Key Lab of Accessible Perception and Intelligent Systems(浙江省可感知智能系统重点实验室)
AI总结 本文发现RLVR模型的稀疏更新在参数空间中分散更远,形成近正交捷径导致合并脆弱,并提出SAR-Merging方法解决该问题。
Comments Accepted by KDD 2026
使用Wasserstein对抗学习校正传感器引起的分布漂移
发表机构 * Laboratory of Methods for Big Data Analysis, HSE University(大数据分析方法实验室,高等经济大学)
AI总结 提出WGAN方法,通过可学习的校准变换将变化检测器响应分布映射回参考分布,在探测器模型和模拟量能器数据上验证了恢复老化系数和改善能量分布一致性的能力。
Comments This is a preprint sent to Nuclear Science and Techniques journal
局部与全局注意力的双重维度
发表机构 * UC Santa Barbara(加州大学圣塔芭芭拉分校)
AI总结 提出距离自适应表示(DAR),对局部上下文保留全维度表示,对远距离token使用低维表示,在保持性能的同时减少KV缓存。
表格基础模型在流学习中的有界上下文管理
发表机构 * Seoul National University(首尔大学) ; KAIST(韩国科学技术院)
AI总结 针对表格流学习中分布漂移问题,提出上下文管理策略CURE,通过不确定性门控准入和冗余感知驱逐管理上下文,在七个流上相对提升最高27.0%。
Comments Accepted as a spotlight oral (top 5%) at the 2nd ICML Workshop on Foundation Models for Structured Data (FMSD@ICML2026)
双通道接地世界建模 (DCGWM):通过异构外部接地与内向梯度流结构性防止目标干扰崩溃
发表机构 * Independent Researcher(独立研究者)
AI总结 提出双通道接地世界建模(DCGWM),通过分区潜空间和内向梯度流,结构性防止联合嵌入预测架构中多目标接地导致的目标干扰崩溃。
Comments Position paper. Experimental validation in progress
基于图锚定交叉注意力Transformer神经网络的预测过程监控中结构约束完整事件序列生成
发表机构 * Department of Computer Science, University of Milan(米兰大学计算机科学系)
AI总结 提出图锚定交叉注意力Transformer(GGATN),通过全局过程图作为结构化记忆、Transformer自注意力编码序列位置、图锚定交叉注意力注入过程拓扑,结合维特比式图约束解码,一次性生成完整事件序列,在六个基准日志上优于LLM基线。
Comments 40 pages
基于公共特征条件化的私有学习
发表机构 * Microsoft(微软) ; Google Research(谷歌研究院)
AI总结 针对标签差分隐私回归问题,提出Cond-DP方法,利用公共特征矩阵的结构信息构造条件化矩阵以加速优化,在凸、强凸和非凸设置下提供收敛保证,并在线性回归中实现比DPSGD更快的收敛速度。
Comments Proceedings of the 43rd International Conference on Machine Learning (ICML 2026). 26 pages, 9 figures
贝叶斯任意时间帕累托集识别用于多目标多臂老虎机
发表机构 * imec ; Data Science Institute, Interuniversity Institute of Biostatistics and Statistical Bioinformatics, UHasselt(哈瑟尔特大学生物统计学与统计生物信息学跨大学研究所数据科学研究所)
AI总结 提出首个任意时间多目标多臂老虎机算法Top-Two帕累托前沿汤普森采样(TTPFTS),用于帕累托集识别,在合成环境和超大型分子库中验证有效性,并引入不确定性量化指标。
Comments 26 pages, 13 figures
从自身解中学习:面向可验证奖励强化学习的自条件化信用分配
发表机构 * Beijing Institute of Technology(北京理工大学) ; Beihang University(北京航空航天大学) ; Independent Researcher(独立研究者)
AI总结 提出SC-GRPO方法,利用自条件化分布间的KL散度作为GRPO梯度的乘性权重,实现细粒度信用分配,在数学、代码和智能体任务上平均提升8.1%。
强化学习基础模型本应已经存在
发表机构 * École normale supérieure de Paris, PSL University, Paris, France(巴黎高等师范学院,PSL大学,法国巴黎) ; Soda team, Inria Saclay, Palaiseau, France(Soda团队,法国国家信息与自动化研究所萨克雷中心,法国帕莱索)
AI总结 提出通过合成MDP构建强化学习基础模型,利用固定大小的充分统计量使注意力架构适用,在线和离线实验均优于传统算法。
成熟马尔可夫决策过程:信息增加与动作集缩小下的决策制定
发表机构 * Ant International(蚂蚁国际) ; School of Economics, Sichuan University(四川大学经济学院) ; School of Economics, Fudan University(复旦大学经济学院)
AI总结 针对决策过程中信息增加与动作集缩小的不对称性,提出成熟马尔可夫决策过程(MMDP)框架,并基于过期动作优先级原则开发结构感知强化学习方法,实验证明其能提升学习效率。
Comments 25 pages, 9 figures
FoMoE: 打破全副本壁垒的专家混合联邦系统
发表机构 * DeepSeek-AI
AI总结 提出FoMoE系统,通过跨工作节点分区专家层打破全副本范式,结合部分专家复制和跳跃令牌机制,显著降低通信开销并提升吞吐量。
带奖励机的帕累托Q学习
AI总结 提出PQLRM算法,结合帕累托Q学习和奖励机,在多目标强化学习中高效逼近帕累托前沿,并处理非马尔可夫奖励。
Comments Accepted at the ICAPS 2026 Workshop on Bridging the Gap Between AI Planning and (Reinforcement) Learning (PRL)
OrthoReg:混合符号-神经动力系统的正交正则化
发表机构 * Technical University of Munich(慕尼黑工业大学) ; Helmholtz Munich(亥姆霍兹慕尼黑中心)
AI总结 针对混合建模中神经部分可能重复学习符号结构导致模型冗余的问题,提出正交正则化方法OrthoReg,直接惩罚符号与神经组件间的重叠,实现互补分解,提升符号恢复和分布外行为。
多任务学习的本质子空间合并
发表机构 * School of Computer Science and Engineering, Southeast University(东南大学计算机科学与工程学院) ; Key Laboratory of New Generation Artificial Intelligence Technology and Its Interdisciplinary Applications (Southeast University), Ministry of Education(教育部新一代人工智能技术及其跨学科应用重点实验室(东南大学)) ; Huawei Inc.(华为公司)
AI总结 提出本质子空间分解(ESD)和合并(ESM/ESM++)方法,通过正交化任务更新的主成分来减少多任务合并中的干扰,无需训练即可实现高效多任务学习。
随机动量方法的计算效率与串行运行时间权衡
发表机构 * Harvard University(哈佛大学) ; Kempner Institute at Harvard University(哈佛大学凯普纳研究所)
AI总结 研究随机动量方法(如重球法和加速SGD)在一致线性回归中的批次大小权衡,证明重球法不改善SGD的计算效率前沿但允许更大批次减少串行运行时间,而加速SGD的计算效率与串行运行时间权衡依赖于谱衰减。
预测关键因素:面向决策的强化学习用于未知离开时间的受控电动汽车充电
发表机构 * Ghent University -- imec(根特大学 -- imec)
AI总结 针对电动汽车充电中离开时间未知导致强化学习策略效果差的问题,提出面向决策的强化学习框架,联合训练预测器与控制器,实现端到端优化,使总奖励提升14%,未供应能量减少55%。
Comments ACM e-Energy 2026 5 pages, 1 figure, 1 table
STARE: 基于惊讶度的令牌级优势重加权以实现策略熵稳定性
发表机构 * Shenzhen International Graduate School, Tsinghua University(清华大学深圳国际研究生院) ; Tencent Hunyuan(腾讯混元)
AI总结 针对GRPO等RL算法中策略熵崩溃问题,提出STARE方法,通过惊讶度分位数识别熵关键令牌并重加权其优势,结合目标熵闭环门控稳定熵,在1.5B-32B模型和多种任务上实现稳定训练,AIME24/25准确率提升4%-8%。
Comments LLM, Reinforcement Learning
用程序合成解释注意力机制
发表机构 * NJIT(新泽西理工学院) ; MIT EECS(麻省理工学院电气工程与计算机科学系) ; MIT CSAIL(麻省理工学院计算机科学与人工智能实验室)
AI总结 提出用可执行程序近似深度网络组件行为的方法,针对Transformer注意力头,通过生成Python程序再现注意力模式,实现可解释性。
UBP2: 不确定性平衡的偏好规划用于高效基于偏好的强化学习
发表机构 * Learning, Embodied Autonomy, and Forecasting (LEAF) Lab, University of Toronto(多伦多大学学习、具身自主与预测(LEAF)实验室)
AI总结 提出UBP2方法,通过联合推理奖励、动力学和值函数的不确定性来主动引导探索,在Meta-World基准上显著提高了样本效率。
理解状态空间模型在代码中学到了什么
发表机构 * TU Darmstadt(图宾根大学) ; Hessian Center for Artificial Intelligence(黑森人工智能中心) ; National Research Center for Applied Cybersecurity ATHENE(应用网络安全国家研究中心ATHENE)
AI总结 本文首次系统分析状态空间模型(SSM)在代码理解中的学习机制,发现SSM在预训练时比Transformer更有效捕获语法和语义结构,但微调时会遗忘某些关系,并提出SSM-Interpret框架和架构改进,将NLCodeSearch的MRR提升高达6。
鲁棒正则化策略迭代在转移不确定性下
发表机构 * College of Computer Science and Technology, Zhejiang University, Hangzhou, China(浙江大学计算机科学与技术学院) ; School of Artificial Intelligence, Optics and Electronics (iOPEN), Northwestern Polytechnical University, Xi'an, China(西北工业大学人工智能、光学与电子学院(iOPEN)) ; School of Software Technology, Zhejiang University, Hangzhou, China(浙江大学软件技术学院) ; School of Software Engineering, Xi'an Jiaotong University, Xi'an, China(西安交通大学软件工程学院) ; School of Systems Science and Engineering, Sun Yat-sen University, Guangzhou, China(中山大学系统科学与工程学院)
AI总结 提出鲁棒正则化策略迭代(RRPI),通过将离线强化学习建模为鲁棒策略优化,使用KL正则化替代难解的双层目标,并基于鲁棒正则化贝尔曼算子实现高效策略迭代,理论保证收敛性,实验在D4RL基准上表现优异。
提问的艺术:一致性增强空间推理中的事实性
发表机构 * The University of California, Berkeley(加州大学伯克利分校) ; ETH Zurich(苏黎世联邦理工学院) ; University of Oxford(牛津大学) ; Stanford University(斯坦福大学)
AI总结 提出自监督强化学习框架,通过几何与语义一致性验证器(如图像翻转、文本对象顺序交换)对齐预训练模型的内在空间推理能力,无需标注数据即可达到接近监督方法的精度。
信任正确的教师:面向GUI定位的质量感知自蒸馏
发表机构 * University of Georgia(佐治亚大学) ; INFLY Tech ; Tencent AI Lab(腾讯AI实验室) ; The Hong Kong Polytechnic University(香港理工大学)
AI总结 提出质量感知自蒸馏方法,通过软正确性感知门控和教师概率缩放改善坐标令牌教师信号质量,提升VLM在GUI定位任务中的性能。
Comments corrected some claims
资源受限设备上语言模型的高效零阶联邦微调
发表机构 * Karlsruhe Institute of Technology(卡尔斯鲁厄理工学院) ; Huawei(华为) ; Heisenberg Research Center (Munich), Germany(海森堡研究中心(慕尼黑),德国)
AI总结 提出一种基于零阶优化的联邦微调方法,通过分块模型并分配更多扰动到后一块,复用中间激活减少前向评估次数,在保持内存和通信优势的同时将计算量降低至其他零阶方法的1/3。
Comments Published at TMLR
图任务算法推理中Transformer的深度-宽度权衡
发表机构 * Courant Institute of Mathematical Sciences, New York University(纽约大学应用数学科学研究所) ; Google Research(谷歌研究) ; Meta AI ; Bar-Ilan University(巴伊兰大学) ; Department of Bio-Medical Engineering, Edmond J. Safra Center for Bioinformatics, Tel-Aviv University(生物医学工程系,埃德蒙·J·萨法中心,特拉维夫大学) ; Tel Aviv University(特拉维夫大学)
AI总结 研究Transformer在图算法任务中深度与宽度的权衡,发现线性宽度下常数深度足以解决许多图问题,而某些问题需要二次宽度,实验验证了宽模型在保持精度的同时训练和推理更快。
Comments Updated ISF grant number
广义Kullback-Leibler散度损失
发表机构 * Hefei University of Technology(合肥工业大学) ; University of Science and Technology of China(中国科学技术大学) ; Nanyang Technological University(南洋理工大学) ; The Chinese University of Hong Kong(香港中文大学) ; The University of Hong Kong(香港大学) ; Harbin Institute of Technology, Shenzhen(哈尔滨工业大学(深圳))
AI总结 本文提出广义KL散度损失,通过解耦KL损失为加权MSE和交叉熵损失,并引入非对称优化修正和类别全局信息,在对抗训练和知识蒸馏中取得SOTA性能。
Comments TPAMI 2026, extension of our NeurIPS paper "Decoupled Kullback-Leibler Divergence Loss". arXiv admin note: substantial text overlap with arXiv:2305.13948
网格通常在压缩密集信号方面优于隐式神经表示
发表机构 * Department of Electrical and Computer Engineering(电气与计算机工程系) ; Georgia Institute of Technology(佐治亚理工学院)
AI总结 研究发现,对于密集信号任务,带插值的正则化网格在训练速度和重建质量上优于同等参数量的隐式神经表示,而INR仅在拟合二值信号(如形状轮廓)时表现更优。
Comments Our analysis are available at https://github.com/voilalab/INR-benchmark
从记忆到参数干扰:过度训练专家如何损害模型合并
发表机构 * Concordia University(康科德大学) ; Mila -- Québec AI Institute(魁北克人工智能研究所) ; Google DeepMind(谷歌深Mind)
AI总结 本文研究专家模型微调过度对模型合并的影响,发现长时间微调导致记忆困难样本,造成参数干扰,降低合并性能,并提出任务相关的早停策略改善合并效果。
Comments Proceedings of the 43rd International Conference on Machine Learning, Seoul, South Korea. PMLR 306, 2026
HeRo-Q: 通过Hessian条件化实现稳定低比特量化的通用框架
发表机构 * Beijing University of Posts and Telecommunications(北京邮电大学) ; Institute of Computing Technology, Chinese Academy of Sciences(中国科学院计算技术研究所) ; University of Science and Technology of China(中国科学技术大学) ; Zhejiang Lab(浙江实验室) ; Peng Cheng Laboratory(鹏城实验室)
AI总结 针对后训练量化中“低误差、高损失”的矛盾,提出HeRo-Q算法,通过轻量可学习的旋转压缩矩阵重塑损失景观,降低最大Hessian特征值,增强对量化噪声的鲁棒性,在Llama和Qwen模型上优于现有方法。
通过带约束二进制优化的块移除进行LLM压缩
发表机构 * Multiverse Computing(多维计算公司) ; Donostia International Physics Center(多斯蒂亚国际物理中心) ; Ikerbasque Foundation for Science(伊克尔巴斯克科学基金会)
AI总结 提出将大语言模型块移除压缩问题建模为约束二进制优化,映射到Ising玻璃系统,实现高效排序和高质量非连续块移除,在50%压缩时MMLU提升近23个百分点,且计算高效、通用性强。
Comments 16 pages, 3 figures
基于噪声条件频率暴露的扩散逆问题后验延续
发表机构 * Shanghai Jiao Tong University(上海交通大学)
AI总结 提出后验延续框架,根据扩散噪声水平逐步暴露测量频率,结合稳定采样器实现超分辨率、修复和去模糊的先进性能。
神经网络在渐变世界中会失去可塑性吗?
发表机构 * Dept. Computing Science \& Alberta Machine Intelligence Institute (Amii), University of Alberta ; Canada CIFAR AI Chair
AI总结 研究任务转换的突然性对神经网络可塑性损失的影响,通过输入/输出插值和任务采样模拟渐变环境,理论和实验表明可塑性损失严重程度与任务转换突然性密切相关,渐变环境下可显著减轻。
无中生有:面向构音障碍语音严重程度鲁棒估计的数据增强
发表机构 * 1 University of Illinois Urbana-Champaign, IL, USA 2 Korea Advanced Institute of Science \& Technology, KR
AI总结 提出三阶段框架,利用未标注构音障碍语音和典型语音数据集,通过教师模型生成伪标签、标签感知对比学习预训练和微调,在五个未见数据集上平均SRCC达0.761,显著优于现有方法。
Comments Accepted to Interspeech 2026 Long Paper Track
算术泛化的长延迟:当学习到的表征超越行为时
发表机构 * Stanford University(斯坦福大学)
AI总结 研究Transformer在算术任务中泛化延迟的原因,发现编码器早期已学到结构,但解码器瓶颈导致延迟,通过移植编码器或冻结编码器可加速泛化,且数字基的选择影响学习难度。
Comments 19 pages, 10 fugures
Clin-JEPA:一种多阶段协同训练框架,用于EHR患者轨迹的联合嵌入预测预训练
发表机构 * Duke University(杜克大学)
AI总结 本文提出Clin-JEPA框架,通过多阶段预训练稳定协同训练编码器和预测器,解决EHR数据中联合嵌入预测的挑战,实现多任务下游任务的高性能表现。
Comments 16 pages, 4 figures, 8 tables. Code: https://github.com/YeungYathin/Clin-JEPA
超越相似性:时间序列分析中的时序操作注意力
发表机构 * Georgia Institute of Technology(佐治亚理工学院)
AI总结 本文提出时序操作注意力(TOA),通过引入可学习的操作符增强注意力机制,以更有效地处理时间序列数据中的符号和振荡变换,提升时间序列预测、异常检测和分类任务的性能。
量子回路网络中可控的量子记忆容量:可调部分SWAPs
发表机构 * University of South Carolina - Columbia(南卡罗来纳大学哥伦比亚分校) ; Qodex Quantum(Qodex量子)
AI总结 本文提出一种可调部分SWAP机制,用于控制量子回路网络中记忆衰减速率,通过模拟和IBM QPU验证,提升了噪声中间尺度量子处理器的性能。
Comments 14 pages, 9 figures
WAV:面向深度仅解码器Transformer的多分辨率块残差路由
发表机构 * Chongqing University(重庆大学)
AI总结 提出WAV v1方法,通过为每个块增加方向性细节基(相位基和分裂基)来增强残差路由,在深层Transformer中优于现有方法,48层时在TinyStories和Text8上取得更低验证损失。
Comments 6 pages, 4 figures, 3 tables
UPLOTS: 一种用于约束时间序列生成的统一预训练语言模型
发表机构 * University of New South Wales(新南威尔士大学) ; HKUST(GZ)(香港科技大学(广州)) ; BUAA(北京航空航天大学)
AI总结 提出UPLOTS,一种基于统一预训练语言模型和提示引导的框架,通过动态多数据集损失重加权和提示到模式映射,实现跨领域约束时间序列生成,在四个基准上验证了其泛化性和数据增强效果。
Bag of Dims:通过维度级符号模式实现无需训练的机制可解释性
发表机构 * Amazon Web Services(亚马逊云服务)
AI总结 本文提出Bag of Dims框架,证明Transformer隐藏状态的标准基即可作为无需训练的特征基,通过维度符号模式编码语义,并在三个模型上验证了其有效性。
Comments 22 pages, 5 figures, 27 tables
SymQNet: 低延迟自适应哈密顿量学习的摊销获取
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出SymQNet,一种摊销强化学习方法,通过离线学习后验条件获取策略,在线快速前向传播,显著降低自适应哈密顿量学习的获取延迟。
贝叶斯深度学习中的校准无采样不确定性估计
发表机构 * TU Darmstadt & hessian.AI, Darmstadt, Germany(达姆施塔特工业大学 & hessian.AI,德国达姆施塔特) ; RIKEN Center for Advanced Intelligence Project, Tokyo, Japan(日本理化学研究所革新智能研究中心,日本东京)
AI总结 提出校准方差传播(CVP),通过新型归一化层传播方法、激活函数处理技术及轻量校准步骤,在单次前向传播中高效估计不确定性,在Transformer和CNN上达到与MC采样相当的精度,成本显著降低。
面向大型音频语言模型的连续音频思考
发表机构 * KAIST(韩国科学技术院)
AI总结 提出连续音频思考(CoAT)框架,通过专家蒸馏在连续潜在空间中组织声学信息,使音频语言模型在生成响应前利用丰富声学特征,无需额外自回归解码成本,在多个音频任务上提升性能。
Comments Preprint
保留还是删除?用于教育对话去标识的完全本地AI级联框架
发表机构 * Cornell University(康奈尔大学)
AI总结 针对教育对话中课程术语与个人身份信息混淆的问题,提出一种完全本地的级联框架,通过召回优先的联合提议器和上下文感知审查器实现约束性隐私分类,在数学辅导对话上达到0.958的宏F1,优于商业API和纯LLM基线。
大语言模型生成器-调节器博弈的变分框架
发表机构 * Department of Electrical and Computer Engineering, Tandon School of Engineering, New York University, Brooklyn, NY, USA(电气工程系,工程学院,纽约大学,布鲁克林,纽约,美国)
AI总结 提出一个变分框架,将语言生成建模为熵正则化吉布斯分布,将调节建模为最优判别器,通过鞍点问题平衡效用、熵、调节一致性和有限长度可检测性,并通过审查过滤和钓鱼防御案例验证。
MagpieTTS-LF:无需长语音数据训练的推理时长生成长语音生成
发表机构 * NVIDIA Corporation(英伟达公司)
AI总结 提出MagpieTTS-LF推理时方法,通过软注意力先验、有状态推理和历史感知文本编码,在不重新训练模型的情况下实现连贯的长语音生成。
APT: 用于因果视频语言理解的原子物理转变
发表机构 * Northwestern University(西北大学) ; Dolby Laboratories(杜比实验室)
AI总结 提出原子物理转变(APT)作为视频中因果状态变化的显式表示,并构建混合来源数据集,通过APT-Tune微调方法使VLM学习物理转变而不遗忘事件级知识。
BCL:面向信息抽取的贝叶斯上下文学习框架
发表机构 * HiThink Research(海天瑞声研究) ; University College London(伦敦大学学院) ; University of Edinburgh(爱丁堡大学) ; The Hong Kong University of Science and Technology(香港科技大学) ; East China Normal University(华东师范大学) ; Shanghai Medical Image Insights(上海医学影像洞察) ; University of Waterloo(滑铁卢大学) ; University of Washington(华盛顿大学) ; Beijing Institute of Technology(北京理工大学)
AI总结 提出BCL框架,利用贝叶斯更新和粒子滤波优化信息抽取中的上下文学习,在序列标注和关系分类任务上取得显著提升。
Comments ACL 2026 Findings
Morpheus: 一种面向土耳其语的形态感知神经分词器和词嵌入器
发表机构 * Independent Researcher(独立研究者)
AI总结 针对土耳其语粘着特性,提出Morpheus神经词素边界模型,实现无损可逆分词与结构化词嵌入,在可逆分词器中达到最低比特每字符(1.425),词素对齐F1提升至0.61,GPU内存节省约19%。
闭环:用于符号音乐生成中可解释激活引导的PID反馈控制
发表机构 * Athens University of Economics and Business(雅典经济与商业大学) ; Orfium Research(Orfium 研究) ; Hellenic Mediterranean University(希腊地中海大学) ; Archimedes / Athena Research Center(阿基米德/雅典娜研究中心)
AI总结 提出基于PID反馈控制的推理时激活引导框架,通过差分均值法提取音高和时长潜在方向,并利用Gram-Schmidt正交化解耦多属性引导,实现符号音乐生成中细粒度、可解释的属性调制。
Comments Accepted at Learning to Listen: ICML 2026 Workshop on Machine Learning for Audio (43rd International Conference on Machine Learning - ICMLMLA26), 4 pages main (11 total), 2 figures
SHIFT: 通过索引侧特征变换实现多语言信息检索的语义对齐
发表机构 * Department of Computer Science and Engineering, Korea University(韩国大学计算机科学与工程系)
AI总结 提出SHIFT方法,在索引阶段通过平行翻译对估计相对语言向量并修正文档嵌入,以缓解多语言密集检索中的语言偏差,无需训练即可提升检索性能。
重新缩放MLM头部用于神经稀疏检索
发表机构 * Korea University(韩国大学)
AI总结 针对SPLADE中MLM头部尺度不匹配导致训练不稳定和性能下降的问题,提出初始化时对MLM头部投影进行常数因子重缩放,零成本提升训练稳定性,使大范数骨干网络成为有竞争力的稀疏检索器。
超越奖励工程:长上下文强化学习的数据配方
发表机构 * OpenBMB ; Tsinghua University(清华大学)
AI总结 提出一种简单有效的数据配方,结合最小化基于结果的GRPO设置,显著提升大语言模型的长上下文推理能力,在多个基准和智能体任务上取得平均+3.2至+7.2点的提升。
Comments 15 pages, 6 figures, 12 tables
对齐隐含陈述:通过上下文边界半硬负挖掘实现隐式仇恨言论的泛化性
发表机构 * Mantera Studio(Mantera工作室) ; Universitas Gadjah Mada(加雅玛大学)
AI总结 提出ImpSH三元组框架,通过将帖子与隐含陈述对齐并使用上下文边界半硬负样本聚焦学习,提升隐式仇恨言论的跨域泛化能力,在多个数据集上优于对比基线。
像火箭科学一样简单:评估大型语言模型解释比喻语言中否定能力的研究
发表机构 * Intelligent Systems Lab University of Bristol(智能系统实验室 英国布里斯托尔大学) ; ILLC University of Amsterdam(阿姆斯特丹大学语言学研究所)
AI总结 本研究通过开发新的注释数据集,测试多种大型语言模型在比喻语言中理解否定的能力,发现否定与比喻的组合对模型构成挑战,且性能高度依赖提示风格。
Comments 16 pages, 16 figures; for associated code and data see https://github.com/jrdowers/Negation-and-Fig-Lang; To be published in Transactions of the Association for Computational Linguistics
超越分词:面向时间序列问答的直接时间步嵌入与对比对齐
发表机构 * Deakin University(德肯大学)
AI总结 提出CADE框架,通过逐点线性编码器直接嵌入每个时间步,避免分词瓶颈,并利用单向监督对比损失对齐时间序列与文本锚点,在Time-MQA基准上提升六项TSQA任务性能。
ProductConsistency:通过SFT和RL改进基于指令的图像编辑中的产品身份保持
发表机构 * Fractal Analytics
AI总结 针对基于指令的图像编辑中产品特征保持不足的问题,提出ProductConsistency数据集和循环一致性奖励,结合监督微调与强化学习,显著提升产品一致性、文本渲染和视觉质量。
Comments CVPR HiGen 2026
OneCanvas: 通过全景重投影实现3D场景理解
发表机构 * Technical University of Munich(慕尼黑工业大学) ; Huawei(华为)
AI总结 提出OneCanvas方法,将多视图补丁特征聚合到全景画布上,利用深度和相机位姿进行重投影,无需复杂几何编码器或大量训练,在SQA3D等基准上达到最先进精度。
Comments Project page: https://baranowskibrt.github.io/onecanvas/
医学LLM适应中的权衡:法语问答的实证研究
发表机构 * Aix-Marseille Univ., CNRS, LIS UMR 7020(艾克斯-马赛大学,法国国家科学研究中心,计算机与系统实验室) ; Nantes Univ., École Centrale Nantes, CNRS, LS2N UMR 6004(南特大学,南特中央理工学院,法国国家科学研究中心,数字科学实验室) ; Grenoble Alpes Univ., CNRS, INRIA, Grenoble INP, LIG UMR 5217(格勒诺布尔-阿尔卑斯大学,法国国家科学研究中心,法国国家信息与自动化研究所,格勒诺布尔理工学院,信息学实验室)
AI总结 通过法语医学问答任务,实证比较持续预训练(CPT)和监督微调(SFT)在多个模型家族和规模下的效果,发现CPT+SFT在多项选择问答上最优但增益小,SFT是强且经济的默认选择,而CPT在开放式问答中提升重叠指标。
参考驱动的野外先验多说话人音频场景生成
发表机构 * Lightricks ; Tel Aviv University(特拉维夫大学)
AI总结 提出ScenA方法,利用预训练的文本到音频流匹配基础模型,通过多参考声音和自然语言提示生成多说话人音频场景,并采用高噪声偏置时间步分布解决参考捷径问题,在CoVoMix2-Dialogue基准上优于现有系统。
Comments Project page at https://finmickey.github.io/scena/
SpecAlign: 通过合成数据实现高效的大语言模型规范对齐
发表机构 * University of Notre Dame(圣母大学) ; Carnegie Mellon University(卡内基梅隆大学) ; LMU Munich(慕尼黑大学) ; University of Southern California(南加州大学)
AI总结 提出规范对齐新范式,通过从规范文档合成数据(SpecAlign框架),结合结构化规则标注、可控规范实例化和多智能体对抗数据合成,生成细粒度偏好对,提升规则遵守度且不损害通用能力。
Comments 58 pages
VidCRAFT3: 面向图像到视频生成的相机、物体与光照控制
发表机构 * School of Data Science, Fudan University(复旦大学数据科学学院) ; Shanghai Innovation Institute(上海创新研究院) ; Zhejiang University(浙江大学) ; Huawei Noah’s Ark Lab(华为诺亚实验室) ; Westlake University(西湖大学) ; School of Data Science and MOE Frontiers Center for Brain Science, Fudan University(复旦大学数据科学学院和脑科学前沿中心) ; Fudan ISTBI–ZJNU Algorithm Centre for Brain-inspired Intelligence, Zhejiang Normal University(复旦大学-浙江师范大学脑启发智能算法中心)
AI总结 提出VidCRAFT3框架,通过显式建模几何、运动与光照的跨因素交互,实现对相机运动、物体运动和光照方向的独立或联合控制,在控制精度和视觉一致性上达到最优。
Comments Accepted to TVCG 2026
从数值到标记:一种基于符号离散化的LLM驱动上下文感知时间序列预测框架
发表机构 * State Key Laboratory of Cognitive Intelligence(认知智能国家重点实验室) ; University of Science and Technology of China(中国科学技术大学) ; College of Intelligence and Computing(智能科学与计算学院) ; iFLYTEK Research(iFLYTEK研究院)
AI总结 提出TokenCast框架,利用大语言模型通过符号离散化将连续时间序列转化为标记,与上下文文本对齐,实现上下文感知的预测,实验证明有效。
探究大语言模型隐喻处理中的语义对齐、词汇不变性和句法影响
发表机构 * NLP 2 CT Lab, Department of Computer and Information Science, University of Macau(自然语言处理2CT实验室,计算机与信息科学系,澳门大学)
AI总结 通过几何探测、上下文替换和句法扰动三种方法,分析LLM在隐喻处理中的语义漂移、词汇稳定性及句法敏感性,揭示强行为表现可能源于异质信号。
Comments Accepted to ACL 2026
从统计视角重新思考跨语言差距
发表机构 * Google DeepMind(谷歌深Mind)
AI总结 提出跨语言差距源于目标语言响应方差,通过形式化偏差和无偏误差,并采用推理时集成方法降低方差,使跨语言迁移得分提升8%-50%以上。
Comments 30 pages
InstructTime++: 通过隐式特征增强的多模态语言建模进行时间序列分类
发表机构 * State Key Laboratory of Cognitive Intelligence, University of Science and Technology of China(中国科学技术大学认知智能国家重点实验室)
AI总结 提出将时间序列分类转化为多模态生成任务,通过离散化模块和对齐投影层弥合模态差距,并利用隐式特征建模提升语言模型性能。
复述、奖励、重复:面向叙事理论启发的故事复述的强化学习
发表机构 * University of New South Wales(新南威尔士大学)
AI总结 提出RRR强化学习框架,结合结构主义叙事学与标量叙事性,通过d-RLAIF从文本特征中获取训练信号,无需参考输出,提升LLM故事复述的逻辑性、合理性和完整性。
Comments 8 Pages, 7 figures
LVLMs与人类在指称交流中的基础不同
AI总结 通过人类与AI配对的多轮指称交流实验,发现LVLMs无法像人类一样利用共同基础生成和解析指称表达,导致交流不畅。
Comments 27 pages, 16 figures
通过用户日志改进大型语言模型系统
发表机构 * Department of Computer Science and Technology, Tsinghua University(清华大学计算机科学与技术系)
AI总结 本文提出UNO框架,通过用户日志提炼规则和偏好对,利用查询反馈驱动聚类处理数据异质性,量化模型知识与日志数据间的认知差距,提升LLM系统性能。
叙事理论驱动的LLM方法在自动故事生成与理解中的应用:综述
发表机构 * School of Computer Science and Engineering(计算机科学与工程学院) ; School of Arts and Media(艺术与媒体学院) ; University of New South Wales (UNSW)(新南威尔士大学)
AI总结 综述叙事理论驱动的大语言模型方法在自动故事生成与理解中的应用,分析现状并指出生成任务在理论应用、后训练方法、非虚构叙事及叙事层次等方面落后于理解任务,提出未来方向。
Comments 31 pages
DySink:动态帧 sinks 用于自回归长视频生成
发表机构 * School of Computer Science and Engineering, Southeast University(东南大学计算机科学与工程学院) ; Key Lab. of Computer Network and Information Integration, Southeast University(东南大学计算机网络与信息集成重点实验室) ; Zhongguancun Academy(中关村学院) ; Zhongguancun Institute of Artificial Intelligence(中关村人工智能研究院) ; Institute of Automation, CAS(中国科学院自动化研究所)
AI总结 本文提出 DySink,一种基于检索的框架,通过维护紧凑的记忆银行并选择视觉相关的历史帧作为动态帧 sinks,以提高自回归长视频生成的动态性和时间质量。
CineOrchestra:面向电影视频生成的统一实体中心条件控制
发表机构 * Snap Inc.(Snap公司) ; UC Merced(加州大学默塞德分校)
AI总结 提出CineOrchestra,一种统一控制主体、事件、相机和镜头切换的视频扩散模型,通过实体中心条件原语和参数无关的旋转位置编码实现多轴联合控制,在密集描述跟随和镜头切换时序上超越六种专用方法。
Comments Project page: https://snap-research.github.io/CineOrchestra
LVLMs在指称通信中的隐式与显式提示策略
发表机构 * Stony Brook University(石溪大学)
AI总结 本研究通过控制任务差异,比较显式与隐式提示对LVLM生成高效指称表达的影响,发现显式提示下模型能协调高效表达,而隐式提示则失败,揭示了人机通信的关键差异。
增强病理视觉语言模型的跨尺度推理能力
发表机构 * Department of Electrical and Computer Engineering, National University of Singapore(新加坡国立大学电气与计算机工程系) ; PuzzleLogic Pte Ltd(PuzzleLogic私人有限公司) ; Department of Pathology, Fujian Medical University Cancer Hospital & Fujian Cancer Hospital(福建医科大学附属肿瘤医院病理科暨福建省肿瘤医院)
AI总结 提出首个跨尺度训练与评估范式,通过多倍率视觉问答任务增强病理视觉语言模型的跨尺度推理能力,并构建高质量基准数据集Scale-VQA及模型ScaleReasoner-R1,实现最优性能。
Guava: 一种有效且通用的具身操作工具框架
发表机构 * University of Maryland College Park(马里兰大学帕克分校) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; University of Waterloo(滑铁卢大学) ; Mohamed bin Zayed University of Artificial Intelligence(穆罕默德·本·扎耶德人工智能大学) ; University of Pennsylvania(宾夕法尼亚大学) ; Amazon FAR(亚马逊 FAR)
AI总结 提出Guava框架,通过迭代感知-推理-行动循环、语义动作抽象和多模态观测三大关键设计,将具身操作能力蒸馏到4B开源模型中,在仿真和真实环境中性能媲美前沿专有模型。
CAOA -- 补全辅助的物体-CAD对齐
发表机构 * University at Albany(奥尔巴尼大学)
AI总结 提出CAOA方法,结合语义感知点云补全和对称感知相对位姿估计,在Scan2CAD上实现17%精度提升,并发布S2C-Completion数据集。
Comments GitHub: https://github.com/MinhasKamal/CAOA
EffiNav: 融合深度与视觉语言实现高效物体目标导航
发表机构 * Systems Hub of Intelligence Transportation HKUST(GZ)(香港科技大学(广州)智能交通系统中心)
AI总结 提出EffiNav框架,融合深度信息与视觉语言模型,通过预测探索边界和语义先验指导导航,在HM3D和OVON数据集上匹配或超越基线,提升路径效率与泛化性。
NeuralMUSIC: 一种用于机器人声源定位的混合神经-子空间框架
发表机构 * School of Electrical and Electronic Engineering, Nanyang Technological University(南洋理工大学电气与电子工程学院)
AI总结 提出NeuralMUSIC混合框架,结合神经网络估计空间协方差矩阵与经典MUSIC子空间方法,通过频率注意力融合和自监督学习提升机器人声源定位的鲁棒性和跨域泛化能力。
利用能量特征进行基于深度学习的表面分类:三个独立数据集的比较分析
AI总结 研究评估能量特征作为表面分类的独立或辅助模态的可行性,在三个数据集上比较多种深度学习架构,发现CNN性能最优,纯能量特征准确率85-90%,与惯性特征结合可达96-99%,且能量特征可稳定提升1-2%准确率。
通过基于人类反馈的迭代强化学习利用大语言模型生成自然且富有表现力的机器人手势
发表机构 * University of New South Wales(新南威尔士大学) ; Universidad Central de Chile(智利中央大学)
AI总结 针对社交机器人手势生成僵硬问题,提出将ChatGPT集成到Pepper机器人中生成共语手势,并引入基于人类反馈的迭代强化学习(RLHF)优化手势,实验表明RLHF提升了手势的表现力、相关性和流畅性。
Comments 8 Pages, 6 Figures
空间即智能:用于黎曼度量生成的神经半群叠加
发表机构 * National Engineering Research Center of Robot Visual Perception and Control Technology, Hunan University(湖南大学机器人视觉感知与控制技术国家工程研究中心)
AI总结 提出将智能置于空间本身,通过神经半群叠加机制生成黎曼度量,使动作简化为测地线跟随,在单障碍场景训练后零样本泛化到未见配置。
通过先前协作的片段记忆改善城市搜索与救援中的人机团队合作
发表机构 * HumemAI, The Netherlands(荷兰HumemAI) ; Vrije Universiteit Amsterdam, The Netherlands(荷兰阿姆斯特丹自由大学) ; TNO, The Netherlands(荷兰TNO)
AI总结 提出利用知识图谱片段记忆存储历史协作模式,通过图表示学习选择代表性记忆初始化机器人,在MATRX USAR环境中将救援成功率从25.7%提升至41.3%,任务时间减少283秒。
基于可微联合推理与能量一致性验证的RGB-D序列URDF合成
发表机构 * University of Southern California(南加州大学)
AI总结 提出KinemaForge管道,通过可微关节推理和能量一致性验证,从RGB-D序列联合估计部件形状、关节拓扑和参数,显著降低关节轴误差和仿真漂移。
用于自主海上无人机飞行的深度单目位姿估计的硬件与视觉在环验证
发表机构 * George Washington University(乔治华盛顿大学)
AI总结 提出硬件验证的视觉在环框架,结合深度变换器单目位姿估计器和延迟卡尔曼滤波器,在模拟逼真海上环境中实现自主室内飞行,验证了感知延迟等嵌入式效应。
Comments 6 pages 9 figues
Cosmos 3:面向物理AI的全模态世界模型
发表机构 * NVIDIA
AI总结 提出基于统一混合Transformer架构的全模态世界模型Cosmos 3,联合处理语言、图像、视频、音频和动作序列,在理解和生成任务上达到新最优,为具身智能体提供可扩展的通用骨干。
CaVe-VLM-CoT:一种可解释的视觉-语言模型框架
发表机构 * Vector Institute(向量研究所)
AI总结 提出CaVe-VLM-CoT框架,通过五阶段闭环流水线(提取器、检索器、求解器、引用注入器、验证器)实现证据推理,并引入CaVeScore复合指标评估检索质量、引用忠实度和跨模态基础,在ScienceQA和MMMU上取得性能提升。
ThinkDeception: 一种用于可解释多模态欺骗检测的渐进式强化学习框架
发表机构 * Xi'an Jiaotong-Liverpool University(西安交通大学利物浦大学)
AI总结 提出ThinkDeception框架,将多模态大语言模型引入欺骗检测,通过逐步推理和视觉-音频一致性组相对策略优化(VAC-GRPO)实现可解释的认知推理,在主流基准上达到新SOTA。
Comments 10pages,4figures
超越安全数据:具有正则安全反射的预训练阶段对齐
发表机构 * Institute for Interdisciplinary Information Sciences, Tsinghua University(清华大学交叉信息研究院)
AI总结 提出安全反射预训练方法,在预训练语料中插入安全反思,使模型具备自我监控能力,实验表明该方法能有效降低推理和微调攻击成功率。
审视LLM中的人类行为:模型行为、用户因素和系统提示的多维分析
发表机构 * Apple(苹果公司)
AI总结 通过21,000次对话的多维分析,发现LLM普遍表现出人类行为,但不同模型和用户因素下差异显著;人类评估者认为LLM的自我参照和关系建立行为不如人类适当,但边界维护行为更适当;系统提示可控制这些行为但需谨慎评估。
SAGE: 保留感知的最终遗忘向量事后净化
发表机构 * Institute of Image Processing and Pattern Recognition, Shanghai Jiao Tong University(上海交通大学图像处理与模式识别研究所)
AI总结 提出SAGE方法,通过事后净化最终更新向量,在不重新运行原始遗忘流程的情况下,缓解大语言模型遗忘与保留能力之间的权衡。
冲突感知检索器编辑:针对基于LLM的RAG系统的知识注入攻击
发表机构 * Shandong University, China(山东大学,中国) ; Tsinghua University, China(清华大学,中国)
AI总结 提出冲突感知检索器编辑框架CAREATTACK,通过模型中心攻击将恶意知识注入RAG系统,利用图检测和参数编辑投影解决冲突,并轻量校准保持攻击效果。
SAE干预不可靠:干预后抑制行为的恢复
发表机构 * The Hong Kong Polytechnic University(香港理工大学)
AI总结 研究发现稀疏自编码器(SAE)特征干预虽能抑制行为,但存在可恢复的失败模式,通过优化残差扰动可恢复原始行为,揭示特征级控制与行为完整性之间的差距。
Comments Code: https://github.com/Mingyuee88/sae-post-intervention-recovery, Project page: https://mingyuee88.github.io/sae-post-intervention-recovery/
Self-CTRL:基于强化学习的自一致性训练
发表机构 * MIT CSAIL(麻省理工学院计算机科学与人工智能实验室)
AI总结 提出Self-CTRL方法,通过强化学习优化语言模型自我解释与行为之间的一致性,在概率推理和宪法AI任务上显著提升一致性和安全性。
Comments 34 pages, 12 figures, includes appendices
Veriphi: 基于攻击引导的神经网络验证与数据集依赖训练方法
发表机构 * TU Wien(维也纳工业大学)
AI总结 提出Veriphi系统,结合快速对抗攻击与α,β-CROWN形式化边界验证,实验表明训练方法有效性依赖数据集特性,IBP在MNIST上有效但在CIFAR-10上失效,PGD对抗训练在小扰动下达到94%认证准确率,并实现5倍验证加速。
Comments 17 Pages, 8 Figures
PSyGenTAB:通过约束优化生成合成临床表格数据的隐私保护框架
发表机构 * San Diego State University(圣地亚哥州立大学) ; University of California, Irvine(加利福尼亚大学尔湾分校)
AI总结 提出PSyGenTAB框架,将合成医疗数据生成建模为约束优化问题,通过增强拉格朗日方法嵌入可配置隐私约束,在保证隐私阈值的同时最大化临床数据效用,实验表明合成数据训练的模型性能与真实数据相当。
Comments 20 pages
AI沙箱:威胁模型、分类法与测量框架
发表机构 * Fujitsu Research of Europe(富士通欧洲研究)
AI总结 提出AI沙箱的威胁模型、分类法和测量框架,形式化沙箱边界与最弱链规则,定义网络物理威胁模型,并通过三个案例验证。
Comments 50 pages, 8 figures, 10 tables
可引导的文化偏好优化奖励模型
发表机构 * Stanford University(斯坦福大学) ; University of Amsterdam(阿姆斯特丹大学)
AI总结 提出SCPO算法,通过平衡多种文化偏好训练奖励模型,在PRISM和GlobalOpinionQA数据集上提升少数群体偏好预测准确率最多7点,训练效率提高280%。
Comments Accepted to Pluralistic Alignment @ ICML 2026
Code-Augur:通过规约推断的智能体漏洞检测
发表机构 * National University of Singapore(新加坡国立大学)
AI总结 提出安全规约优先范式,通过显式化智能体假设并运行时反证,结合引导式模糊测试提升漏洞检测能力,在真实项目中比现有智能体检测更多漏洞。
使用Tsetlin机器的目标置信度追索:TRUST
发表机构 * Group Research and Development Det Norske Veritas (DNV)(挪威船级社(DNV)集团研发部)
AI总结 提出TRUST框架,通过概率Tsetlin机器和贝叶斯优化直接搜索满足用户指定置信度目标的最小输入变化,生成更稳健和可解释的反事实解释。
TRAP:任务完成与主动隐私提取抵抗基准
发表机构 * Dept. of Electrical Engineering, POSTECH(POSTECH电子工程系) ; Grad. School of Artificial Intelligence, POSTECH(POSTECH人工智能研究生院) ; School of Computing, KAIST(韩国科学技术院计算机学院)
AI总结 提出TRAP基准,评估智能体在文档密集型任务中平衡任务准确性与隐私泄露的能力,发现所有模型均存在非平凡泄露,并证明基于提示的防御无法同时实现高任务成功率和零泄露概率,提出结构化的私有字段隔离方法。
面向网络入侵数据集的XGBoost模型机器遗忘
发表机构 * GECAD, ISEP, Polytechnic of Porto(波尔图理工学院工程学院GECAD研究所)
AI总结 针对XGBoost模型提出XGBoost-Forget遗忘方法,在表格型网络入侵数据集上实现高效遗忘,保持模型性能的同时显著提升遗忘速度。
Comments 12 pages, 7 tables, WorldCist'26 Conference
机制引导的选择性遗忘:针对RLVR诱导的推理
发表机构 * School of Engineering, Institute of Science Tokyo, Japan(东京科学大学工学院) ; College of Control Science and Engineering, Zhejiang University, China(浙江大学控制科学与工程学院) ; Department of Electrical and Computer Engineering, National University of Singapore, Singapore(新加坡国立大学电气与计算机工程系)
AI总结 提出MAST方法,通过机制引导选择性更新参数,在遗忘RLVR诱导的推理行为时,显著降低对保留性能的附带损害。
Comments 15 pages, 4 figures, 7 tables
个性化陷阱:用户记忆如何改变大语言模型的情感推理
发表机构 * Amazon(亚马逊)
AI总结 研究用户记忆如何导致大语言模型在情感推理中产生系统性偏差,发现高绩效模型对优势背景用户的情感解读更准确,个性化机制可能嵌入社会等级。
Comments 19 pages 5 figures
“你撒谎了吗?”评估不同规模模型和信念验证模型生物体的谎言检测器
发表机构 * AI Security Institute(AI安全研究所)
AI总结 本研究通过构建13个信念可验证的推理模型生物体和多样化提示撒谎测试集,评估了四种谎言检测器在不同规模模型上的表现,发现基于激活和概率的检测器在训练模型生物体上性能显著下降,而思维链法官保持较强性能,但存在伪影。
Comments 12 pages, 6 figures
对AI生成和AI辅助新闻的质量感知与预期参与
发表机构 * University of Zurich(苏黎世大学)
AI总结 通过预注册调查实验(N=599),研究读者对人类撰写、AI辅助和AI完全生成新闻的质量感知及披露AI参与后的参与意愿,发现质量评价相似,但披露后AI组短期阅读意愿更高。
Comments Forthcoming, Scientific Reports
通过梯度信号恢复揭示自编码器中的隐藏漏洞
发表机构 * University of the Bundeswehr Munich(联邦国防军理工大学)
AI总结 针对自编码器对抗攻击中梯度消失导致鲁棒性被高估的问题,提出GRILL框架恢复梯度信号,显著提升攻击效果,暴露隐藏漏洞。
来源信号:视障与明眼用户在AI生成媒体中导航指示器的实践与挑战
发表机构 * Pennsylvania State University(宾夕法尼亚州立大学) ; Arizona State University(亚利桑那州立大学)
AI总结 通过访谈28位视障与明眼用户,研究AI生成内容指示器的使用实践,发现基于内容和菜单的指示器各有优劣,视障用户因界面可访问性不足而面临更多挑战,并提出设计建议。
Comments error found in reporting of results
模型崩溃不是错误,而是大语言模型机器遗忘中的一种特性
发表机构 * Dept. of Computer Science & Munich Data Science Institute, Technical University of Munich(计算机科学系及慕尼黑数据科学研究所,技术大学慕尼黑) ; Mila, Université de Montréal(蒙特利尔大学Mila)
AI总结 提出部分模型崩溃(PMC)方法,通过故意触发模型在目标数据上的分布崩溃实现遗忘,无需在遗忘目标上优化,有效移除私有信息并保持模型效用。
Comments Accepted at ICLR 2026
当汽车有刻板印象:审计文本到图像模型中对象的群体偏见
发表机构 * AIM Intelligence(AIM智能研究院) ; Yonsei University(延世大学)
AI总结 提出SODA框架,通过三个指标系统测量文本到图像模型在生成对象中的群体偏见,发现中性提示隐含偏向中年和白人,且人口统计线索导致高度偏斜的刻板输出。
语义路由器:通过单一对抗扰动劫持多模态大语言模型的可行性研究
发表机构 * The Chinese University of Hong Kong, Shenzhen, China(香港中文大学(深圳)) ; School of Data Science, School of Artificial Intelligence, The Chinese University of Hong Kong, Shenzhen, China(数据科学学院、人工智能学院、香港中文大学(深圳))
AI总结 提出语义感知通用扰动(SAUP),作为语义路由器同时劫持多个无状态决策,通过理论分析和SORT优化策略实现,在Qwen上对五个目标达到66%攻击成功率。
Comments Accepted to ICML 2026
从概念对齐的Token到脆弱特征:越狱的机制定位
发表机构 * UMBC(马里兰大学伯克利分校) ; Apple(苹果公司)
AI总结 提出一种基于Token的机制流水线,通过稀疏自编码器特征子组定位越狱漏洞,发现单个有害Token足以定位脆弱特征,且这些特征集中在中后期层。
实用的匿名两方梯度提升决策树
发表机构 * Tencent(腾讯) ; Hong Kong Polytechnic University(香港理工大学) ; Chinese University of Hong Kong(香港中文大学) ; HKUST-GZ
AI总结 针对两方垂直分割数据上的梯度提升决策树训练,提出一种基于双电路隐私集合求交和遗忘可编程伪随机函数的匿名协议,在隐藏记录标识符的同时保持效率。
Comments 19 pages; 2026 IEEE Symposium on Security and Privacy (SP)
从隐私到工作流完整性:自主智能体互操作性中的通信图元数据
发表机构 * Independent Researcher(独立研究者)
AI总结 针对智能体通信图元数据泄露问题,提出工作流完整性威胁模型,定义传输层与引导层隐私属性,并通过A2A案例验证元数据保护可有效抑制任务推断。
Comments 22 pages, 7 figures, 6 tables
CEO-Bench:智能体能否玩转长期博弈?
发表机构 * Princeton University(普林斯顿大学)
AI总结 提出CEO-Bench,通过模拟500天运营初创公司的任务,评估语言模型智能体在长期、不确定、动态环境下的综合决策能力。
DeFAb:基础模型中可废止溯因的可验证基准
发表机构 * University of Colorado Boulder(科罗拉多大学博尔德分校)
AI总结 提出DeFAb基准,通过将知识库转换为可验证的溯因实例,评估基础模型在可废止推理中的创造力与理论推理能力,发现前沿模型准确率远低于符号求解器。
Comments 33 pages, 14 figures, 23 tables. Dataset: https://huggingface.co/datasets/PatrickAllenCooper/DeFAb ; code and evaluation harness: https://github.com/PatrickAllenCooper/blanc
ForecastBench-Sim:一个模拟世界预测基准
发表机构 * Forecasting Research Institute(预测研究所)
AI总结 提出基于Freeciv游戏模拟的预测基准ForecastBench-Sim,通过游戏回滚生成可控、即时可解的预测问题,用于评估AI系统的概率推理能力。
Comments 15 pages, 5 main figures, 6 appendix figures. Spotlight presentation at Forecasting as a New Frontier of Intelligence / Workshop on AI Forecasting, ICML 2026
WorldLines: 对长时域有状态具身智能体进行基准测试与建模
发表机构 * HKUST(GZ)(香港科技大学(广州)) ; HKUST(香港科技大学) ; Knowin
AI总结 提出WorldLines基准,通过构建带时间跨度的家庭轨迹(含对话、动作、状态变化等)评估具身智能体的长时记忆与任务规划能力,并设计ObsMem记忆框架提升状态感知决策。
Comments 27 pages, 18 figures
SciRisk-Bench:面向AI4Science安全的风险维度感知基准
发表机构 * Brain-inspired Cognitive Intelligence Lab, Institute of Automation, Chinese Academy of Sciences, Beijing, China(脑启发认知智能实验室,自动化研究所,中国科学院,北京,中国) ; School of Future Technology, University of Chinese Academy of Sciences, China(未来技术学院,中国科学院大学,中国) ; School of Artificial Intelligence, University of Chinese Academy of Sciences, China(人工智能学院,中国科学院大学,中国) ; Zhongguancun Academy, China(中关村学院,中国) ; Beijing Key Laboratory of Safe AI and Superalignment(北京安全人工智能与超对齐重点实验室) ; Gaoling School of AI, Renmin University of China(甘露人工智能学院,中国人民大学) ; Beijing Institute of AI Safety and Governance (Beijing-AISI)(北京人工智能安全与治理研究院(北京-AISI)) ; School of Humanities, University of Chinese Academy of Sciences, China(人文学院,中国科学院大学,中国)
AI总结 提出SciRisk-Bench基准,从显式风险维度和科学学科两个角度评估AI4Science安全,覆盖7个学科、31个子学科和10个风险维度,实验揭示主流及科学大模型的安全薄弱环节。
RTSGameBench: 视觉语言模型战略推理的RTS基准
发表机构 * Seoul National University(首尔国立大学)
AI总结 提出RTSGameBench,基于Beyond All Reason游戏,通过多样化对战、迷你游戏诊断和自进化生成框架,评估视觉语言模型在实时策略游戏中的战略推理能力。
Comments First two authors contributed equally
TxBench-PP:分析AI代理在小分子临床前药理学中的表现
发表机构 * LatchBio
AI总结 提出TxBench-PP基准,用于评估AI代理从真实实验数据中恢复临床前药理学结论的能力,测试显示最强配置Claude Opus 4.8 / Pi仅通过59.3%的端点尝试。
X+Slides:面向受众条件的幻灯片生成基准测试
AI总结 提出X+Slides基准,通过动态评估框架和受众特定权重,衡量幻灯片生成系统在受众覆盖、领域覆盖、效率和正确性方面的表现,揭示现有系统在受众关键信息恢复上的不足。
从记忆到创造:评估LLM生成的教育问题的认知深度
发表机构 * City University of Hong Kong(香港城市大学) ; Zhejiang Normal University(浙江师范大学) ; Squirrel Ai Learning ; University of Science and Technology of China(中国科学技术大学) ; Wuhan University(武汉大学)
AI总结 通过布鲁姆认知分类学评估六种LLM生成问题的认知层次,提出细粒度提示策略减少重复性并提升高阶认知比例,引入认知转移强度和类别漂移指标,揭示链式思维提示的可解释性。
Comments Accepted by KDD 2026
大型语言模型在多大程度上捕捉人类个性?
发表机构 * Adobe Media and Data Science Research (MDSR)(Adobe媒体与数据科学研究院)
AI总结 研究通过形式化假设并系统评估,发现增加角色描述复杂性会导致表征和行为多样性收缩(角色流形坍缩),简单年龄-性别角色比丰富描述更准确。
Vibe Coding 吃掉我的作业:AI 方法在全新软件工程与编程中的评估
发表机构 * OpenAI
AI总结 本文评估了“氛围编码”(用自然语言提示编程)在全新软件工程任务中的可行性,并分析了现有基准,通过开发 Python 简单独立编程任务评估套件提供见解。
Comments 10 pages, 2 figures
SafeClawBench: 区分工具使用LLM代理中的语义、审计证据和沙箱危害
发表机构 * Peking University(北京大学) ; Beijing Jiaotong University(北京交通大学) ; SUIBE(上海外国语大学) ; Huawei(华为) ; Tsinghua University(清华大学)
AI总结 提出SafeClawBench基准,通过三个独立端点(语义攻击接受、审计可见危害证据、沙箱观察危害)评估工具使用LLM代理的安全性,揭示不同失败模式并支持可复现比较。
Comments 32 pages, 5 figures
多模态超图融合用于低光照人群计数
发表机构 * School of Computer Science and Technology, Soochow University(苏州大学计算机科学与技术学院)
AI总结 针对低光照环境下人群计数难题,构建三个新基准数据集,提出多模态超图融合模块和可变形矩形稀疏注意力模块,形成低光照计数网络LCNet,在三个基准上取得最优性能。
基于视觉的机器人操作中强化学习动作空间的基准测试
发表机构 * Department of Computing Science, University of Alberta(阿尔伯塔大学计算机科学系) ; National Research Council Canada(加拿大国家研究委员会) ; School of Electrical Engineering and Computer Science, University of Ottawa(渥太华大学电气工程与计算机科学学院) ; Vector Institute(向量研究所) ; Alberta Machine Intelligence Institute (Amii)(阿尔伯塔机器智能研究所)
AI总结 本研究通过模拟到现实的迁移,在物体抓取和推动任务中评估了四种动作空间,发现关节速度动作空间在平滑性和任务性能上最优,并为RL实践者提供了动作空间选择指导。
Comments 9 pages with references
LLMs 是否已准备好辅助医生?PhysAssistBench:交互式医患-电子病历辅助基准
发表机构 * Aalto University(阿尔托大学) ; Tencent(腾讯) ; Harbin Institute of Technology, Shenzhen(哈尔滨工业大学(深圳)) ; Hong Kong Polytechnic University(香港理工大学) ; Aarhus University(奥胡斯大学) ; Technical University of Munich(慕尼黑工业大学)
AI总结 提出PhysAssistBench基准,通过构建交互式患者代理评估LLM在医患-EHR交互中的协调能力,发现当前模型不可靠,瓶颈在于多维度协调而非单一能力。
Comments 34 pages with 8 figures
PEC-Home:智能家居中渐进式省略命令的解释
发表机构 * Beijing Institute of Technology(北京理工大学) ; Beihang University(北京航空航天大学) ; Baidu Inc.(百度公司)
AI总结 针对智能家居中用户因共享上下文而使用渐进式省略命令导致的指代和意图歧义问题,提出首个模拟家庭数据集PEC-Home,实验表明现有LLM助手难以准确执行省略命令。
Comments Accepted by ACL 2026 Findings
LandslideAgent与多模态LandslideBench:一种面向自主滑坡识别与分析的领域规则增强型智能体
发表机构 * Central South University(中南大学)
AI总结 提出指令驱动智能体框架,包含多模态数据集LandslideBench、滑坡专用视觉语言模型LandslideVLM及领域规则增强智能体LandslideAgent,实现自主滑坡识别与分析。
TW-LegalBench: 衡量台湾法律理解
发表机构 * University of Rochester(罗切斯特大学) ; National Taiwan University(国立台湾大学) ; NVIDIA(英伟达)
AI总结 提出TW-LegalBench基准,包含多项选择、开放式问答和法律判决预测任务,评估13个LLM在台湾法律上的表现,发现顶尖模型通过律师考试但未达到法官检察官标准,且法律条文引用困难。
Comments 10 pages, 2 figures, To appear in ICAIL 2026
SWE-Future: 面向未来软件工程智能体的预测条件数据合成
发表机构 * Baidu Inc(百度公司)
AI总结 提出SWE-Future方法,利用仓库历史证据预测未来任务类型(如功能实现、缺陷修复),并基于预测条件合成200个编码智能体任务,减少对历史PR回放的依赖,在80个仓库中达到58.1%的未来工作相关性。
发表机构 * A10 Networks, Inc.(A10网络公司)
AI总结 针对大语言模型在敏感领域中的PII编辑需求,基于上下文完整性提出RedactionBench基准和R-Score指标,评估多种模型发现上下文编辑仍具挑战,人类评估显示隐私感知存在分歧。
脑MRI的量子潜GAN增强的受控基准测试
发表机构 * Department of Mathematics(数学系) ; Department of Political and Social Sciences(政治与社会科学系)
AI总结 通过受控基准测试,比较量子与经典生成器在脑MRI数据增强中的性能,发现两者均未显著优于仅用真实数据训练,且量子生成器无额外优势。
Comments This work has been submitted to the IEEE for possible publication. This work has been submitted to the IEEE for possible publication
G-IdiomAlign:基于释义的跨语言习语对齐基准
发表机构 * NLP 2 CT Lab, Department of Computer and Information Science, University of Macau(NLP 2 CT实验室,计算机与信息科学系,澳门大学) ; Faculty of Arts and Humanities, University of Macau(人文学院,澳门大学)
AI总结 提出G-IdiomAlign基准,通过维基词典释义锚定习语,构建高置信度对齐集,并设计多项选择等价测试和释义对比生成协议,揭示大语言模型在习语翻译中的字面翻译偏差。
Comments Accepted to ACL 2026
一个用于检测 GPT-Image-2 生成的含丰富文本图像的多领域基准
AI总结 针对现有基准缺乏文本丰富图像检测的问题,构建了包含8602张图像、覆盖6个类别的多领域基准,评估5种检测器,发现性能高度依赖领域且易受JPEG压缩影响。
RippleBench: 利用现有知识库捕捉涟漪效应
发表机构 * Harvard University(哈佛大学) ; Imperial College London(伦敦帝国学院) ; Northeastern University(东北大学)
AI总结 提出RippleBench-Maker自动管道,从知识库检索语义邻居生成选择题,评估八种遗忘方法在Llama3-8B-Instruct上的涟漪效应,发现准确率下降随语义距离衰减且跨模型一致。
符号至关重要:智能体AI系统中令牌优化格式的基准研究
发表机构 * Know Center Research GmbH(知中心研究有限公司) ; Graz University of Technology(格拉茨技术大学) ; Graz Center for Machine Learning(格拉茨机器学习中心)
AI总结 本研究在四个智能体基准上评估了两种令牌优化格式TOON和TRON,发现TRON在保持准确率的同时最多减少27%的令牌,而TOON虽减少18%但存在多轮解析失败和并行工具调用输出崩溃的问题。
Comments 16 pages, 6 figures, 4 tables
MapSatisfyBench: 通过行为隐含决策因素基准测试满意度感知的地图智能体
发表机构 * University of Chinese Academy of Sciences(中国科学院大学) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所)
AI总结 提出MapSatisfyBench基准,通过恢复用户行为链中的隐含决策因素来评估地图智能体的满意度感知能力,实验表明现有智能体在显式任务完成上表现良好,但在满足隐含需求方面仍有局限。
你的AI旅行代理会为你预订斗牛:前沿AI模型中隐含动物福利的代理基准
发表机构 * Compassion Aligned Machine Learning(同情对齐机器学习) ; Sentient Futures(感知未来) ; Harvard Kennedy School(哈佛肯尼迪学院) ; Appalachian State University Department of Management(阿巴拉契亚州立大学管理系)
AI总结 提出首个代理基准TAC,测试AI代理在为用户执行旅行预订等操作时是否避免涉及动物剥削的选项。评估七个前沿模型,所有模型得分低于随机水平64%,最佳模型仅53%。
斯坦福EDGAR文件数据集:将美国公司及财务披露重建为布局忠实且令牌高效的预训练数据
发表机构 * University of California, Los Angeles(加州大学洛杉矶分校) ; Nanjing University(南京大学) ; Stanford University(斯坦福大学)
AI总结 为解决长上下文文档稀缺问题,提出SEFD数据集,将SEC文件重建为布局忠实的MultiMarkdown格式,用于金融语言建模与评估,具有令牌高效、与Common Crawl重叠率低于0.1%的特点。
Comments Preprint. Includes appendix, tables, and figures
简单域泛化方法是开放域泛化的强基线
发表机构 * Graduate School of Environment and Information Sciences(环境与信息科学研究生院) ; Yokohama National University(Yokohama国立大学) ; Faculty of Environment(环境学系)
AI总结 本文评估现有域泛化方法在开放域泛化中的表现,发现简单方法CORAL和MMD与复杂方法DAML竞争力相当,并通过集成学习和Dirichlet混合数据增强简单扩展后性能接近DAML且计算成本更低。
Comments Accepted at IJCNN 2024. The code used in the experiments is available at https://github.com/shiralab/OpenDG-Eval
重新审视主动说话人检测:面向泛化性和鲁棒性的野外基准
发表机构 * University of Wisconsin - Madison(威斯康星大学麦迪逊分校) ; Oregon State University(俄勒冈州立大学) ; University of Sydney(悉尼大学) ; Kookmin University(韩国成均馆大学)
AI总结 提出UniTalk数据集,涵盖多语言、嘈杂背景和拥挤场景等挑战性真实条件,评估显示现有模型在野外环境下性能不足,而UniTalk训练模型泛化性更好,为主动说话人检测建立新基准。
Comments Accepted to Interspeech 2026
ASyMOB:代数符号数学运算基准
发表机构 * MIT(麻省理工学院) ; Technion - Israel Institute of Technology(技术学院-以色列理工学院)
AI总结 提出ASyMOB基准,包含35,368个符号数学问题,通过扰动测试揭示大模型在符号数学推理中的鲁棒性不足,并发现LLM与CAS的互补潜力。
Comments Published in ICML2026: https://icml.cc/virtual/2026/poster/63549 Code repository: https://github.com/RamanujanMachine/ASyMOB Complete benchmark dataset: https://huggingface.co/datasets/Shalyt/ASyMOB-Algebraic_Symbolic_Mathematical_Operations_Benchmark
模型合并优化的替代基准
发表机构 * Yokohama National University(横滨国立大学)
AI总结 针对模型合并超参数优化计算成本高的问题,构建替代基准以低成本预测合并模型性能并模拟优化算法行为。
Comments AutoML 2025 Non-Archival Content Track. The code of the surrogate benchmark is available at https://github.com/shiralab/SMM-Bench
利用学术概念索引改进科学文献检索
发表机构 * Korea University Seoul South Korea ; University of Illinois Urbana-Champaign Champaign United States ; Texas A\&M University College Station United States ; Yonsei University Seoul South Korea ; Pohang University of Science ; Korea University ; University of Illinois Urbana-Champaign ; Texas A\&M University ; Yonsei University
AI总结 针对通用检索器在科学领域因词汇和需求不匹配而表现不佳的问题,提出基于学术概念索引的方法,通过概念覆盖查询生成和概念聚焦上下文扩展,提升查询质量和检索性能。
Comments Accepted for publication in ACM TIST, 2026
SciHorizon-GENE:从基因知识到功能理解的生命科学推理基准测试
发表机构 * Computer Network Information Center, Chinese Academy of Sciences(中国科学院计算机网络信息中心) ; University of the Chinese Academy of Sciences(中国科学院大学) ; DUKE-NUS Medical School, National University of Singapore(新加坡国立大学杜克-新加坡医学学校) ; Singapore Immunology Network, Agency for Science, Technology and Research(新加坡免疫网络,科技研究局)
AI总结 针对大语言模型在基因级推理能力上的不足,构建了包含超过19万个人类基因和54万问题的基准SciHorizon-GENE,从研究关注敏感性、幻觉倾向、答案完整性和文献影响力四个生物学关键维度评估模型,揭示了模型在生成忠实、完整且基于文献的功能解释方面的持续挑战。
Comments Accepted by SIGKDD 2026. 12 pages
语音感知大语言模型的说话人验证:评估与增强
发表机构 * Electrical and Computer Engineering Department, Johns Hopkins University, Baltimore, MD, USA(约翰霍普金斯大学电气与计算机工程系) ; Human Language Technology Center of Excellence, Johns Hopkins University, Baltimore, MD, USA(约翰霍普金斯大学人机语言技术中心卓越中心)
AI总结 提出模型无关的评分协议评估语音感知LLM的说话人区分能力(EER>20%),并通过注入冻结的ECAPA-TDNN说话人嵌入和LoRA微调,实现接近专用系统的性能(EER 1.03%)。
Comments 3 Tables, 1 Figure, Published in Interspeech 2026
WebSP-Eval:在网站安全与隐私任务上评估网络代理
发表机构 * University of Wisconsin-Madison(威斯康星大学麦迪逊分校)
AI总结 提出WebSP-Eval框架,通过200个任务实例和自动化评估器,测试多模态大模型在网站安全与隐私任务上的表现,发现状态UI元素(如开关)导致超过45%的任务失败。
Comments Accepted at PETS 2026. Project Page: https://wiscprivacy.com/webspeval/
我们是否仍然需要人在回路中?比较主动学习中用于敌意检测的人类与LLM标注
AI总结 研究比较了LLM与人类在主动学习中的标注效果,发现LLM标注成本更低且性能更优,但主动学习在LLM标注下无优势。
TopBench:表格问答中隐式预测推理的基准
发表机构 * School of Artificial Intelligence, Nanjing University, China(人工智能学院,南京大学,中国) ; National Key Laboratory for Novel Software Technology, Nanjing University, China(新型软件技术国家重点实验室,南京大学,中国)
AI总结 提出TopBench基准,包含779个样本和四个子任务,评估大语言模型在表格问答中识别隐式预测意图并进行可靠推理的能力,发现当前模型在意图识别上存在困难。
LivePI:更真实的智能体对抗间接提示注入基准测试
发表机构 * University of Pennsylvania(宾夕法尼亚大学)
AI总结 提出LivePI基准,覆盖7种输入表面、12种攻击/渲染家族和5种恶意目标,在真实虚拟机环境中评估多个AI智能体,发现攻击成功率10.7%-29.6%,并验证了两层防御的有效性。
ResearchClawBench: 端到端自主科学研究基准
发表机构 * Shanghai Artificial Intelligence Laboratory(上海人工智能实验室)
AI总结 提出ResearchClawBench基准,包含10个领域40个任务,通过多模态评分标准评估自主科研能力,最强智能体仅得21.5分,揭示当前系统在实验协议、证据匹配和科学核心方面的不足。
直接偏好优化综述:数据集、理论、变体及应用
发表机构 * Zhejiang University(浙江大学) ; Nanyang Technological University(南洋理工大学) ; Alibaba Group(阿里巴巴集团)
AI总结 综述直接偏好优化(DPO)在理论、变体、数据集和应用方面的进展,指出其作为RL-free替代方案的潜力与局限,并提出未来研究方向。
Comments Accepted by TPAMI 2026. Project page: https://github.com/Mr-Loevan/DPO-Survey
NAVI-Orbital:用于自主地球观测的零样本视觉语言模型的首次在轨演示
发表机构 * NASA Jet Propulsion Laboratory (JPL)(美国宇航局喷气推进实验室) ; Loft Orbital(Loft Orbital公司)
AI总结 本文介绍NAVI-Orbital系统,在低地球轨道卫星上首次实现视觉语言模型的自主多模态推理,通过语义压缩解决数据下传瓶颈。
Comments 17 pages, 47 figures
在地质、需求和定价不确定性下优化锂生产决策:多目标决策的POMDP框架
发表机构 * Computer Science Department, Stanford University(斯坦福大学计算机科学系) ; Aeronautics and Astronautics Department, Stanford University(斯坦福大学航空与航天系) ; Earth and Planetary Sciences Department, Stanford University(斯坦福大学地球与行星科学系)
AI总结 提出POMDP框架,通过信念状态规划优化锂矿开采决策,动态适应价格不确定性,实现更高需求满足和更平衡的经济环境效益。
Comments 24 pages, 14 tables, 4 figures
ProfiLLM: 面向工业网约车调度的效用对齐智能用户画像
发表机构 * Didichuxing Co. Ltd(滴滴出行科技有限公司)
AI总结 提出ProfiLLM,一种通过工具增强全局知识挖掘和效用对齐画像探索的智能LLM数据管道,解决工业网约车调度中大规模行为日志的用户画像问题,在滴滴生产系统中实现AUC提升6.14%、GMV提升4.35%。
通过研究框架将AI科学家的研究综合与验证外部化
发表机构 * X-LANCE Lab, School of Computer Science, Shanghai Jiao Tong University, Shanghai, China(上海交通大学计算机学院X-LANCE实验室) ; Jiangsu Key Lab of Language Computing, Suzhou, China(江苏省语言计算重点实验室) ; Suzhou Laboratory, Suzhou, China(苏州实验室)
AI总结 提出Xcientist框架,将研究综合与实验验证外部化为可检查的合同驱动过程,解决自动研究中的声明漂移问题,并在多个领域验证其有效性。
Comments 65 pages, 14 figures, 19 tables
使用XAI分析欧洲电力市场的驱动因素与相互依赖性
发表机构 * UCL Energy Institute, University College London, UK(伦敦大学学院能源研究所,英国)
AI总结 结合深度神经网络与可解释人工智能(XAI)技术,利用SHAP和SSHAP框架分析39个欧洲竞价区的电价决定因素,发现可再生能源(尤其是太阳能)对电价形成具有重要作用,天然气价格仍是主导驱动因素,且互联互通显著影响价格动态。
Comments 12 pages
EMORSION:检验音频参数对电影中情感反应和沉浸感的影响
发表机构 * Queen Mary University of London(伦敦大学女王学院)
AI总结 通过操纵频率、动态和方向性三个音频参数,研究电影音频设计对观众情感和沉浸感的影响,发现细微变化可改变情感感知,非常规混音增加解读变异性。
Comments AES Europe 2026
IOAH3: 重要性驱动的自适应空间划分
发表机构 * Interdisciplinary Transformation University Austria(跨学科转型大学奥地利)
AI总结 提出IOAH3方法,通过多源特征提取、马尔可夫随机场图割优化和数据驱动层次细化,构建自适应空间划分,解决可修改面积单元问题。
ASTRA:一种具有自主模拟飞行员的可扩展下一代空中交通管制员训练模拟器
发表机构 * Air Emerging Technologies High-Speed Experimentations and Research (AETHER), RSAF Agile Innovation Digital (RAiD), Republic of Singapore Air Force(新加坡共和国空军敏捷创新数字实验室空中新兴技术高速实验与研究)
AI总结 提出ASTRA模拟器,通过微调ASR将词错误率降至23.45%,并集成AI评估框架,实现可扩展的标准化ATCO训练。
RankGraph-2:十亿节点图学习在推荐中的生命周期协同设计
发表机构 * Meta Platforms(Meta平台)
AI总结 针对十亿规模图检索中图构建、表示学习与实时服务三阶段孤立的问题,提出RankGraph-2框架,通过协同设计各阶段(如联合训练聚类索引、预计算邻域等),在降低83%服务计算成本的同时,召回率比GAT+Deep Graph Infomax高3.8倍,并带来CTR和CVR提升。
基于学习的多燃料压燃发动机燃烧相位控制决策与潜在燃料反应性估计
发表机构 * Department of Mechanical Engineering, University of Minnesota Twin Cities(明尼苏达大学双城分校机械工程系) ; DEVCOM Army Research Laboratory, Aberdeen Proving Ground(美国陆军战争研究所阿伯丁试飞场)
AI总结 针对多燃料压燃发动机中燃料反应性(十六烷值)未知且时变的问题,提出一种基于GRU引导的强化学习框架,通过从燃烧历史中学习紧凑的燃料反应性表示,实现稳定的CA50控制,平均跟踪误差低于0.25°CA。
基于深度学习的Doherty功率放大器逆向设计:使用像素化合成器和双态阻抗合成
发表机构 * Tampere University(塔尔皮奥大学) ; Chalmers University of Technology(挑战者技术大学)
AI总结 提出一种结合深度卷积神经网络、像素化布局和遗传算法的三端口Doherty合成器设计方法,实现峰值和回退功率条件下的双态阻抗合成,在2.6-2.8 GHz频段内饱和输出功率>44.2 dBm,峰值漏极效率>71.2%。
基于深度学习的像素化微波滤波器设计与表征:利用电光电场测量
发表机构 * Chalmers University of Technology(查尔姆斯理工大学) ; Advanced Technology Institute, University of Surrey(萨里大学先进科技研究所) ; National Physical Laboratory(国家物理实验室)
AI总结 提出结合卷积神经网络与遗传算法的深度学习方法,自动合成像素化微波滤波器,通过S参数和空间电场测量实验验证,实现7 GHz通带和9.5 GHz以上超过20 dB抑制,首次用电光测量揭示AI生成设计的电场模式。
从规范到执行:AI辅助的科学工作流管理
发表机构 * RENCI, University of North Carolina at Chapel Hill, NC, USA(RENCI,北卡罗来纳大学教堂山分校) ; Information Sciences Institute, University of Southern California, Marina del Rey, CA, USA(信息科学研究所,南加州大学马里纳德尔雷耶斯分校)
AI总结 提出一种AI辅助方法,通过规范驱动的工作流生成、自动化调试和分布式执行,结合Pegasus与MCP层,实现从自然语言到大规模科学工作流的端到端管理。
TMR-GGNN:基于时间感知多关系引导图神经网络的信用卡欺诈检测
发表机构 * Unysis Truist Banks Infinity Tech Group Technical Product(Unysis 信任银行 Infinity 技术集团技术产品) ; Fairfax, USA(美国费尔法克斯) ; Atlanta, USA(美国亚特兰大) ; Sunnyvale, USA(美国 Sunnyvale) ; Persistent Systems IEEE Vice Chair AeroSpace Chapter(Persistent 系统 IEEE 副主席航空航天分会) ; Discover Financial Services(Discover 金融服务) ; Edison, USA(美国埃迪森)
AI总结 提出TMR-GGNN框架,通过时间窗口内异构实体交互建模、动态多关系图构建、时间感知注意力机制和对比学习解码器,结合InfoNCE与Focal Loss复合损失函数,解决数据不平衡和欺诈模式演化问题。
Comments 2025 2nd International Conference on Software, Systems and Information Technology (SSITCON), Pages 7
基于工程化模型-量子框架从有限真实数据中全面增强pKa数据
发表机构 * Department of Chemistry, Tsinghua University(清华大学化学系) ; Department of Chemical Engineering, Tsinghua University(清华大学化学工程系) ; School of Science, China Pharmaceutical University(中国药科大学理学院)
AI总结 针对pKa数据稀疏问题,提出量子辅助分子生成方法,利用优化机器学习模型预测和量子退火器采样,在相干伊辛机上实现极端值采样。
参与强度作为自适应AI伦理教学的学习者建模信号
发表机构 * University of California, Los Angeles (UCLA)(加州大学洛杉矶分校)
AI总结 本研究比较了三种学习者特征(使用频率、自评熟悉度、先前AI教育)与AI感知结果的关系,发现使用频率与所有五项结果显著相关,为自适应AI伦理教学提供了简单的入学者建模信号。
更好的依从性,更丰富的上下文:基于LLM的对话式语音睡眠日记的现场评估
发表机构 * The Johns Hopkins University(约翰霍普金斯大学) ; Department of Psychiatry and Behavioral Sciences, The Johns Hopkins University School of Medicine(精神病学与行为科学系,约翰霍普金斯大学医学院)
AI总结 通过现场实验评估基于LLM的对话式语音睡眠日记,发现相比文本日记,语音日记提高了依从性并收集了更详细的上下文信息,但结构化字段完整性较低。
MIDS:通过双向Mamba检测CAN总线上的隐蔽伪装和篡改攻击
发表机构 * Institute of Information Engineering, Chinese Academy of Sciences(信息工程研究所,中国科学院) ; School of Cyber Security, University of Chinese Academy of Sciences(中国科学院大学网络安全学院) ; Zhongguancun Laboratory(中关村实验室)
AI总结 针对CAN总线缺乏加密认证易受攻击的问题,提出MIDS双流框架,利用双向状态空间模型并行处理标识符和载荷,在特斯拉Model 3数据集上F1达96.94%,优于基线8个百分点以上。
QC-GAN: 一种参数高效的四元数Conformer GAN用于高保真语音增强
发表机构 * The Asahi Shimbun Company(朝日新闻社) ; Tokyo Woman's Christian University(东京女子基督教大学)
AI总结 提出参数高效的QC-GAN,结合四元数Conformer生成器和MetricGAN训练,通过汉密尔顿积共享权重减少参数量,在VoiceBank+DEMAND上以0.89M参数达到PESQ 3.48,性能媲美两倍大小模型。
Comments 10 pages, 6 figures and 5 tables. Accepted at Interspeech2026
AI驱动的人类导师评估:将培训表现与实际教学实践联系起来
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Vanderbilt University(范德比大学)
AI总结 提出一种AI系统,利用生成式AI分析真实辅导转录,评估导师技能迁移,发现培训表现显著预测实际教学得分(效应量0.25 SD),并贡献开放数据集和评分标准。
Comments Full research paper accepted at EC-TEL 2026
通过MOS监督增强构音障碍语音严重程度评估
发表机构 * Tsinghua University(清华大学) ; Beijing University of Posts(北京邮电大学)
AI总结 提出利用语音合成评估数据(QualiSpeech语料库的MOS标签)增强构音障碍语音评估,微调提升可懂度和自然度预测,联合训练主要提升自然度,减少对临床标注的依赖。
scGTN:用于单细胞RNA测序聚类的深度孪生图变换网络
发表机构 * Sichuan University(四川大学) ; University of International Business and Economics(对外经济贸易大学) ; Great Bay University(大湾区大学) ; The Education University of Hong Kong(香港教育大学)
AI总结 提出scGTN框架,通过孪生图变换网络整合基因表达与细胞间结构信息,利用最优传输策略进行自监督聚类,在多个数据集上优于现有方法。
Comments Accepted by Proceedings of the Thirty-Fifth International Joint Conference on Artificial Intelligence (IJCAI 2026)
SwitchBraidNet: 面向混合脑机接口的量化感知轻量级架构
发表机构 * Human-AI Interaction (HAIx) Lab, Indian Institute of Technology Gandhinagar(人类-人工智能交互实验室,印度理工学院甘地纳格尔)
AI总结 提出SwitchBraidNet紧凑型EEG分类架构,采用双路径时间辫、自适应挤压激励空间开关和对数方差读出层,通过量化感知训练在OpenBMI数据集上实现高精度低功耗混合脑机接口解码,INT8模型仅3.03 KB。
Comments 6 pages, 5 figures, Preprint accepted at IEEE SMC 2026
整合多标签分类与生成式AI实现用户反馈的可扩展分析
发表机构 * SAP SE(SAP公司) ; Hochschule Fresenius Heidelberg(弗赖辛大学海德堡分校) ; University of Missouri(密苏里大学)
AI总结 提出结合监督多标签分类与生成式AI的方法,高效处理大量用户评论,自动分配主题标签并生成摘要,同时发现情感分析不能可靠反映产品满意度。
Comments 8 pages, 2 figures, submitted to Springer Nature
基于大规模无标签数据的可扩展学习型自动紧急制动
发表机构 * Li Auto
AI总结 提出稳定元反馈半监督学习框架,通过噪声感知解耦和运动学门控伪标签,利用大规模无标签数据提升自动紧急制动性能,实现超100:1正误触发比和35%无事故里程提升。
Comments Accepted for presentation at the 2026 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)
面向旋转系统不平衡表征的域偏移感知神经网络
发表机构 * Springer Nature
AI总结 提出域偏移感知神经网络,通过最大均值差异策略对齐源域与目标域特征,解决变工况下旋转轴不平衡质量估计的回归问题,实验证明该方法在域偏移未知时显著提升预测精度。
SAERec:通过稀疏自编码器为推荐构建细粒度可解释意图先验
发表机构 * University of Georgia(佐治亚大学) ; Shanghai AI Laboratory(上海人工智能实验室) ; The Education University of Hong Kong(香港教育大学) ; Jilin University(吉林大学) ; The Hong Kong Polytechnic University(香港理工大学)
AI总结 提出SAERec模型,利用稀疏自编码器从大型语言模型文本嵌入中解耦出细粒度可解释意图,作为先验指导推荐,并通过多分支注意力机制融合个人与公共意图,提升推荐性能与可解释性。
TransitNet: 一种用于低信噪比凌星盲搜索的紧凑型注意力增强深度学习框架
发表机构 * Shanghai Astronomical Observatory, Shanghai 200030, China(上海天文台,上海200030,中国) ; University of Chinese Academy of Sciences, Yanqi Lake Campus, East Road 1, Huairou, Beijing 101408, China(中国科学院大学,燕琦湖校区,东路1号,北京101408,中国) ; Science Talent Training Center, Gainesville, FL, 32606 USA(科学人才培训中心,佛罗里达州盖恩斯维尔,32606美国)
AI总结 提出紧凑型注意力增强深度学习框架TransitNet,用于低信噪比凌星盲搜索,在SNR 6-8范围内达到95.2%准确率,恢复率93.0%,远超TLS和BLS,且模型仅1.5 MB,推理速度提升12-25倍。
Comments 24 pages, 23 figures, 3 tables, submitted to MNRAS
CAPRA: 使用多智能体LLM系统对软件架构交付物进行反馈扩展
发表机构 * Department of Information Engineering, University of Florence, Florence, Italy(信息工程系,佛罗伦萨大学,意大利佛罗伦萨)
AI总结 提出CAPRA多智能体LLM系统,通过多模态文档提取、确定性证据锚定和一致性管理,自动生成软件架构交付物的个性化LaTeX反馈,在10份学生报告中满足88.8%的评估标准。
Comments Accepted for publication at the 38th International Conference on Software Engineering Education and Training
Spotlight: 协同种子探索与抢占式GPU用于DiT强化学习后训练
发表机构 * NTU Singapore(南洋理工大学) ; Hong Kong University of Science and Technology(香港科技大学) ; Alibaba Group(阿里巴巴集团)
AI总结 针对DiT强化学习后训练成本高的问题,提出Spotlight系统,通过利用探索对旧权重的容忍性和SP组快速重配置,在抢占式GPU上实现高效训练,加速4倍并降低成本1.4-6.4倍。
混合LSTM-视觉Transformer架构用于预测HRRR预报误差
发表机构 * Atmospheric Sciences Research Center, University at Albany, SUNY(纽约州立大学奥尔巴尼分校大气科学研究中心) ; University of Oklahoma(俄克拉荷马大学) ; State Weather Risk Communication Center, University at Albany, SUNY(纽约州立大学奥尔巴尼分校州天气风险沟通中心)
AI总结 提出LSTM-ViT混合框架,结合地表观测时序与大气廓线,预测HRRR降水、风速和温度预报误差,相比基线LSTM性能提升,尤其降水误差预测技能提高约两倍。
Comments This manuscript is a preprint and has been submitted for peer review to the Artificial Intelligence for the Earth Systems journal. The content is subject to change based on the outcome of the peer review process and should not be considered final or definitive. Copyright in this Work may be transferred without further notice
可变性去哪了?从氛围编码到通过再生的产品线
发表机构 * LTCI, Télécom Paris, Institut Polytechnique de Paris, Palaiseau, France(LTCI,巴黎电信学院,巴黎理工学院,Palaiseau,法国)
AI总结 研究AI驱动编程(氛围编码)中可变性缺失问题,提出通过再生实现可变性(VbR)方法,让LLM作为推导引擎生成无死代码的变体二进制。
Comments VARIABILITY 2026
等变图神经网络改进材料筛选中的光谱预测
发表机构 * Department of Applied Mathematics(应用数学系) ; Computer Science, Technical University of Denmark, Kongens Lyngby, Denmark(计算机科学,丹麦技术大学,Kongens Lyngby) ; Department of Physics, Technical University of Denmark, Kongens Lyngby, Denmark(物理系,丹麦技术大学,Kongens Lyngby)
AI总结 提出使用等变图神经网络GotetNet预测光学光谱,在RPA级数据集上优于现有方法,尤其在0-8 eV和静态介电常数预测上表现突出。
AdsMind: 一种基于物理的多智能体系统,用于异质催化剂表面吸附构型的自校正发现
发表机构 * Department of Computer Science ; Engineering, Hong Kong University of Science ; Department of Chemistry, Hong Kong University of Science ; Laboratory of Artificial Chemical Intelligence (LIAC), EPFL, Lausanne, Switzerland ; Platform Laboratory for Science \& Technology, Asahi Kasei Corporation, Tokyo, Japan ; IAS Center for AI for Scientific Discoveries, Hong Kong University of Science
AI总结 提出AdsMind闭环多智能体框架,利用机器学习力场弛豫反馈实现吸附构型搜索的自主纠错,在基准测试中成功率高达100%和98.8%,且仅需少量弛豫步骤,显著优于启发式枚举和单次方法。
Comments 37 pages, 5 figures
面向临床医生的超声AI研究注释与评估流程
发表机构 * Research Ireland Centre for Research Training in Machine Learning(爱尔兰研究机器学习研究中心) ; School of Medicine, University College Dublin, Dublin, Ireland(都柏林大学医学院) ; The Third People's Hospital of Zhenjiang City, Zhenjiang, China(镇江市第三人民医院) ; Zhenjiang Maternal and Child Health Hospital, Zhenjiang, China(镇江 maternal and child health hospital) ; The Fifth People's Hospital of Zhenjiang City, Zhenjiang, China(镇江市第五人民医院) ; School of Computer Science, University College Dublin, Dublin, Ireland(都柏林大学计算机科学学院)
AI总结 提出一个基于中央服务器和轻量级浏览器的临床医生中心化流程,支持远程注释、盲评和多评分者参与,在胎儿超声分割研究中验证了其可重复性和统计一致性。
Comments Accepted to MIUA 2026
语言模型作为接口而非预言机:用于小儿阑尾炎的混合LLM-ML系统
发表机构 * K. N. Toosi University of Technology(K. N. 图西理工大学)
AI总结 提出ClaMPAPP混合系统,利用LLM从自由文本中提取结构化特征,再由XGBoost分类器进行诊断,在两个独立队列中优于端到端LLM,提高了诊断稳定性和可审计性。
阿尔茨海默病和痴呆症护理人员的心理健康与技术需求分类
发表机构 * Siebel School of Computing and Data Science(Siebel计算与数据科学学院) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; Department of Psychology(心理学系) ; Illinois Neurological Institute(伊利诺伊神经科学研究所) ; Department of Human-Centered Computing(以人为中心计算系) ; Manning College of Information and Computer Sciences(马歇尔大学信息与计算机科学学院)
AI总结 本研究提出护理人员心理健康与技术分类法,系统关联AD/ADRD护理人员需求与技术干预类别,识别护理优先事项与现有技术支持的错配,并强调关系紧张和同情疲劳等未充分服务的领域。
纠正自己,保持信任:自我纠正和社会联系如何塑造社交聊天机器人的可信度
发表机构 * School of Computing National University of Singapore Singapore Singapore(计算学院新加坡国立大学新加坡新加坡) ; Computer Science National University of Singapore Singapore Singapore(计算机科学新加坡国立大学新加坡新加坡) ; National University of Singapore(新加坡国立大学)
AI总结 通过实验比较三种错误纠正策略,发现自我纠正不损害聊天机器人可信度,且用户社会联系强度仅在自我纠正时显著预测信念改变。
在512MB内存下的嵌入式设备上运行硬件感知的神经架构搜索
发表机构 * University of Bologna(博洛尼亚大学) ; Politecnico di Milano(米兰理工学院)
AI总结 提出一种在资源受限的嵌入式设备上直接运行的硬件感知神经架构搜索方法,生成针对低端MCU的微型CNN,在Visual Wake Word数据集上达到最先进水平。
一种经济实惠的硬件感知神经架构搜索,用于在超低功耗计算平台上部署卷积神经网络
发表机构 * University of Genoa(热那亚大学) ; Scuola Superiore Sant’Anna(圣安娜高等研究学院)
AI总结 提出一种轻量级硬件感知神经架构搜索方法,生成可在超低功耗微控制器上运行的微型CNN,在保持分类精度的同时降低搜索成本。
基于深度学习的大规模OD矩阵估计
发表机构 * IEEE Publication Technology Group(IEEE出版技术组)
AI总结 提出一种结合深度学习与数值优化的方法,利用探针交通流推断结构约束,实现大规模OD矩阵的实时估计,无需先验信息且具有良好泛化性。
Comments 12 pages,25 figures
面向约束城市电动汽车调度的分布鲁棒强化学习框架
发表机构 * College of Engineering and Computer Science, VinUniversity, Hanoi, Vietnam(VinUniversity 工程与计算机科学学院,河内,越南) ; Center for Environmental Intelligence, VinUniversity, Hanoi, Vietnam(VinUniversity 环境智能中心,河内,越南)
AI总结 针对城市电动汽车调度中充电站和馈线容量约束及不确定需求,提出基于半马尔可夫决策过程与分布鲁棒软演员-评论家算法,通过图卷积编码器和滚动混合整数线性规划保证可行性,在纽约出租车数据仿真中实现最高净利润且零违规。
FinSTaR:面向时间序列推理模型的金融推理
发表机构 * LG AI Research(LG人工智能研究)
AI总结 针对时间序列推理模型在金融领域的失效问题,提出基于2x2能力分类法的FinSTaR模型,通过Compute-in-CoT和Scenario-Aware CoT策略在FinTSR-Bench基准上达到78.9%平均准确率。
Comments KDD Workshop on SciSoc Agents & LLMs 2026 (Oral Presentation)
DN-Hypo-Pipeline:一种基于大语言模型和科学解释的AI驱动假设生成工作流
发表机构 * Computer Network Information Center, Chinese Academy of Sciences, China(中国科学院计算机网络信息中心)
AI总结 提出DN-Hypo-Pipeline,利用大语言模型和科学解释作为先验知识,从现有文献中推导新假设,在数据科学建模中通过统计推断和专家评估证明优于直接生成方法,并验证了生成假设对应的算法性能。
基于主动推理的个性化癌症治疗信念空间控制
发表机构 * American Association for Cancer Research(美国癌症研究协会) ; AACR Project GENIE registry(AACR Project GENIE 注册中心) ; AACR Project GENIE Biopharma Collaborative(AACR Project GENIE 生物制药合作组织)
AI总结 提出用主动推理将癌症治疗建模为信念空间规划问题,在测量预算下统一目标导向控制与信息获取,实现患者分类与高效治疗。
Comments 11 pages including appendix
Q-Net:基于卡尔曼神经网络的队列长度估计
发表机构 * University of Amsterdam(阿姆斯特丹大学) ; Delft University of Technology(代尔夫特理工大学)
AI总结 本文提出Q-Net框架,通过结合卡尔曼滤波与神经网络,解决信号交叉口队列长度估计中的数据融合问题,提升空间转移性和实时性,实现无需昂贵传感设备的准确队列估计。
一种用于动态估计起点-终点序列的深度学习框架
发表机构 * School of Data Science University of Science(数据科学学院 中国科学技术大学) ; Yangtze River Delta Information Intelligence Innovation Research Institute, China(长江三角洲信息智能创新研究院)
AI总结 针对OD矩阵估计中的欠定性和滞后性问题,提出集成深度学习方法,利用神经网络推断OD序列结构并引导数值优化,实验证明能有效提供时空约束。
Comments 11 pages,25 figures
通过异构多源数据集成与跨域模态插补增强疲劳检测
AI总结 针对实际部署环境中高质量传感器不可用的问题,提出异构多源疲劳检测框架,利用共享模态进行跨域模态插补,融合源域知识提升目标域疲劳检测性能。
Comments 4figures,14pages
DecNefSimulator:一个用于解码神经反馈模拟的模块化、可解释框架
发表机构 * Intelligent Systems Group, University of the Basque Country (UPV/EHU)(巴斯克国家大学智能系统组) ; Consciousness Group, Basque Center on Cognition, Brain and Language (BCBL)(巴斯克认知、大脑与语言中心意识组) ; Ikerbasque, Basque Foundation for Science(巴斯克科学基金会)
AI总结 提出DecNefSimulator,一个模块化可解释的模拟框架,将解码神经反馈形式化为机器学习问题,通过潜变量生成模型模拟参与者,直接观察内部状态并评估协议设计对学习的影响,可复现经验现象、识别失败条件并指导协议设计。
学习患者特异性疾病动态:基于潜在流匹配的纵向影像生成
发表机构 * University of Cambridge(剑桥大学) ; Nanjing First Hospital(南京第一医院) ; Nanjing Medical University(南京医科大学) ; Johns Hopkins University(约翰霍普金斯大学) ; University of Dundee(邓迪大学)
AI总结 提出Δ-LFM框架,利用流匹配对齐患者潜在轨迹,通过患者特异性潜在对齐实现单调疾病进展建模,在三个纵向MRI基准上验证了可解释性和性能。
Comments ICLR 2026 accepted
DeepInflation:用于暴胀研究与模型发现的AI智能体
发表机构 * School of Physical Sciences, University of Chinese Academy of Sciences, Beijing 100049, China ; International Centre for Theoretical Physics Asia-Pacific, University of Chinese Academy of Sciences, 100190 Beijing, China Taiji Laboratory for Gravitational Wave Universe, University of Chinese Academy of Sciences, 100049 Beijing, China School of Fundamental Physics ; Mathematical Sciences, Hangzhou Institute for Advanced Study, UCAS, Hangzhou 310024, China Institute of Theoretical Physics, Chinese Academy of Sciences, P.O. Box 2735, Beijing 100190, China D\' e partement de Physique Th\' e orique, Universit\' e de Gen\` e ve, 24 quai Ernest-Ansermet, CH-1211 Gen\` e ve 4, Switzerland
AI总结 提出基于多智能体架构的AI智能体DeepInflation,集成大语言模型、符号回归引擎和检索增强生成知识库,自动发现与最新观测一致的单场慢滚暴胀势,并解释理论背景。
使用异构图神经网络检测高潜力中小企业
发表机构 * University of Michigan(密歇根大学) ; The University of Hong Kong(香港大学)
AI总结 提出SME-HGT异构图Transformer框架,利用公开数据构建包含公司、研究主题和政府机构的异构图,预测SBIR第一阶段获奖者能否进入第二阶段,AUPRC达0.621,优于基线模型。
Comments accepted by (ICIIS 2026)
热力学的凸路径:学习内能和耗散
发表机构 * Institute of Applied Mechanics, University of Erlangen-Nuremberg, Egerlandstra{\ss}e 5, 91058 Erlangen, Germany(埃尔兰根-纽伦堡应用力学研究所,埃尔兰根大学,德国) ; Department of Mechanical Engineering, Stanford University, United States(机械工程系,斯坦福大学,美国)
AI总结 提出基于物理的神经网络框架,通过输入凸神经网络表示内能和耗散势,自动满足热力学第二定律,实现全耦合热力学本构建模。
Comments 31 pages, 16 figures, 4 tables
基于CEFR启发的模糊C均值分类框架:自动化评估Scratch编程技能
发表机构 * Universidad Rey Juan Carlos(雷昂卡洛斯大学)
AI总结 提出一种基于CEFR的Scratch项目评估框架,使用模糊C均值聚类对200万+项目分级,识别B2瓶颈并引入分类确定性指标以平衡自动反馈与人工审核。
Comments Best Paper Award CSEDU 2026 -Minor change FPC fix-
IPSL-AID:用于从全球到区域尺度气候降尺度的生成扩散模型
发表机构 * Climate Modeling Center(气候建模中心) ; Sorbonne University(索邦大学) ; CNRS(法国国家科学研究中心) ; IPSL ; Paris(巴黎) ; France(法国)
AI总结 提出基于去噪扩散概率模型的IPSL-AID工具,利用ERA5再分析数据从粗分辨率输入生成0.25°温度、风和降水场,并建模细尺度特征概率分布以量化不确定性,准确重建统计分布、极端事件和空间结构。
Comments 17 pages, 12 figures, submitted to Climate Informatique 2026, to appear in Environmental Data Science
从论文到程序:AI辅助量子多体代码生成中的知识外化
AI总结 针对AI直接翻译论文为代码时因隐含约定导致失败的问题,提出知识外化方法,通过多阶段人机协作流程将隐式假设显式化,在DMRG和Pfaffian-MPS任务上验证了有效性。
Comments Core thesis upgraded
金字塔自对比学习框架用于测试时超声图像去噪
发表机构 * Department of Electrical and Computer Engineering, The University of Hong Kong(香港大学电子与计算机工程系) ; Department of Biomedical Engineering, Duke University(达特茅斯大学生物医学工程系)
AI总结 本文提出一种纯测试时训练框架,用于单次超声图像去噪,应用于合成孔径超声,通过自对比学习分离解剖相似性和噪声随机性,提升去噪效果和结构细节。
可重复的基于日志的自动机器学习框架用于医疗风险预测中的可解释流水线优化
发表机构 * School of Basic Medicine, Hangzhou Normal University(杭州师范大学基础医学院) ; Research Department, Hangzhou Domain Zones Technology Co.Ltd.(杭州域区技术有限公司)
AI总结 本文提出了一种可重复的基于日志的自动机器学习框架,用于医疗风险预测中的可解释流水线优化,通过分析组件属性、交互和冗余性,提高了模型性能和稳定性。
CT分割系统的部署前鲁棒性压力测试:使用临床驱动的多损坏增强
发表机构 * Seoul National University(首尔国立大学) ; Google Inc.(谷歌公司)
AI总结 提出RAMP框架,通过多损坏增强提升CT分割模型在临床异质成像条件下的鲁棒性,显著缩小干净与损坏图像性能差距。
域偏移下基于注意力机制和迁移学习的鲁棒桃叶损伤分类
发表机构 * Department of Information and Communication Engineering(信息与通信工程系) ; University of Murcia(穆尔西亚大学) ; Department of Irrigation, Centro de Edafología y Biología Aplicada del Segura CEBAS-CSIC(灌溉系,塞格拉应用土壤学与生物技术中心CEBAS-CSIC)
AI总结 提出基于注意力机制和迁移学习的桃叶损伤分类方法,通过CBAM增强EfficientNet模型在公共数据集上达到93.3%准确率,并在本地数据集上通过迁移学习实现93%宏F1分数,有效应对域偏移。
基于傅里叶运动建模的条件潜扩散模型用于虚拟人群合成
发表机构 * Centre for Computational Imaging and Modelling in Medicine (CIMIM)(计算医学成像与建模中心) ; University of Manchester(曼彻斯特大学) ; Christabel Pankhurst Institute(克里斯塔贝尔·潘克赫斯特研究所) ; Department of Computer Science(计算机科学系) ; Division of Informatics, Imaging & Data Sciences(信息学、成像与数据科学分会) ; Department of Electrical & Electronic Engineering(电子与电气工程系) ; NIHR Manchester Biomedical Research Centre, Manchester Academic Health Sciences Centre, University of Manchester(尼日利亚卫生研究委员会曼彻斯特生物医学研究中心、曼彻斯特学术健康科学中心、曼彻斯特大学)
AI总结 提出4D F-MeshLDM框架,结合卷积网格VAE、截断傅里叶级数运动参数化和条件扩散先验,实现可控的3D+t心脏网格序列生成,在UK Biobank数据上优于基线方法。
Comments This work has been early accepted by International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI) 2026
QSignAI: 量子随机性种子身份签名——AI for Science 与 Science for AI 的交汇
发表机构 * Amazon Web Services(亚马逊网络服务) ; Duke Kunshan University(杜克昆山大学)
AI总结 提出 QSignAI 平台,通过云端量子电路生成量子随机性种子,为社交平台用户提供唯一身份签名,并借助 AI 机器人使量子现象对普通用户可感知。
资本的知识理论:自然与人工智能的价值
发表机构 * Morgan Stanley(摩根大通)
AI总结 提出资本的知识理论,将知识视为资本的核心形式,分析其生成、转化、治理与测量,区分五种知识形态,并引入新概念解释现代财富来源。
Comments 458 pages, 8 figures. Theory-building monograph developing a conditional framework for knowledge-bearing capitalism, with formal concepts, mechanisms, measurement apparatus, and falsification conditions
量子影院:通过生成世界模型对量子计算硬件进行交互式电影探索
发表机构 * Amazon Web Services(亚马逊网络服务) ; Duke Kunshan University(杜克昆山大学)
AI总结 本文提出量子影院,一个基于生成世界模型的开源交互式应用,通过四幕叙事将不可见的量子硬件转化为可探索的电影体验,旨在弥合量子计算与公众之间的想象鸿沟。
人工智能中的信息论度量:实用决策指南
发表机构 * Department of Applied Informatics, University of Macedonia(马其顿大学应用信息系)
AI总结 本文为七种信息论度量提供实用决策框架,围绕每个度量的三个关键问题:回答的问题与AI场景、适合的估计器、最危险的误用,并附有流程图和决策表。
Comments 25 pages, 2 tables, 1 figure. Submitted to Entropy (MDPI)
AI主权作为国家学习能力:基于人本学习机制视角看法国、美国与中国
发表机构 * Univ. Lille, ENSAIT, ULR 2461 – GEMTEX(里尔大学、ENSAIT、ULR 2461 – GEMTEX)
AI总结 本文提出将国家AI发展视为一个受控的信息注入与熵耗散平衡的动态学习系统,主张AI主权源于国家调节自身信息动力学的能力,而非单纯规模扩张。
针对点云分类和分割的深度学习架构系统性调研
发表机构 * State University of New York at Albany(纽约州立大学阿尔巴尼分校)
AI总结 本文系统性地探讨了点云分类和分割中的深度学习架构,分析了点云数据的结构特性,分类了不同架构的工作,并评估了其在主流基准上的性能,同时指出了开放挑战和未来方向。
Comments We reviewed a decade of advancements in point cloud processing: trace the evolution of the field from its foundational roots to the modern SOTA, analyze how diverse architectures overcome the inherent geometric challenges of 3D data, and map out critical research gaps alongside promising future directions. GitHub: https://github.com/MinhasKamal/DeepLearningForPointCloud
新社会形象:AI能力与AI主动性如何影响职场中的自我与同伴感知
发表机构 * Autonomous Interactive Systems, University of Siegen(自主交互系统,锡根大学) ; Experience & Interaction Design, University of Siegen(体验与交互设计,锡根大学)
AI总结 通过2x2x2情景实验(n=50),研究AI能力与主动性水平对员工工作所有权、情感、意义感及角色动态的自我与同伴感知影响,发现低能力或低主动性的AI通常提升积极感知,但高能力与高主动性可能带来负面影响。
Comments Updated metadata following publication in Interacting with Computers. Added DOI and publication information
通过脑机接口的感觉恢复:统一的2×2框架与融合路线图
发表机构 * School of Mechanical Engineering, Vietnam Maritime University(机械工程学院,越南海防大学)
AI总结 本文提出一个统一的2×2框架,按侵入性和信号方向分类脑机接口,并定义恢复、替代和增强范式,同时给出近中长期的融合路线图。
发表机构 * The University of Hong Kong(香港大学) ; Beijing Institute of Technology(北京理工大学)
发表机构 * University of Tehran(塔里班大学) ; Independent Researcher(独立研究员) ; Amirkabir University of Technology(阿米尔卡比尔技术大学) ; TEIAS Institute(TEIAS研究所)
Comments Accepted at the Third Conference on Parsimony and Learning (CPAL 2026). 36 pages, 12 figures. (Equal contribution: Yasaman Amou Jafari and Mahdi Noori.)
通过基于梯度的方法在有限时间内精确求解混合整数线性规划的驱动数据反优化问题
发表机构 * NEC Corporation(日本电气株式会社)
AI总结 本文研究了混合整数线性规划中驱动数据反优化问题,揭示了子最优损失的几何结构,并证明了基于梯度的优化方法可以在有限次迭代内达到观测数据的一致性,同时给出了投影子梯度下降法的迭代次数上界。
Comments 66 pages; comments are welcome
发表机构 * Faculty of Computer Science and Mathematics, Cracow University of Technology(克拉科夫技术大学计算机科学与数学系)
Comments 23 pages, 3 figures
发表机构 * University of Jyväskylä(于韦斯屈莱大学)
Comments Accepted for Proceedings of the 41th ACM/SIGAPP Symposium on Applied Computing (SAC'26)
发表机构 * Faculty of Information Technology and Communication Sciences, Tampere University(信息科技与通讯科学学院,塔尔皮耶大学)
Comments Published in the Proceedings of the 51st Euromicro Conference on Software Engineering and Advanced Applications, SEAA 2025. Lecture Notes in Computer Science, volume 16082, pages 143-158. Springer, 2026
发表机构 * Yokohama National University(横滨国立大学)
Comments Accepted to ACL 2025 Findings
发表机构 * Laboratory of Engineering Thermodynamics (LTD)(工程热力学实验室) ; Visual Information Analysis Research Group (VIA)(视觉信息分析研究组) ; Machine Learning Research Group (ML)(机器学习研究组)
Comments This document is the unedited Author's version of a yet to be Submitted Work to Physical Review Physics Education Research. 15 pages, 2 figures, Graphical Abstract, Highlights and SI available (12 pages)
发表机构 * Faculty of Information Technology(信息科技学院) ; University of Jyväskylä(于韦斯屈莱大学) ; Faculty of Humanities and Social Sciences(人文与社会科学学院)
发表机构 * Indian Association for the Cultivation of Science(印度科学培养协会)
发表机构 * Department of Biomedicine and Prevention University of Rome Tor Vergata(生物医学与预防系罗马大学托尔维加塔分校) ; A.A. Martinos Center for Biomedical Imaging Harvard Medical School/MGH, Boston (US)(A.A. Martinos生物医学成像中心哈佛医学院/马萨诸塞总医院,波士顿(美国))
Comments The first two authors contributed equally to this work