From Model Scaling to System Scaling: Scaling the Harness in Agentic AI
从模型扩展到系统扩展:扩展智能体AI中的“缰绳”
发表机构 * UC Berkeley(伯克利大学)
AI总结 本文提出智能体AI的下一个瓶颈是系统扩展而非仅模型扩展,通过设计可审计、持久、模块化和可验证的架构(称为“缰绳”),并研究上下文治理、可信记忆和动态技能路由三大瓶颈,以推动智能体行为从模型能力向长期任务执行转化。
从模型扩展到系统扩展:扩展智能体AI中的“缰绳”
发表机构 * UC Berkeley(伯克利大学)
AI总结 本文提出智能体AI的下一个瓶颈是系统扩展而非仅模型扩展,通过设计可审计、持久、模块化和可验证的架构(称为“缰绳”),并研究上下文治理、可信记忆和动态技能路由三大瓶颈,以推动智能体行为从模型能力向长期任务执行转化。
从多模态大语言模型中榨取能力用于主题驱动生成
发表机构 * University of Toronto & Vector Institute(多伦多大学及向量研究所) ; Adobe(Adobe公司) ; Google(谷歌公司)
AI总结 提出一种结合多模态大语言模型和VAE身份条件的方法,通过双层级聚合模块和多阶段去噪策略,在主题驱动图像生成中实现多模态理解与身份保持的平衡,优于现有方法。
Comments 33 pages, 18 figures, Project Page: https://zsh2000.github.io/squeeze-mllm-subject-gen/
超越摘要:基于结构感知的代码变更标注与大型语言模型
发表机构 * Viterbi Faculty of Electrical and Computer Engineering(电气与计算机工程学院) ; IBM Research(IBM研究院)
AI总结 提出两阶段流水线,利用大型语言模型对代码补丁中的变更进行基于分类的标注,捕获结构关系和语义属性,以提升代码审查效率。
Comments 13 pages, 6 figures
Claw-Anything: 对更广泛访问用户数字世界的始终在线个人助手的基准测试
发表机构 * Beijing Institute of Technology(北京理工大学) ; Huawei Technologies Co., Ltd(华为技术有限公司) ; Peking University(北京大学) ; Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所)
AI总结 提出Claw-Anything基准测试,通过扩展长期活动历史、相互依赖的后端服务以及跨多设备的GUI和CLI交互三个维度,评估大型语言模型代理在始终在线环境下的性能,发现GPT-5.5仅达34.5% pass@1,并发布自动化数据生成管道提升基线模型23.7%。
VeriTrace:深度研究智能体的心智模型演化
发表机构 * Department of Engineering, University of Cambridge(剑桥大学工程系) ; TUM School of Management, Technical University of Munich(慕尼黑技术大学管理学院) ; The Alan Turing Institute(艾伦·图灵研究所)
AI总结 针对深度研究智能体面临的信息不确定性,提出VeriTrace认知图框架,通过显式反馈循环(解释更新、偏差反馈、模式修正)来演化心智模型,在DeepResearch Bench和DeepConsult上取得显著提升。
StakeBench: 评估基于市场承诺的语言理解
发表机构 * University of Bristol(布里斯托大学)
AI总结 提出StakeBench框架,通过将市场评论与可验证的交易记录关联,从市场行为中自动生成监督信号,评估语言模型对市场承诺的理解能力。
Comments 21 pages, 2 figures, 20 tables. Preprint. Dataset and evaluation code included
条件KRR:将无惩罚特征注入核方法及其在核阈值处理中的应用
发表机构 * Department of Mathematics, Nazarbayev University, Astana, Kazakhstan(纳扎尔巴耶夫大学数学系) ; Nazarbayev University Research Administration, Astana, Kazakhstan(纳扎尔巴耶夫大学研究行政部) ; Purdue University Fort Wayne, Indiana, USA(普渡大学枫林分校)
AI总结 本文通过将条件KRR简化为带残差核的KRR,理论分析了其统计性质,并展示了在核主成分和随机特征场景下优于标准KRR的条件。
Comments Accepted to ICML 2026
神经元随机注意力电路(NSAC)用于概率表示学习
发表机构 * Department of Automation, University of Science \& Technology of China, Hefei, China ; Institute of Artificial Intelligence, Hefei Comprehensive National Science Center
AI总结 提出一种受生物学启发的连续时间注意力架构NSAC,通过Ornstein-Uhlenbeck随机微分方程和NCP门控机制在logits上诱导高斯分布,实现概率输出与不确定性量化。
激活预言机的置信度与校准:用于语言模型内部的可信解释
发表机构 * University of Turin(都灵大学) ; University of Southern Denmark(南丹麦大学)
AI总结 本文研究了6种激活预言机置信度估计方法,发现bootstrap模式频率在校准上优于其他方法(ECE 5.7% vs 25.5%),而log-prob基线可作为快速分诊信号。
L2IR: 揭示图欺诈检测中的潜在意图
发表机构 * Hefei University of Technology(合肥工业大学)
AI总结 提出L2IR框架,利用大语言模型从用户行为和可疑连接中提取潜在意图,通过自适应自训练增强鲁棒性,在广泛伪装的数据集上提升图神经网络检测器的AUPRC最高达8.27%。
Comments 12 pages, 6 figures
DRScaffold:提升轻量级视觉语言模型在密集场景推理中的能力
发表机构 * Shanghai Jiao Tong University(上海交通大学)
AI总结 针对轻量级视觉语言模型在密集场景推理中缺乏显式视觉锚定导致推理链不可靠的问题,提出DRScaffold监督微调框架,通过将监督目标分解为四个因果有序阶段,在不修改架构的情况下强制进行有根据的推理,显著提升密集场景推理性能。
CITYREP:跨城市、任务和模态的城市表示统一基准
发表机构 * SpaceTimeLab, University College London, UK(伦敦大学空间时间实验室) ; DIMPact, University College London, UK(伦敦大学3DIMPact实验室) ; School of Resource and Environmental Sciences, Wuhan University, China(武汉大学资源与环境科学学院) ; State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, China(武汉大学测绘遥感信息工程国家重点实验室)
AI总结 提出CityRep基准,通过空间结构划分评估城市表示在不同模态、城市和任务上的性能,解决随机划分导致的空间泄漏和性能膨胀问题。
一切尺度:具有连续超分辨率的尺度不变扩散
发表机构 * Department of Physics, Massachusetts Institute of Technology(麻省理工学院物理系) ; Department of EECS, Massachusetts Institute of Technology(麻省理工学院电子工程与计算机科学系) ; NSF AI Institute for Artificial Intelligence and Fundamental Interactions(国家科学基金会人工智能与基础相互作用研究所) ; Institute for Data, Systems and Society, Massachusetts Institute of Technology(麻省理工学院数据、系统与社会研究所)
AI总结 提出SKILD模型,通过尺度不变扩散统一图像生成与连续超分辨率,仅改变起始时间步即可实现不同任务。
Comments 29 pages, 17 figures
一种用于光片荧光显微镜的多模态3D基础模型实现少样本分割、分类和去模糊
发表机构 * Tri-Institutional Program in Computational Biology \& Medicine, Weill Cornell Medicine, New York, NY, USA Department of Radiology, Weill Cornell Medicine, New York, NY, USA Helen ; Robert Appel Alzheimers Disease Research Institute, Feil Family Brain ; Mind Research Institute, Weill Cornell Medicine, New York, NY, USA Graduate Program in Physiology, Biophysics ; Systems Biology, Weill Cornell Medicine, New York, NY, USA Cornell Tech, New York, NY, USA Institute for Intelligent Biotechnologies (iBIO), Helmholtz Center Munich, Neuherberg, Germany Institute for Stroke ; Dementia Research, Klinikum der Universität München, Ludwig-Maximilians University Munich, Munich, Germany
AI总结 提出一种基于掩码重建与图像-文本对齐联合优化的3D基础模型,在光片荧光显微镜数据上预训练,通过少样本适应显著降低标注成本并提升分割、分类和去模糊性能。
Comments 11 pages, 3 figures
智利服务条款中潜在滥用条款的检索增强检测
发表机构 * School of Computer Engineering, Pontificia Universidad Católica de Valparaíso(Pontificia Universidad Católica de Valparaíso计算机工程学院) ; Faculty of Law, Universidad Adolfo Ibáñez(Adolfo Ibáñez大学法学院)
AI总结 提出检索增强生成框架,结合混合稠密-稀疏检索与提示增强,用于自动检测和分类智利服务条款中的潜在滥用条款,并引入包含100份合同和10,029条标注条款的语料库,实验表明该方法显著提升性能,使本地模型接近云端系统。
Comments 42 pages, 6 figures, 9 tables
AdvantageFlow: 流模型中基于优势加权的强化学习最小二乘法
发表机构 * Adobe Research(Adobe研究)
AI总结 提出AdvantageFlow算法,通过优势加权前向过程预测损失和 rollout 策略正则化,在图像生成任务中优于Flow-GRPO和负感知微调基线。
低维子空间中的学习:强化学习的正交瓶颈
AI总结 提出一种在强化学习编码器特征中插入固定正交投影以约束低维子空间的简单先验,证明其在线性可实现性假设下保持表达能力,并在实验中显示价值表示可压缩至极低维度而不损失性能。
AI辅助的系统化方法用于评估生成式AI系统
发表机构 * Cornell University(康奈尔大学) ; Microsoft Research(微软研究院)
AI总结 针对生成式AI评估中概念模糊的问题,提出AI辅助系统化方法,通过概念规范和验证工作表生成可衡量的概念规范,并评估其内容效度和信息可恢复性。
创建临床验证的皮肤镜图像数据集的方法论
发表机构 * Ivannikov Institute for System Programming of the Russian Academy of Sciences(伊万诺夫系统编程研究所,俄罗斯科学院)
AI总结 提出一种结合移动皮肤镜图像采集标准操作程序、结构化元数据信息模型和多阶段专家验证的方法,构建临床验证的皮肤镜图像数据集,用于医学信息学研究。
Comments 22 pages, 5 figures, 5 tables
Hylos: 面向模型原生空间智能的可操作性契约
AI总结 提出Hylos系统架构,通过契约约束和空间事务管理,确保生成或编辑的3D内容具备可操作性,支持CAD、机器人等下游应用。
Comments 27 pages, 7 figures. Systems/position preprint with focused artifact study
SkillOpt: 自我进化智能体技能的执行策略
发表机构 * Microsoft(微软公司) ; Shanghai Jiao Tong University(上海交通大学) ; Tongji University(同济大学) ; Fudan University(复旦大学)
AI总结 提出SkillOpt,一种系统性的可控文本空间优化器,通过分离的优化器模型对技能文档进行有界编辑,并仅在严格改善验证分数时接受编辑,从而稳定训练技能,在六个基准测试中全面优于现有方法。
Comments 27 pages, 4 figures, 6 tables
KAPLAN: 用于生存分析的Kolmogorov-Arnold可预测可学习激活网络
发表机构 * University of Cambridge(剑桥大学)
AI总结 提出KAPLAN-HR模型,利用B样条Kolmogorov-Arnold网络非参数估计条件风险函数,通过深层架构自动捕捉交互和时变效应,并证明其收敛速率仅依赖于表示平滑性,从而缓解维度灾难,在六个临床数据集上达到或超越现有方法。
Comments 9 pages, 3 figures, 13 supplementary pages. Submitted to NeurIPS 2026
SafeCtrl-RL: 通过RL驱动的提示优化的LLM对话推理时自适应行为控制
发表机构 * School of Computing, Engineering and Building Environment(计算、工程与建筑环境学院)
AI总结 提出SafeCtrl-RL框架,利用强化学习在推理时动态选择提示调整策略,无需重新训练即可抑制不安全行为,提升LLM对话的安全性和响应质量。
创意质量对齐:通过思维链微调实现专家隐性知识迁移
AI总结 本文通过低数据成本和小基模型的严格工程条件,实证验证了校准惊喜中的创意质量度量,并发现数据偏差,提出创意质量对齐方法及理论解释。
LECTOR: 科学推理图与引言生成的联合优化
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; Fudan University(复旦大学)
AI总结 提出LECTOR框架,通过逻辑-表达协同强化学习联合优化科学推理图的结构保真度和引言生成质量,在Nature Communications数据集上实现显著提升。
Comments 25 pages
持续说话人身份遗忘与最小干扰
发表机构 * Sungkyunkwan University(成均馆大学) ; Korea University(韩国大学)
AI总结 提出CORTIS框架,通过Fisher信息参数掩码和正交投影实现零样本语音合成中持续说话人身份遗忘,避免先前遗忘的说话人重新出现。
Comments preprint
QUIET: 面向LLM创意生成能力的多空白级联故事完形填空基准
AI总结 提出QUIET基准,通过多空白级联故事完形填空和基于信息论的自动评分协议,客观评估大语言模型的创意生成能力。
Step-TP: 一个基于步骤级、带有思维链推理的 LLM 引导张量程序优化数据集
发表机构 * The University of Hong Kong(香港大学) ; University of Science and Technology of China(中国科学技术大学)
AI总结 为解决 LLM 在张量程序优化中缺乏可验证步骤级监督的问题,提出 Step-TP 数据集,通过结构化思维链推理和原子步骤监督实现可靠的多步优化。
VEN-VL: 一种用于高效多模态理解的视觉集成MoE框架
发表机构 * Tsinghua University(清华大学)
AI总结 提出VEN-VL框架,通过先丰富后压缩的策略,利用视觉集成MoE和自适应路由增强视觉令牌的信息容量与密度,在少量压缩令牌下实现复杂视觉任务的性能与效率平衡。
小模型,强先验:参数高效神经PDE求解器的架构归纳偏置
发表机构 * Department of Mechanical Engineering and Applied Mechanics, University of Pennsylvania(宾夕法尼亚大学机械工程与应用力学系)
AI总结 提出WaveLiT架构,通过小模型(1-10M参数)利用小波多尺度先验实现参数高效,在多个PDE基准上媲美大100-1000倍的基础模型,并揭示先验失败模式可提供有用信号。
EchoPilot: 通过尺度空间语义提示和可靠性门控记忆实现无训练超声视频分割
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)) ; Third Affiliated Hospital of Sun Yat-Sen University(中山大学第三附属医院) ; Hong Kong Metropolitan University(香港 Metropolitan 大学)
AI总结 提出EchoPilot,一种无需训练、仅需单点点击和类别名称的超声视频分割框架,通过尺度空间语义提示解决初始化歧义,并引入可靠性门控记忆减少传播漂移,在多个数据集上达到最优性能。
Comments Early accepted to MICCAI 2026. Project page: https://keeplearning-again.github.io/EchoPilot/
从潜在空间到训练数据:最小MLP中的可解释特化
发表机构 * ITIS Software, University of Malaga(马德里大学ITIS软件)
AI总结 研究最小单隐藏层MLP中隐藏神经元是否因训练偏差而特化,以及这种特化是否改善基于原型的训练数据重构,发现覆盖正则化能提高特化比并降低重构误差,而重叠惩罚会导致原型中心被推出凸包。
通过特定恐惧症数据迁移学习定量评估创伤后应激障碍的严重程度
发表机构 * MyndBlue ; DCS Corporation ; Human in Complex Systems Division, DEVCOM Army Research Laboratory(复杂系统人类研究部,DEVCOM陆军研究实验室)
AI总结 提出基于多元核密度估计的机器学习方法,利用心率与皮肤电导信号从特定恐惧症数据迁移学习,客观评估PTSD严重程度,分类准确率86%,平均绝对误差5.6。
Comments Submitted to a peer-reviewed journal, comments welcome
先探索再求解:面向ARC-AGI-3的认知主体中的速度-深度权衡
发表机构 * Independent researcher(独立研究者)
AI总结 通过系统分析所有25个公开ARC-AGI-3游戏,发现它们均可通过非智能策略达到,并提出了一个三阶段认知主体AERA,在速度-深度权衡框架下形式化其性能。
Comments 22 pages, 3 figures. Code: https://github.com/farmountain/aera-arc3-paper (CC0)
LLM 能时间旅行吗?通过强化学习增强法律智能搜索中的时间一致性
发表机构 * Department of Computer Science and Engineering, HKUST, Hong Kong SAR, China(香港科技大学计算机科学与工程系) ; School of Law, Tsinghua University, Beijing, China(清华大学法学院) ; Cheriton School of Computer Science, University of Waterloo, Waterloo, Canada(滑铁卢大学丘成桐计算机科学系)
AI总结 提出 LegalSearch-R1 框架,结合本地 statute RAG 和在线搜索,通过强化学习在跨修订期数据上训练,以解决法律 LLM 的时间偏差和搜索代理缺乏时间约束的问题,在13项法律任务上超越现有方法。
Comments Under Review
$D^2$-Monitor: 通过犹豫感知路由实现扩散LLM的动态安全监控
发表机构 * Torr Vision Group, University of Oxford(奥克斯大学托尔视觉组) ; The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳))
AI总结 针对扩散大语言模型的安全监控问题,提出基于犹豫感知路由的双层动态监控框架$D^2$-Monitor,通过轻量级探针实时估计犹豫度并触发高容量探针,在3个数据集上以0.85M参数达到最优性能与效率平衡。
因果舌结:LLMs 能编码因果方向,但其是/否输出无法表达
发表机构 * Tsinghua Shenzhen International Graduate School(清华大学深圳国际研究生院)
AI总结 研究发现大语言模型在因果问题上存在内部编码与输出不匹配的现象,通过线性探针可从隐藏状态恢复证据支持的答案(准确率约0.97),但口头是/否回答却退化为常识答案(准确率约0.5),揭示了约+0.5的差距,称为“因果舌结”。
解释过多?理解大型语言模型推理轨迹如何影响性能和元认知
发表机构 * Aalto University(奥卢大学) ; University of Bayreuth(拜鲁特大学) ; Microsoft Research Cambridge(微软研究院剑桥)
AI总结 通过用户实验,研究大型语言模型展示推理轨迹(完整或摘要)对任务性能、信任、愉悦感和自我评估校准的影响,发现轨迹提升主观体验但无性能增益,且导致过度自信。
Comments 27 pages, 5 figures, 9 tables
从核算到协调:面向数据中心调度的虚拟水感知电-算-水关联框架
发表机构 * International Energy Agency(国际能源署) ; IEEE
AI总结 提出一个将虚拟水影响内化到电力系统调度的可微优化框架,通过深度学习实现端到端协调策略学习,在IEEE 30/118节点系统上实现约3-5%的淡水取水减少。
TIAR:基于轨迹信息的优势重加权用于大语言模型弃权学习
发表机构 * Department of Computer Science, The Pennsylvania State University(宾夕法尼亚州立大学计算机科学系)
AI总结 本文提出TIAR方法,利用GRPO中的多条轨迹作为自然弃权信号,动态重加权弃权奖励,在六个评估类别中的五个上取得最优弃权F1分数,同时保持基线准确率。
Comments 10 pages, 1 figure, 4 tables
几何演化图:从Transformer残差流中提取稳定概念探针
发表机构 * Independent Researcher(独立研究者)
AI总结 提出几何演化图(GEM)方法,通过追踪残差流中概念的方向轨迹并识别旋转停止的交接层,提取稳定的概念探针,在391个概念×模型对中优于峰值层探针的比例达66.2%。
Comments 24 pages, 3 figures. Reference implementation: rosetta_tools v1.3.1 (doi:10.5281/zenodo.20361433)
TTPrint:通过发散-收敛验证实现基于证据的TTP提取
发表机构 * Virginia Tech(弗吉尼亚理工大学) ; Universitas Ary Ginanjar(阿里甘jar大学) ; Amazon(亚马逊)
AI总结 提出TTPrint方法,采用先广泛提取后严格验证的发散-收敛设计,结合确定性证据定位与权威定义验证,在文档级TTP提取任务上显著提升宏F1分数。
Comments Preprint
面向Kubernetes清单生成的上下文-工具数据蒸馏方法及实验评估
发表机构 * RTU MIREA(俄罗斯莫斯科RTU MIREA)
AI总结 提出上下文-工具数据蒸馏方法,通过合成生成和反向指令生成构建语料库,结合外部验证器过滤,在资源受限条件下微调1.5B参数小语言模型生成Kubernetes清单,实验表明严格输出格式比增加训练样本更关键。
Comments 15 pages, 4 figures, 2 tables
当搜索成为记忆:将机器人设计试验转化为可迁移技能
发表机构 * University of Michigan(密歇根大学)
AI总结 提出Auto-Robotist,一种自进化LLM代理,通过将形态搜索轨迹提炼为自然语言技能库,实现可迁移的机器人设计知识,在EvoGym任务中提升冷启动搜索并跨设计空间迁移技能。
Comments 20 pages, 8 figures
澄清、弃权或回答?基于信念增强生成的对话策略
发表机构 * University of Amsterdam(阿姆斯特丹大学) ; MCML Munich(慕尼黑MCML) ; LMU Munich(慕尼黑莱茵-魏尔堡大学)
AI总结 提出信念增强生成(BAG)方法,通过将大语言模型自身的信念状态注入提示,使其推理多个采样响应并决定对话策略(回答、澄清或弃权),从而提升多轮模糊问答的准确性和策略决策的忠实度。
OASIS: 通过SE(3)轨迹预测实现机器人操作中的观测-动作空间对齐
发表机构 * National Key Laboratory of Human-Machine Hybrid Augmented Intelligence(人机混合增强智能国家重点实验室) ; Institute of Artificial Intelligence and Robotics, Xi’an Jiaotong University(西安交通大学人工智能与机器人研究所)
AI总结 提出OASIS视觉运动策略,通过SE(3)末端执行器轨迹预测对齐中间表示与动作空间,在仿真和真实实验中优于VLA和WAM基线。
超越架构复杂性的微调:基于DeBERTa的PIIBench广泛覆盖PII检测
AI总结 本研究通过微调DeBERTa模型,在涵盖82种实体类型的多源PIIBench数据集上实现广泛覆盖的PII检测,直接微调方法在F1分数上显著优于架构复杂的层次模型和课程扩展方法。
自适应图优化与基于大语言模型的标签传播用于经济高效实体解析
发表机构 * Hong Kong Baptist University(香港 Baptist 大学) ; Zhejiang University(浙江大学)
AI总结 提出Alper框架,通过迭代概率标签传播整合匹配与聚类,自适应融合图传播弱信号与LLM强查询,在预算约束下最大化边际增益,实现高效实体解析。
何时可以信任早期预警?从 LMS 交互日志中排除泄漏的早期结果预测
发表机构 * Gamaizer ; Université de technologie de Compiègne, CNRS, Heudiasyc(巴黎综合理工学院,法国国家科学研究中心,Heudiasyc实验室) ; Sorbonne Université, CNRS UMR 7585, LPMHE(索邦大学,法国国家科学研究中心,LPMHE实验室)
AI总结 针对学习管理系统日志中早期预测结果因时间泄漏而被高估的问题,提出 LEAP 协议(排除泄漏的早期可用性协议),通过截止优先截断和特征溯源审计防止后截止证据进入基准,并在 OULAD 数据集上验证了多种方法的性能。
关于自由探索对多臂老虎机遗憾最小化的益处
发表机构 * Department of Mathematics, National University of Singapore(新加坡国立大学数学系) ; Department of Mathematics, Department of Electrical and Computer Engineering, National University of Singapore(新加坡国立大学数学系、电子与计算机工程系)
AI总结 本文研究在初始自由探索阶段后最小化累积遗憾的多臂老虎机问题,提出一种两阶段算法UFE-KLUCB-H,并证明其相比无自由探索的策略能严格减少遗憾。
Comments 55 pages
NPSolver: 具有迭代物理监督的神经泊松求解器
发表机构 * Gaoling School of Artificial Intelligence(高岭人工智能学院) ; Renmin University of China(中国人民大学) ; School of Mechanics and Engineering Science(力学与工程科学学院) ; Peking University(北京大学) ; AI for Science Institute(AI for Science研究院) ; University of Chinese Academy of Sciences(中国科学院大学)
AI总结 提出NPSolver,通过迭代物理监督(利用少量PCG步骤)训练无标签的神经泊松求解器,并引入边界感知Transolver架构,在2D/3D不规则几何上优于物理信息和数据驱动基线。
Comments kdd 2026
MDGMIX: 边界感知的子图混合用于多域图预训练
发表机构 * School of Computer Science(计算机科学学院) ; Technology, Xidian University, Xi’an, China(技术学院,西安电子科技大学) ; School of Artificial Intelligence, Xidian University, Xi’an, China(人工智能学院,西安电子科技大学)
AI总结 针对多域图预训练中的数据冗余问题,提出MDGMIX框架,通过边界感知子图混合与层次判别学习解耦共享和域特定模式,并在适配时使用轻量级提示加权机制,在少样本分类任务中优于强基线且效率更高。
Comments Accepted by ICML2026
通过交叉注意力激活投影实现扩散模型的概念遗忘
发表机构 * CSE, POSTECH(POSTECH计算机科学系) ; GSAI, POSTECH(POSTECH通用人工智能实验室)
AI总结 提出PURE方法,利用交叉注意力激活空间构建遗忘和保留基,通过线性投影编辑权重,在保持保留概念的同时有效消除目标概念。
病理基础模型在空间域理解中的基准测试
发表机构 * School of Artificial Intelligence, University of Chinese Academy of Sciences(中国科学院大学人工智能学院) ; Brainnetome Center, Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所脑网膜工程中心) ; Beijing Key Laboratory of Brainnetome and Brain-Computer Interface, Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所北京脑网膜与脑机接口重点实验室) ; DAMO Academy, Alibaba Group(阿里云达摩院) ; ShanghaiTech University(上海科技大学)
AI总结 提出SpaPath-Bench基准,通过空间域识别任务评估病理基础模型在区分组织区域和捕获空间关系方面的表示能力。
Comments MICCAI2026
DeGRe: 密集监督的生成式重排序用于推荐
发表机构 * College of Software, Zhejiang University Hangzhou China ; Rajax Network Technology, Taobao Shangou of Alibaba Hangzhou China ; Rajax Network Technology, Taobao Shangou of Alibaba Beijing China ; State Key Lab of CAD\&CG, Zhejiang University Hangzhou China ; Rajax Network Technology, Taobao Shangou of Alibaba Shanghai China ; College of Software, Zhejiang University ; Rajax Network Technology, Taobao Shangou of Alibaba ; State Key Lab of CAD\&CG, Zhejiang University
AI总结 提出DeGRe框架,通过离线探索中的密集监督信号(Lookahead Evaluator)指导在线生成器(Online Generator)进行单步贪婪解码,解决重排序中的启发式标签偏差和信用分配问题。
Comments Accepted to KDD 2026 (ADS Track)
以智能体为中心的社交轨迹预测:自由能原理视角
发表机构 * University of Glasgow(格拉斯哥大学) ; Southwest Jiaotong University(西南交通大学)
AI总结 针对现有轨迹预测方法依赖全局状态、部分可观测下信念推理不足及缺乏认知行为约束的问题,提出基于自由能原理的智能体中心轨迹预测框架FEP-Diff,通过双分支时空编码器、目标条件信念学习器和残差扩散轨迹生成器,在受限可观测条件下实现认知合理的预测。
Comments 10 pages, 4 figures
基于结构引导编排的多智能体协调适应
发表机构 * Nanjing University(南京大学) ; University of Technology Sydney(悉尼科技大学) ; University of New South Wales(新南威尔士大学)
AI总结 提出MACA框架,通过概率视角将多智能体协调视为结构与编排的联合后验推断,利用任务和预算条件结构先验指导策略编排,实现高效自适应协调,性能平均提升8.42%且令牌消耗减少43.19%。
Comments 21 pages
公理化设计的深度剖析——第一部分:问题表述
发表机构 * Technische Universität Dresden(德累斯顿理工大学)
AI总结 本文聚焦公理化设计中的问题表述步骤,澄清一级功能需求的定义与特性,分析常见误区与困难,并提供实用指导,最后探讨大语言模型在该步骤中的作用。
Comments The paper is accepted at the ICAD 2026 - MIT and the final camera ready will be available once it got published by the Springer
学习搜索与搜索学习以实现规划中的泛化
发表机构 * Department of Machine Learning and Reasoning, RWTH Aachen University(机器学习与推理部门,亚琛RWTH大学)
AI总结 提出一种结合关系图神经网络值启发式的自改进WA*学习框架,通过搜索引导和Q学习更新启发式,实现零样本泛化,在多个规划任务中优于深度强化学习。
Comments Accepted at ICML 2026
FLOATBench:浮式海上风力发电机塔架疲劳数据集与基准
发表机构 * Department of Mechanical Engineering(机械工程系) ; Massachusetts Institute of Technology(麻省理工学院) ; School of Engineering(工程学院) ; Brown University(布朗大学) ; CONSTRUCT, Faculty of Engineering University of Porto(CONSTRUCT,工程学院,葡萄牙波尔图大学) ; University of Aveiro(阿维罗大学)
AI总结 提出FLOATBench,一个包含582,120个疲劳损伤标签的表格基准,基于22 MW浮式风机塔架的高保真仿真,并引入工况感知的评估协议以检测随机划分无法发现的性能排名变化。
AgentHijack:基准测试计算机使用智能体对常见环境干扰的鲁棒性
发表机构 * TMLR Group, Hong Kong Baptist University(香港 Baptist 大学 TMLR 团体) ; The University of Texas at Austin(德克萨斯大学奥斯汀分校) ; Sydney AI Centre, The University of Sydney(悉尼大学 AI 中心) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室)
AI总结 提出AgentHijack基准,通过9种可配置的常见环境干扰评估多模态大语言模型驱动的计算机使用智能体的鲁棒性,并设计AgentHijack-Agent框架提升其抗干扰能力。
Comments accepted by ICML 2026
LLM应如何消费高质量数据?通过质量感知的功能缩放定律实现最优数据调度
发表机构 * Peking University(北京大学) ; Meituan(美团)
AI总结 本文通过引入数据质量维度扩展功能缩放定律,解析求解了联合数据质量和批次大小调度问题,揭示了高质量数据的双重角色,并提出了Drop-Stable-Rampup调度策略,在15B MoE模型上相比WSD和余弦衰减分别提升平均准确率+1.70和+2.98。
面向嵌入式边缘部署的剖析驱动自适应分布式Transformer推理
发表机构 * Aarhus University(奥胡斯大学) ; Tampere University(塔尔基耶大学)
AI总结 通过结合分段均值压缩和轻量级离线剖析,自适应地在运行时选择本地或分布式执行,解决了嵌入式设备上分布式Transformer推理中CPU-GPU通信瓶颈问题,相比全张量交换降低了65%-77%延迟和34%-52%能耗。
不要重新训练,只需重用:从单目标扩散模型中恢复双目标分子
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)) ; Guangzhou University of Chinese Medicine(广州中医药大学)
AI总结 提出REUSE框架,通过层次化进化输入空间搜索,从冻结的单目标扩散模型中恢复双目标分子,无需重新训练或修改扩散过程,在双目标亲和力上提升20.9个百分点。
用语言模型模拟人类记忆
发表机构 * NYU(纽约大学) ; UMass Amherst(马萨诸塞大学阿姆赫斯特分校)
AI总结 本研究通过心理学经典记忆实验对比语言模型与人类记忆,发现未经调优的模型记忆优于人类,但通过提示策略和压缩器可使模型遗忘方式更接近人类,从而在下游教育任务中成为更有效的用户模拟器。
引用安全性作为AI评估的新范式
发表机构 * University College London(伦敦大学学院) ; Alan Turing Institute(艾伦·图灵研究所) ; King's College London(国王学院伦敦)
AI总结 针对AI系统持续更新导致评估标识不稳定问题,提出引用安全性范式,通过将模型身份作为可验证属性来确保评估的可重复性、纵向审计有效性和跨提供商等价性。
面向AI原生软件生产的元工程框架:一种基于合约的对抗性验证架构及早期部署报告
发表机构 * HireNimbus
AI总结 提出一种元工程框架,通过合约驱动、角色专业化AI代理和对抗性验证,实现AI原生软件的持续生产、验证与改进,并在小型服务公司的CTO即服务场景中部署17项功能,验证了其可靠性。
Comments 17 pages, 2 figures, early deployment report
Posture Clip:坐姿端正,否则不让你工作
发表机构 * Faculty of Information Technology and Communication Sciences(信息科技与通讯科学学院) ; Tampere University(塔尔基马亚大学) ; School of Forest Sciences(森林科学学院) ; University of Eastern Finland(东芬兰大学)
AI总结 提出一种名为PostureClip的衣夹式设备,通过屏幕变黑和恢复来限制用户弯腰工作,实验表明其能显著改善坐姿角度并减少弯腰时长。
Comments Published online by Cambridge University Press on 14 May 2026
AutoSG: 仅从任务提示出发的LLM驱动的昂贵优化求解器生成
发表机构 * Xidian University(西安电子科技大学) ; Victoria University of Wellington(威灵顿维多利亚大学)
AI总结 提出AutoSG框架,通过检索增强生成、单步自优化和无实例评估机制,从自然语言提示直接生成可执行定制求解器,解决昂贵优化中的幻觉、结构破坏和评估成本问题。
为每个行动投保:自主AI代理运行时精算控制的权威边界框架
发表机构 * Department of Risk Management and Insurance(风险管理与保险系)
AI总结 提出精算行动接口(AAI)和权威边界框架,通过确定性运行时合约对自主AI代理的副作用行动进行定价、门控和评估,实现跨领域的精算控制与基准测试。
Comments 35 pages, 4 figures, 11 tables. Companion paper on the mathematical foundations: SSRN 6761960
回归简约潜在变量:从视觉基础学习以任务为中心的世界模型
发表机构 * University of California, San Diego(加州大学圣地亚哥分校)
AI总结 提出TC-WM框架,通过将预训练视觉嵌入线性投影为紧凑潜在状态、对比学习对齐子空间并重建嵌入,将基础模型特征转化为任务充分的世界表示,实现更好的世界建模质量和控制精度。
激活稀疏性与平坦极小值之间的联系
发表机构 * State Key Laboratory for Novel Software Technology, Nanjing University(南京大学新型软件技术国家重点实验室) ; Institute of Brain-Machine Interface, Nanjing University(南京大学脑机接口研究院) ; School of Computer Science and Engineering, Southeast University(东南大学计算机科学与工程学院)
AI总结 本文发现损失景观的平坦性与Transformer中MLP激活稀疏性密切相关,通过理论推导和三种实用方法增强稀疏性,显著降低推理和训练成本。
通过电路引导的内外不一致性检测不忠实的思维链
发表机构 * Jilin University(吉林大学) ; University of Central Florida(中央佛罗里达大学) ; Arizona State University(亚利桑那州立大学) ; University of Vienna(维也纳大学) ; University of North Carolina at Chapel Hill(北卡罗来纳大学教堂山分校)
AI总结 提出CIE-Scorer框架,通过追踪句子级电路并利用Fused Gromov-Wasserstein距离度量内部与外部推理图的不一致性,实现实例级思维链不忠实检测,在FaithCoT-Bench上取得最优性能并降低电路构建成本。
面向大语言模型可控模拟不完美学生的基准
发表机构 * Holon Institute of Technology(霍隆理工学院) ; Afeka Tel Aviv Academic College of Engineering(阿法卡特拉维夫工程学院)
AI总结 本研究提出一个基准框架,通过提示控制语言模型模拟具有指定技能轮廓的学生,并评估其可控性,为教师教育中的刻意练习提供支持。
Comments 22 pages, 7 figures
作用于未知:面向分散式多机器人任务分配的无通信协同过滤
发表机构 * Holon Institute of Technology(霍洛技术学院) ; Afeka Tel Aviv Academic College of Engineering(阿法卡特拉维夫工程学院)
AI总结 针对零知识多机器人任务分配问题,提出基于在线低秩协同过滤的SwarmCF方法,无需通信、先验知识或协调者,实现每个机器人在未见任务上的有效行动,并证明其样本复杂度优势。
Comments 27 pages, 12 figures
基于流形分解的几何流匹配分子构象生成
发表机构 * The Hong Kong Polytechnic University(香港理工大学)
AI总结 提出GO-Flow方法,通过将生成过程分解为平移、旋转和构象三个物理子空间,利用流形上的最优传输和测地流,解决现有方法忽略分子几何层次结构的问题,实现高质量、高效率的分子构象生成。
Mosaic: 通过向量场混合的组合式多概念擦除
发表机构 * Department of Artificial Intelligence, Yonsei University(延世大学人工智能系) ; School of Integrated Technology, Yonsei University(延世大学整合技术学院)
AI总结 针对流式文本到图像模型中同时擦除多个目标概念的任务,提出Mosaic框架,通过动态构建概念特定掩码并选择性混合向量场,无需额外优化即可有效移除复杂场景中的多概念。
PennySynth:基于RAG的数据合成用于自动量子代码生成
发表机构 * eBRAIN Lab, Division of Engineering, New York University Abu Dhabi (NYUAD)(eBRAIN实验室,工程系,纽约大学阿布扎比分校) ; Center for Quantum and Topological Systems (CQTS), NYUAD Research Institute(量子与拓扑系统中心(CQTS),NYUAD研究所) ; Department of Computer Science and Engineering, NYU Tandon School of Engineering(计算机科学与工程系,纽约大学坦顿工程学院)
AI总结 提出PennySynth框架,通过检索增强生成和代码感知嵌入,利用13,389个PennyLane指令-代码对数据集,在QHack竞赛中实现52%-68%的pass@5,显著提升量子代码生成的结构有效性和功能正确性。
Comments 11 pages, 3 figures
基于大语言模型的不确定性推理用于可解释疾病诊断
发表机构 * National University of Singapore(新加坡国立大学) ; Griffith University(格里菲斯大学)
AI总结 提出一种神经符号推理框架,将大语言模型与模糊逻辑和声明式规则结合,实现可解释且形式可验证的医学诊断。
超越查询记忆化:基于查询分解和历史匹配的大语言模型路由
发表机构 * Tencent Hunyuan(腾讯文言) ; University of Chinese Academy of Sciences(中国科学院大学)
AI总结 提出DecoR路由框架,通过查询能力分解和历史日志匹配来避免记忆化陷阱,在保持高准确率的同时降低推理成本。
PHGNet: 原型引导的超图构建用于异质时空预测
发表机构 * Shenzhen Ubiquitous Data Enabling Key Lab(深圳通用数据赋能重点实验室) ; Shenzhen International Graduate School, Tsinghua University(深圳国际研究生学院,清华大学) ; School of Computer Science and Engineering(计算机科学与工程学院) ; University of Electronic Science and Technology of China(电子科技大学)
AI总结 提出基于原型引导超图构建的时空预测框架PHGNet,通过原型学习机制自适应地将模式相似节点分配到超边以捕获高阶交互,并引入全局-局部节点表示模块和迭代残差细化与时间查询注意力机制提升预测精度。
BC协议:结构化双专家对话用于生成高质量思维链后训练数据
AI总结 针对大语言模型后训练中高质量专家思维链数据生产瓶颈,提出BC协议——一种结构化双专家引出方法,通过配对领域专家与知识工程师,系统外化专家隐性判断为自然语言推理链,实验证明其在推理过程自然性上具有压倒性优势。
Si'multaneous 'S'patial-'T'emporal Message Passing for Dynamic Graph Representation Learning
发表机构 * Department of Computer Science and Engineering(计算机科学与工程系) ; Indian Institute of Technology Gandhinagar(印度理工学院甘地纳加尔)
AI总结 提出SiST-GNN,通过在一个消息传递操作中融合空间和时间信号,实现动态图表示学习的联合推理,在链接预测任务上超越先前方法109%-277%。
ADMFormer:一种用于交通预测的具有时变掩码空间注意力的自适应分解Transformer
发表机构 * Shenzhen International Graduate School(深圳国际研究生院) ; Tsinghua University(清华大学) ; School of Computer Science and Engineering(计算机科学与工程学院) ; University of Electronic Science and Technology of China(电子科技大学) ; Shenzhen Ubiquitous Data Enabling Key Lab(深圳 ubiquitous 数据赋能重点实验室)
AI总结 提出ADMFormer,通过自适应分解机制解耦交通序列中的稳定周期规律与事件驱动波动,并使用时变掩码空间注意力稀疏化动态空间依赖,实现交通预测的SOTA性能。
TopoAlign:拓扑感知的视觉表示对齐
发表机构 * University of Utah(犹他大学) ; ETH Zürich(苏黎世联邦理工学院)
AI总结 提出TopoAlign框架,利用拓扑数据分析中的mapper图,通过联合力导向优化、自动结构匹配区域检测和基序查询,从拓扑角度比较不同模型或层的表示结构对齐。
基于大语言模型的代码生成任务的三级综述:趋势、挑战与未来方向
发表机构 * University of Limerick(利默里克大学)
AI总结 本三级综述综合了30篇二级研究(2017-2025年),分析了基于大语言模型的代码生成任务在出版趋势、效果、场景、集成挑战和未来方向上的证据,发现基准测试准确率高但泛化性弱,鲁棒性脆弱,效率问题普遍,毒性和偏见报告不足,主要挑战涉及经济可行性、评估有效性和社会技术集成。
个性化再存储:面向长时程智能体的个性化记忆基准测试与学习
发表机构 * KAIST(韩国科学技术院)
AI总结 针对现有基于大语言模型的记忆系统采用通用静态策略忽略用户间存储上下文差异的问题,提出首个个性化记忆基准PerMemBench和会话级存储门控框架,验证个性化能显著提升记忆保留但精确门控仍是关键挑战。
Comments preprint
StructBreak: 多模态大语言模型中结构性认知过载引发的安全故障
发表机构 * Key Laboratory of Trustworthy Distributed Computing and Service (MoE), Beijing University of Posts and Telecommunications(可信分布式计算与服务重点实验室(MoE),北京邮电大学) ; Institute of Computing Technology, Chinese Academy of Sciences(中国科学院计算技术研究所)
AI总结 提出StructBreak框架,通过量化结构性认知过载(SCO)揭示一种高阶认知过载攻击范式,在六种主流MLLM上实现92%平均攻击成功率,并证明该攻击通过结构性通道绕过安全过滤器。
Comments 23 pages; accepted to Findings of ACL 2026. This paper contains examples of harmful content
受放射科医生启发的乳腺超声诊断的跨阶段注意力多专家网络
发表机构 * International Agency for Research on Cancer (IARC)(国际癌症研究机构) ; World Health Organization(世界卫生组织)
AI总结 提出跨阶段注意力混合专家网络(CSA-MoE-Net),通过跨阶段注意力模块增强多级特征、三分支MoE块从全肿瘤图像、肿瘤核心和边界学习互补特征,并在平衡数据集上实现96.33%准确率,显著优于基线ResNet-18。
什么被引用:AI 问答引擎中的竞争性生成式引擎优化
发表机构 * Sprinklr
AI总结 研究 AI 问答引擎中两个检索候选源竞争时,哪些因素决定哪个源被优先引用,通过控制实验发现主题相关性和列表位置是主要驱动因素。
生成式人工智能对北京城市内部不平等和技能溢价的影响
发表机构 * School of Architecture, Tsinghua University(清华大学建筑学院) ; ZODA LAB(ZODA实验室) ; Technology Innovation Center for Smart Human Settlements and Spatial Planning & Governance, Ministry of Natural Resources, Tsinghua University(智能人居环境与空间规划及治理技术创新中心,自然资源部,清华大学)
AI总结 利用北京2018-2024年500万条招聘数据,通过五个大语言模型评估任务级暴露度,构建社区级生成式人工智能暴露指数,发现生成式人工智能暴露集中在核心区,导致高暴露社区工资停滞和“高技能陷阱”,挑战了技能偏向技术变革理论。
Comments 21 pages, 8 figures
面向教育方面情感分析的可控合成基准
发表机构 * Intelligent Systems, Afeka Academic College of Engineering(阿法卡学术工程智能系统学院) ; School of Computer Science, Faculty of Sciences, Holon Institute of Technology(霍洛技术学院计算机科学学院)
AI总结 为解决教育领域标注数据稀缺问题,提出一个包含10,000条合成课程评论和20个教学方面的可控合成基准,并通过实验验证了任务难度及合成到真实的迁移能力。
Comments 39 pages, 14 figures
ATWL:一种用于表示、比较和重用可视化分析工作流的正式语言
发表机构 * Fraunhofer Institute IAIS(弗劳恩霍夫研究所IAIS) ; Lamarr Institute for Machine Learning and Artificial Intelligence(拉马尔机器学习与人工智能研究所) ; City St George’s, University of London(伦敦大学城市圣乔治学院) ; University of Zurich(苏黎世大学) ; University of Stuttgart(斯图加特大学)
AI总结 提出ATWL语言,通过模块化本体和标准化意图形式化表示可视化分析工作流,结合LLM提取工作流,实现结构比较和重用。
测试时自适应条件用于稳定音频驱动说话头生成
发表机构 * School of Business, University of New South Wales (UNSW)(新南威尔士大学商学院) ; School of Engineering and Built Environment, Griffith University(格里菲斯大学工程与环境学院)
AI总结 提出一种无需参数训练的测试时自适应条件框架(TT-SAC),通过反馈循环调整条件表示,提升预训练说话头生成器的身份保持、时间一致性和感知质量。
Comments Research report
EXPO-FT:面向视觉-语言-动作模型的样本高效强化学习微调
发表机构 * Stanford University(斯坦福大学)
AI总结 提出EXPO-FT系统,通过样本高效的强化学习微调预训练的VLA策略,在多种高精度操作任务中实现完美性能(30/30成功率),平均仅需19.1分钟在线机器人数据。
IndexMem: 基于潜在记忆的学习型KV缓存驱逐策略用于长上下文LLM推理
发表机构 * The Hong Kong University of Science(香港科学与技术大学) ; Zhejiang University(浙江大学)
AI总结 提出一种可学习的索引器预测KV重要性,并结合轻量级潜在记忆模块压缩被驱逐的令牌,以在有限KV预算下实现准确的长上下文推理。
从模拟到行动:后训练语言模型识别并回应自身生成
发表机构 * Institute for Advanced Study, Princeton(普林斯顿高级研究院) ; Anthropic
AI总结 本文发现后训练语言模型能够识别自身生成(on-policy)并降低输出熵,通过内部表示输入意外性来调节,且显式识别与隐式识别机制不同。
Comments Anthropic fellows project mentored by Jack Lindsey
AI在治疗对话中的内容审核
AI总结 研究审计三种主流内容审核系统(OpenAI、Meta、Google)在真实治疗对话中的标记行为,揭示其限制LLM作为治疗师的潜力。
面向常规心电图广谱心血管评估的信号-语言基础模型
发表机构 * Department of Cardiology, Zhongshan Hospital of Fudan University(复旦大学中山医院心内科) ; Shanghai Institute of Cardiovascular Diseases, National Clinical Research Centre for Interventional Medicine(上海心血管病研究所,国家介入医学临床研究中心) ; Digital Medical Research Center, School of Basic Medical Sciences, Fudan University(复旦大学基础医学研究院数字医疗研究中心) ; Shanghai Key Laboratory of Medical Imaging Computing and Computer Assisted Intervention(上海医学影像计算与计算机辅助手术重点实验室) ; National Heart and Lung Institute, Imperial College London, Hammersmith Hospital, Du Cane Road(伦敦帝国学院国家心肺研究所,哈马舍姆医院,杜肯路) ; Department of Cardiology, Shanghai Geriatric Medical Center(上海老年医学中心心内科) ; Cardiac Rhythm Management, Medtronic Technology Center, Medtronic (Shanghai) Ltd.(美敦力技术中心,美敦力(上海)有限公司,心律管理部) ; Richard A. and Susan F. Smith Center for Outcomes Research in Cardiology, Beth Israel Deaconess Medical Center, Harvard Medical School(哈佛医学院比尔·德·阿克谢心脏结局研究中心,贝斯以色列·德aconess医疗中心) ; Harvard-Thorndike Electrophysiology Institute, Beth Israel Deaconess Medical Center, Harvard Medical School(哈佛-托尔恩迪克电生理研究所,贝斯以色列·德aconess医疗中心,哈佛医学院) ; Department of Cardiology, Imperial College Healthcare NHS Trust(伦敦帝国学院医疗信托心内科部) ; Department of Cardiology, Chelsea and Westminster NHS Foundation Trust(切尔西和温斯洛医院 NHS 基础信托心内科部) ; Department of Computer Science and Technology, University of Cambridge(剑桥大学计算机科学与技术系)
AI总结 提出ECGCLIP信号-语言对比学习框架,通过大规模心电图-报告预训练,在89项下游任务中超越基线,实现对常见心律失常、超声心动图靶标及罕见心脏病的广谱评估。
用于评估手术反馈质量的多智能体LLM框架
发表机构 * Computing + Mathematical Sciences, California Institute of Technology(加州理工学院计算与数学科学系) ; Department of Urology, Cedars-Sinai(塞斯医疗中心泌尿科) ; Keck School of Medicine, University of Southern California(美国南加州大学凯克医学院)
AI总结 提出一个两阶段LLM框架,通过多智能体提示和手术领域知识注入发现可解释的反馈质量标准,并利用LLM作为评判者自动评分,在预测反馈有效性上优于先前方法。
Comments 25 pages, 3 figures
OpenClaw 代理的安全性:基础、攻击与对策
发表机构 * School of Cyber Science and Engineering, Xi'an Jiaotong University(西安交通大学网络科学与工程学院)
AI总结 本文综述了 OpenClaw 代理的安全挑战,分类分析了技能投毒、认知操纵、多代理级联故障和供应链漏洞等威胁,并总结了现有防御机制。
Comments 17 pages, 13 figures
CODESKILL:学习自进化技能的编码智能体
发表机构 * Nanyang Technological University(南洋理工大学) ; Zhejiang University(浙江大学)
AI总结 提出CODESKILL框架,通过强化学习从编码智能体轨迹中提取多粒度程序性技能并维护技能库,提升下游任务解决能力。
逐点绑定视觉特征
发表机构 * Princeton University(普林斯顿大学) ; Mila – Quebec AI Institute(魁北克AI研究所) ; Université de Montréal(蒙特利尔大学)
AI总结 研究通过文本引导的“指向”机制解决视觉语言模型在多目标场景中的绑定问题,发现该机制诱导内部视觉搜索程序,消除绑定错误并实现组合泛化。
SeqRoute: 通过离线强化学习实现全局预算感知的顺序LLM路由
发表机构 * Department of Operations Research and Industrial Engineering(运筹学与工业工程系)
AI总结 提出SeqRoute框架,将多轮LLM路由建模为有限时域马尔可夫决策过程,通过离线强化学习(CQL)和事后预算重标记(HBR)学习延迟满足,在全局预算约束下优化成本与质量,降低破产率至1%以下。
面向多智能体协作的令牌/KV缓存通信介质选择与资源分配策略
发表机构 * State Key Laboratory of Novel Software Technology, Nanjing University, Nanjing, 210008, China(新型软件技术国家重点实验室,南京大学,南京) ; Institute of Intelligent Networks and Communications (NINE), Nanjing University (Suzhou Campus), Suzhou, 215163, China(智能网络与通信研究院(NINE),南京大学(苏州校区),苏州)
AI总结 针对多智能体协作中异构交互介质带来的端到端延迟权衡问题,提出一种联合通信介质选择与无线资源分配的优化方法,并设计低复杂度算法以最小化延迟。
SomaliBench Eval:衡量开源语言模型中英语到索马里语的拒绝差距
发表机构 * Independent researcher(独立研究人员)
AI总结 通过构建索马里语有害意图基准并评估四个开源模型,发现英语到索马里语的拒绝率存在显著差距,且多数非拒绝输出为不流畅的无效内容。
Comments 12 pages, 3 figures, 4 tables. Code: https://github.com/khaledyusuf44/somalibench_eval Dataset: https://huggingface.co/datasets/khaledyusuf44/somalibench-v0
面向端到端基于大语言模型的删失感知生存分析
发表机构 * Department of Population Health Science, Weill Cornell Medicine(人口健康科学系,韦尔·科恩医学中心) ; Weill Cornell Medicine(韦尔·科恩医学中心)
AI总结 提出LLMSurvival框架,通过成对排序重制定时间事件预测,实现删失感知的生存分析,在ICU死亡率和骨折风险预测中优于Cox比例风险模型和三种深度学习模型。
子空间引导的语义与拓扑不变配准用于无标注超声平面质量控制
发表机构 * Hunan University(湖南大学) ; Shenzhen Maternity and Child Healthcare Hospital(深圳妇幼保健医院)
AI总结 提出STRIQ框架,通过子空间引导的配准一致性度量,实现无标注超声平面质量控制,达到与临床质量评分的最优相关性。
Comments MICCAI 2026 Accepted Paper; Subspace-Guided Registration for Ultrasound Quality Control
Second Guess: 通过弃权和答案稳定性检测小型语言模型的不确定性
发表机构 * University of Southern California(南加州大学) ; Information Sciences Institute(信息科学研究所)
AI总结 提出一种轻量级、无参数的提示技术Second Guess,通过添加“我不知道”选项并观察答案稳定性,在多项选择问答中实现弃权,有效检测小型语言模型的不确定性。
Evo-Attacker: 用于LLM-MAS长时程工具攻击的记忆增强强化学习
发表机构 * Beihang University(北航) ; Beijing University of Posts and Telecommunications(北京邮电大学) ; China Academy of Information and Communications Technology(信息通信技术研究院)
AI总结 提出Evo-Attacker,通过记忆增强强化学习框架将工具攻击建模为自进化过程,并引入Attack-Flow GRPO优化长时程信用分配,实验表明其优于基线方法。
Comments ACL 2026 main
基于SAM模型和掩码引导的弱监督伪装目标检测
发表机构 * School of Computer Science(计算机科学学院) ; Technology, Ocean University of China, Qingdao 266100, China(技术,中国海洋大学,青岛266100,中国)
AI总结 提出MGNet网络,利用SAM模型生成伪标签,通过级联掩码解码器、上下文增强模块和掩码引导特征聚合模块,实现弱监督伪装目标检测,性能与全监督方法相当。
Comments 18 pages
对抗正交解缠用于LVLM幻觉缓解
发表机构 * Fudan University(复旦大学) ; Tencent(腾讯) ; Nanjing University(南京大学) ; Southeast University(东南大学) ; Great Bay University(大坝大学) ; TeleAI, China Telecom(TeleAI,中国电信)
AI总结 提出对抗正交解缠(AOD)框架,通过最小最大目标学习幻觉相关方向,并利用双前向对比解码策略,在不需额外训练的情况下缓解大型视觉语言模型(LVLM)的幻觉问题。
AI相关的词汇转变跨越34种语言:新闻写作中的跨语言趋同与历时采纳
发表机构 * Florida State University(佛罗里达州立大学)
AI总结 通过分析34种语言的新闻语料,使用GPT-4.1续写诊断方法,发现AI过度使用的词汇在跨语言中呈现语义趋同,且ChatGPT发布后这些词汇的使用频率显著增加。
Comments 19 pages (9-page main body, plus references and appendices), 3 figures; ACL ARR reviewed, committed to EMNLP 2026
Context-CoT:通过高质量推理合成增强上下文学习
发表机构 * Peking University(北京大学) ; Xiamen University(厦门大学) ; Tsinghua University(清华大学)
AI总结 针对大语言模型在动态提取和应用新知识方面的上下文学习能力不足,提出Context-CoT方法,通过合成高质量推理链来增强上下文学习,在CL-Bench上显著提升性能。
基于预训练潜在空间中近似高斯混合结构的认证鲁棒性
发表机构 * CS & MINDS Johns Hopkins University(计算机科学与MINDS约翰霍普金斯大学) ; CIS University of Pennsylvania(计算机与信息科学宾夕法尼亚大学) ; AMS & MINDS Johns Hopkins University(人工智能与机器学习系约翰霍普金斯大学) ; ESE, Radiology & IDEAS University of Pennsylvania(工程科学与放射学系及IDEAS宾夕法尼亚大学)
AI总结 本文提出一个框架,利用预训练编码器将输入映射到近似高斯混合的潜在分布,通过理论分析证明鲁棒性退化有界,从而实现可认证鲁棒分类器,在CIFAR-10和ImageNet上达到最优或竞争性的认证准确率。
基于深度图拉普拉斯正则化的参数高效CT重建
发表机构 * Mechanical and Industrial Engineering Department(机械与工业工程系)
AI总结 提出深度图拉普拉斯正则化(Deep GLR)方法,通过将二次图正则化集成到近端前向-后向分裂优化框架中,仅用少量参数和数据即可实现低剂量CT重建的噪声抑制,在参数效率和数据效率上显著优于现有方法。
Comments 7 pages, 3 figures, conference
用于学习和规划的并行可微可达性:带认证的神经动力学与控制器
发表机构 * MIT(麻省理工学院)
AI总结 提出一种基于JAX的并行可微可达性框架,结合泰勒模型流形构建与CROWN线性界传播,支持GPU批处理和自动微分,并用于认证训练和可达性感知的MPC,在非抓取操作和四旋翼任务中实现在线规划与有界不确定性下的认证可达集过近似。
Comments Robotics: Science and Systems XXII (RSS 2026)
一种用于高效大语言模型的通用张量结构压缩方案
发表机构 * School of Physical Sciences, University of Chinese Academy of Sciences(中国科学院大学物理科学学院) ; Kavli Institute for Theoretical Sciences, University of Chinese Academy of Sciences(中国科学院大学理论科学研究院) ; Center for Quantum Physics and Intelligent Sciences, Department of Physics, Capital Normal University(首都师范大学量子物理与智能科学中心) ; Institute of Theoretical Physics, Chinese Academy of Sciences(中国科学院理论物理研究所)
AI总结 提出张量混合(MixT)方案,通过将密集线性层替换为张量算子混合体,在保持MMLU准确率的同时大幅减少参数、FLOPs和内存。
Comments 12 pages, 4 figures
CausalFlow: LLM Agent 失败的因果归因与反事实修复
发表机构 * Department of Computer Science University of California, Davis(计算机科学系加州大学戴维斯分校)
AI总结 提出CausalFlow框架,通过反事实干预计算步骤级因果责任分数,识别失败步骤并生成最小编辑修复,用于测试时修复和训练时监督,在多个基准上优于启发式方法。
UWM-JEPA:在信念空间中进行想象的世界预测模型
发表机构 * AgentField AI
AI总结 针对部分可观测环境,提出UWM-JEPA模型,通过密度矩阵潜变量和酉预测器在信念空间中保持联合状态谱,实现长时域盲推演下的不确定性保持,显著优于向量潜变量基线。
Comments 14 pages, 6 figures, 7 tables. Code and data: https://github.com/santoshkumarradha/uwm-jepa
基于神经形态激光雷达的鸟瞰图目标检测:使用节能脉冲神经网络
发表机构 * Valeo, Germany(德国瓦莱欧公司) ; Valeo, Ireland(爱尔兰瓦莱欧公司) ; TU Ilmenau, Germany(德国伊门豪大学)
AI总结 提出一种端到端脉冲编码器-解码器网络,用于激光雷达点云鸟瞰图表示中的目标检测,通过代理梯度反向传播训练,在KITTI基准上达到高精度,并实现3.33倍突触操作能耗降低。
AI 制图:绘制 AI 基准生态系统的潜在景观
发表机构 * Open LLM Leaderboard(开放大语言模型排行榜) ; HELM ; ICML(国际机器学习会议)
AI总结 针对排行榜分数受测量噪声影响的问题,提出基于验证性因子分析和概化理论的框架,分解排名方差来源,揭示基准间关系、局部依赖性及元数据影响,并比较显式与潜在缩放律的可靠性。
经典枚举几何中的正性:同步AI辅助数学的案例研究
发表机构 * Department of Mathematics, Aarhus University(阿arhus大学数学系) ; Eötvös University Budapest(布达佩斯欧多维奇大学) ; Alfréd Rényi Institute of Mathematics(阿尔弗雷德·雷尼数学研究所)
AI总结 研究对称多项式∏_{α∈A_{n,d}}(1+α_1 x_1+⋯+α_n x_n)(即Sym^d(C^n)的全陈类)的齐次部分c_k(n,d)的结构,通过AI与人类协作证明相关猜想、建立显式公式并研究对数凹性。
Comments 29 pages
潜在Q-屏障屏蔽用于安全上下文强化学习
发表机构 * University of Virginia(弗吉尼亚大学)
AI总结 提出一种潜在Q-屏障屏蔽方法,通过学习上下文表示、潜在动力学和集成成本评论家,在部署时无需参数更新即可根据剩余预算和预测未来成本过滤或软重加权候选动作,从而改善安全上下文强化学习在分布外转移下的奖励-安全权衡。
Mimir:大规模多语言概念建模
发表机构 * Department of Computer Science(计算机科学系) ; University of Bari Aldo Moro(巴里阿尔多·莫罗大学)
AI总结 提出Mimir,一个1.6B参数的大规模概念模型,通过多语言预训练和指令微调实现概念级别的理解与生成,替代传统的token预测范式。
首先,不伤害:打破媒体推荐中的自杀性回音室
发表机构 * E.T.S.I. Sistemas Informáticos (Universidad Politécnica de Madrid)(马德里理工大学信息系统工程系)
AI总结 针对推荐系统在心理健康场景中可能加剧用户自杀倾向的问题,提出RankAid重排序方法,通过惩罚有害内容并提升治疗性内容,在保持推荐准确性的同时确保临床安全。
Comments 10 pages, 5 figures. Research on safety-aware recommender systems and algorithmic ethics
猜猜统一模型:从生成的图像中我们能恢复多少?
发表机构 * Princeton University(普林斯顿大学)
AI总结 本文研究统一模型生成图像的可分离性,通过七个模型的大量图像实验,发现模型归因高度可行,且语义内容对可分离性有贡献但非主导信号。
CoSPlay: 测试时协作自我博弈与自生成代码和单元测试
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)) ; Institute of Deep Perception Technology, JITRI, Wuxi, China(深度感知技术研究院,无锡,中国)
AI总结 提出CoSPlay框架,通过代码与单元测试的协作自我博弈,在无真实单元测试的情况下迭代优化两者,显著提升代码生成性能。
Comments Code is available at: https://github.com/sanae-ai/CosPlay | Data & log is available at: https://huggingface.co/datasets/yomi017/CosPlay
面向未知有效维度的实用贝叶斯优化的自动随机嵌入
发表机构 * Shanghai Institute of AI for Education, and School of Computer Science and Technology, East China Normal University(上海人工智能教育研究院,东华大学计算机科学与技术学院) ; Ant Group(蚂蚁集团) ; Nanjing University(南京大学)
AI总结 提出动态共享嵌入贝叶斯优化(DSEBO)方法,通过自动调整子空间维度并共享查询解,平衡近似与优化误差,在高维优化中显著降低遗憾和时间成本。
Comments This paper has been accepted by IJCAI 2026
PilotWiMAE:面向无线信道的导频原生表示学习
发表机构 * Center for Pervasive Communications and Computing, University of California, Irvine(加州大学尔湾分校普及通信与计算中心) ; Nokia and Universitat Pompeu Fabra(诺基亚与庞培法布拉大学)
AI总结 提出PilotWiMAE自监督框架,直接处理噪声导频观测,通过分解注意力机制和补丁归一化重构,在缩小观测空间的同时实现跨频段波束选择和信道表征,优于监督基线。
保守与非保守漂移模型的有限粒子收敛速率
发表机构 * Department of Statistics, University of California, Davis(加州大学戴维斯分校统计系)
AI总结 针对一步生成建模,提出保守漂移方法(用核密度估计梯度速度替代位移速度)并证明连续时间有限粒子收敛界,同时分析非保守方法(Laplace核)的对应速率。
理解数据时间性对大型语言模型预训练的影响
发表机构 * Kyutai
AI总结 研究预训练数据顺序对大型语言模型获取时间敏感事实知识的影响,通过构建包含7000多个时间相关问题的基准并训练60亿参数模型,发现按时间顺序训练比随机打乱训练能产生更及时和精确的知识。
TimeGuard: 面向时间序列预测中后门防御的通道式池化训练
发表机构 * College of Computing(计算学院) ; Data Science, Nanyang Technological University, Singapore(数据科学,新加坡南洋理工大学)
AI总结 针对时间序列预测中后门攻击防御难题,提出基于通道式池化训练的TimeGuard方法,通过时间感知池初始化与距离正则化损失选择缓解信号稀释与损失退化,显著提升鲁棒性。
Comments 44 pages, 30 figures. ICML 2026
基准测试与改进LLMs中的分布外对齐失败监控器
发表机构 * University of California, Berkeley, USA(加州大学伯克利分校) ; Haize Labs, New York, USA(Haize实验室) ; Google DeepMind, India(谷歌DeepMind)
AI总结 针对大语言模型在分布外情境下的安全与对齐失败问题,提出MOOD基准并证明结合守卫模型与OOD检测器可提升监控召回率。
魔鬼在于条件数:为什么GLU优于非GLU结构?
发表机构 * State Key Laboratory of AI Safety, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China(人工智能安全国家重点实验室,计算技术研究所,中国科学院,北京100190,中国) ; School of Computer Science and Technology, University of Chinese Academy of Sciences, Beijing 101408, China(中国科学院大学计算机科学与技术学院,北京101408,中国) ; Beijing Academy of Artificial Intelligence (BAAI), Beijing, China(北京人工智能研究院(BAAI),北京,中国)
AI总结 通过神经正切核分析,发现门控线性单元(GLU)通过重塑核谱、减小条件数来加速优化收敛,而非主要降低泛化差距。
Comments Accepted by ICML 2026
CounterFlow: 一种用于反事实视频拟音生成的两阶段推理时采样方法
发表机构 * Kim Jaechul Graduate School of AI, KAIST(金 Jaechul人工智能研究生院,韩国科学技术院)
AI总结 提出CounterFlow,一种两阶段推理时采样方案,用于预训练的流匹配VT2A模型,以生成与视觉证据矛盾但时间同步的反事实视频拟音,并通过新指标评估替换质量。
Comments accepted to CVPR 2026 Workshop on Sight and Sound
通过全循环Transformer简单稳定循环
发表机构 * Hong Kong Baptist University(香港 Baptist 大学) ; Jilin University(吉林大学)
AI总结 针对循环Transformer在迭代次数增加时出现的训练不稳定性,提出全循环Transformer,通过全循环架构和注意力注入两种无参数修改,稳定训练至12次循环,下游任务性能提升最高13.2%。
ESI-Bench: 迈向闭环感知-动作的具身空间智能
发表机构 * Stanford University(斯坦福大学) ; UCLA(加州大学洛杉矶分校) ; Northwestern University(西北大学)
AI总结 提出ESI-BENCH基准,通过主动探索(感知、移动、操作)在OmniGibson环境中评估具身空间智能,发现主动探索显著优于被动方法,失败主因是动作盲视而非感知弱,且模型存在元认知差距。
Comments https://esi-bench.github.io/
可视化不可见:生成式视觉定位赋能多模态大语言模型的通用脑电图理解
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Microsoft Research Asia(微软亚洲研究院)
AI总结 提出生成式视觉定位(GVG)框架,通过脑电图到图像的生成模型作为视觉翻译器,为多模态大语言模型提供结构化视觉上下文,以增强非视觉脑电图的理解和临床状态解释。
BacktestBench:面向自动化量化策略回测的大语言模型基准测试
发表机构 * Beijing Normal University(北京师范大学) ; Elmleaf Ltd.(Elmleaf公司)
AI总结 提出首个大规模自动化量化回测基准BacktestBench,包含18,246个问答对,并设计多智能体基线AutoBacktest,通过协调摘要器、检索器和编码器实现自然语言策略到可重复回测的转换。
Comments This paper has been accepted by KDD 2026 (Datasets and Benchmarks Track)
L-Drive:超越单一映射——潜在上下文驱动时间序列预测
发表机构 * Business University, Yantai, Shandong, China(山东商业大学) ; Ludong University, Yantai, Shandong, China(鲁东大学)
AI总结 针对分布偏移和机制变化导致直接映射范式在转折点响应滞后的问题,提出L-Drive框架,通过引入潜在上下文表征高层动态并利用门控调制增量表示,提升对变化段的适应能力,同时采用补丁共享相对位置基函数增强段内结构建模,实现预测精度与计算效率的更好平衡。
基于世界模型的自监督分层视觉推理
发表机构 * Department of Electronic Engineering and Information Science, University of Science and Technology of China(电子工程与信息科学系,中国科学技术大学) ; Institute of Artificial Intelligence, Hefei Comprehensive National Science Center(人工智能研究院,合肥综合性国家科学中心)
AI总结 提出ResDreamer,一种分层世界模型,通过自监督方式学习残差表示,实现高效视觉推理,在3D开放环境中达到最先进的样本和参数效率。
人类如何处理AI生成的幻觉内容:一项神经影像学研究
发表机构 * Department of Computer Science and Technology, Tsinghua University, Beijing, China(清华大学计算机科学与技术系) ; Institute of Trustworthy Embodied AI, Fudan University, Shanghai, China(复旦大学可信具身人工智能研究院)
AI总结 通过EEG实验,研究人类在处理多模态大语言模型生成的幻觉与非幻觉内容时的神经动力学差异,揭示误判的幻觉内容未能触发标准神经认知事实验证通路。
数据难度与LLM微调中的泛化-外推权衡
发表机构 * IIIS, Tsinghua University(清华大学人工智能学院) ; College of AI, Tsinghua University(清华大学人工智能学院) ; Shanghai Qi Zhi Institute(上海启智研究院) ; Amazon AGI SF Lab(亚马逊AGI旧金山实验室)
AI总结 本文通过实证和理论分析,研究了监督微调中数据难度对模型行为的影响,发现数据难度与数据量共同决定泛化与外推之间的权衡,并存在最优难度随数据量增加而向更难数据偏移的规律。
Comments Accepted to ICML 2026
填补GAP:多模态大语言模型中视觉推理的粒度对齐范式
发表机构 * Qwen Large Model Application Team, Alibaba(阿里云大模型应用团队) ; Alibaba University of Waterloo(阿里大学水力学院) ; Vector Institute(向量研究所) ; Zhejiang University(浙江大学)
AI总结 提出GAP(粒度对齐范式),通过特征级、上下文级和能力引导级对齐,解决多模态大语言模型中视觉潜在推理的特征空间不匹配问题,提升感知与推理性能。
Shepherd: 一个为元代理提供形式化执行迹的运行时基座
发表机构 * Northeastern University(东北大学) ; Stanford University(斯坦福大学)
AI总结 提出Shepherd,一个基于函数式编程的Python运行时基座,将代理执行作为一等对象,通过类似Git的执行迹支持元代理的检查、分叉和重放,在三个用例中显著提升性能。
Comments 50 pages, 22 figures, 14 tables
记忆定理而非实例:通过数学推理探究SFT泛化
发表机构 * Tsinghua Shenzhen International Graduate School(清华大学深圳国际研究生院) ; Huawei Technologies(华为技术)
AI总结 针对监督微调(SFT)损害推理泛化的问题,提出Theorem-SFT方法,通过显式定理应用训练,在多个基准上取得显著提升,并揭示前馈层是推理规则的主要存储位置。
Strat-Reasoner:在多智能体游戏中增强大语言模型的战略推理能力
发表机构 * School of Software Engineering, South China University of Technology(华南理工大学软件学院) ; Department of Computer Science, University of Oxford(牛津大学计算机科学系)
AI总结 提出Strat-Reasoner框架,通过递归推理范式和集中式思维链比较模块,结合混合优势与组相对强化学习,提升大语言模型在多智能体游戏中的战略推理能力。
稀疏令牌足矣:通过令牌感知梯度优化越狱音频语言模型
发表机构 * Wuhan University ; Institute for Math \& AI, Wuhan University ; Huazhong University of Science ; Shanghai Jiao Tong University ; Xidian University
AI总结 本文提出令牌感知梯度优化(TAGO)方法,通过仅保留高梯度能量的音频令牌对应的波形梯度,实现稀疏越狱攻击,在保持高成功率的同时大幅减少优化量。
Comments To appear in the 43rd International Conference on Machine Learning (ICML 2026)
ScrapMem: 一种基于生物启发的光学遗忘机制用于设备端个性化智能体记忆
发表机构 * Nanjing Agricultural University(南京农业大学) ; Nanjing University(南京大学)
AI总结 提出ScrapMem框架,通过光学遗忘机制压缩旧记忆并构建情节记忆图,在资源受限设备上实现高效多模态长期记忆,在ATM-Bench上取得51.0% Joint@10新最优,存储降低93%,召回率提升至70.3%。
Comments 10 pages, 4 figures
MEMTIER:面向长期运行的自主AI智能体的分层内存架构与检索瓶颈分析
发表机构 * Institute for Applied AI Research(应用人工智能研究所) ; Faculty of Computer and Information Science(计算机与信息科学学院) ; Ben-Gurion University of the Negev(贝内尔-加里翁大学)
AI总结 提出MEMTIER三层内存架构,通过结构化事件存储、五信号加权检索、注意力归因权重更新、异步合并机制和PPO策略,在LongMemEval-S基准上将全上下文基线准确率从5%提升至38%,并支持本地6GB GPU运行。
Comments 11 pages, 1 figure, 5 tables. Under review
审计心理健康对话中的隐性谄媚:结构化临床状态诊断与干净匹配基准
发表机构 * Shenzhen MSU-BIT University(深圳MSU-BIT大学)
AI总结 针对心理健康对话模型中隐式谄媚(表面共情但强化消极认知)的问题,提出基于动态情感签名图(DESG)的结构化离线审计框架,通过临床状态转移评估响应方向,并在干净匹配基准上实现最优有害风险检测。
高效偏好投毒攻击离线RLHF
发表机构 * Department of Electrical and Computer Engineering, University of California, Davis, Davis, CA, USA(加州大学戴维斯分校电气与计算机工程系) ; Department of Electrical and Computer Engineering, University of Iowa, Iowa City, IA, USA(爱荷华大学电气与计算机工程系)
AI总结 针对离线RLHF中的偏好投毒攻击,提出基于梯度字典的二进制稀疏近似方法(BAL-A和BMP-A),实现高效标签翻转攻击。
Comments Accepted to ICML 2026
ClawTrace: 面向LLM智能体技能蒸馏的成本感知追踪
发表机构 * University of California San Diego(加州大学圣地亚哥分校) ; Carnegie Mellon University(卡内基梅隆大学)
AI总结 针对技能蒸馏管道缺乏每步成本信号的问题,提出ClawTrace记录成本归因轨迹并生成TraceCard,通过CostCraft生成保留、剪枝和修复三类技能补丁,发现剪枝补丁作为质量护栏而保留补丁导致回归,主张按规则类型评估可复用技能。
Comments Accepted at Agent Skills '26 Workshop, ACM Conference on AI and Agentic Systems (CAIS 2026), San José, CA, May 26, 2026
ESIA:基于能量的时空交互感知框架用于行人意图预测
发表机构 * James Watt School of Engineering, University of Glasgow(格拉斯哥大学詹姆斯·瓦特工程学院)
AI总结 提出ESIA框架,利用条件随机场和能量函数建模时空交互,通过结构一致性约束和模拟退火算法实现行人意图预测,在标准基准上达到最先进性能并提升可解释性。
Comments 13 pages, 6 figures, 3 tables
Human-1 by Josh Talks: 基于真实对话的印地语全双工对话建模框架
发表机构 * JoshTalks
AI总结 本文通过适配Moshi架构,使用自定义印地语分词器和26,000小时真实对话数据训练,提出了首个开放、可复现的印地语全双工口语对话系统,实现了自然的打断、重叠和反馈行为。
UniToolCall: 统一LLM智能体的工具使用表示、数据与评估
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Ningbo Institute of Digital Twin(宁波数字孪生研究所) ; Eastern Institute of Technology(东部技术研究所) ; Department of Computing, The Hong Kong Polytechnic University(香港理工大学计算机系)
AI总结 提出UniToolCall框架,通过标准化工具集构建、数据集生成和评估流程,结合22k+工具和390k+训练实例,引入锚点链接机制,在混合设置下使Qwen3-8B单轮严格精度达93.0%,超越GPT、Gemini和Claude。
Comments 21 pages, 10 figures, 9 tables. Code and datasets are publicly available at: https://github.com/EIT-NLP/UniToolCall
从临床叙述中学习基于偏好的目标用于动态脓毒症治疗
发表机构 * Institute of Data Science, National University of Singapore, Singapore(新加坡国立大学数据科学研究所) ; National University Hospital, Singapore(新加坡国立大学医院) ; Saw Swee Hock School of Public Health, National University of Singapore, Singapore(新加坡国立大学 Saw Swee Hock 公共卫生学院)
AI总结 提出CN-PR框架,利用大语言模型从出院小结中提取轨迹级偏好,通过偏好优化学习奖励函数,在离线强化学习中改善脓毒症治疗结果。
学习分析中的时间辍学风险:跨动态与早期窗口表示的协调生存基准
发表机构 * Applied Data Science Program(应用数据科学项目) ; Eastern University(东部大学)
AI总结 本研究使用OULAD数据集,通过协调的生存分析基准(包括动态周表示和连续时间表示)评估辍学风险模型,发现时间行为特征比静态背景属性更具预测力。
Comments 34 pages, 14 figures, 18 tables. Includes appendix with reliability diagrams, sensitivity analyses, and dataset audit tables
EditCaption: 用于图像编辑指令合成的人工精炼SFT与HAE-DPO
发表机构 * Peking University(北京大学) ; The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳)) ; Tsinghua University(清华大学) ; Beihang University(北京航空航天大学) ; Xiaohongshu Inc.(小红书公司)
AI总结 提出EditCaption两阶段后训练流程,通过人工精炼SFT和基于难度自适应错误感知DPO(HAE-DPO)提升图像编辑指令合成质量,显著降低关键错误率并超越现有模型。
AEROS:一种具有具身能力模块的单智能体操作架构
发表机构 * School of Software, Harbin Institute of Technology(哈尔滨工业大学软件学院) ; School of Computer Science and Technology, Harbin Institute of Technology(哈尔滨工业大学计算机科学与技术学院) ; School of Mathematical and Computer Sciences, Heriot-Watt University, Malaysia Campus(赫瑞-沃森大学马来西亚分校数学与计算机科学学院) ; School of Future Science and Engineering, Soochow University(苏州大学未来科学与工程学院)
AI总结 提出AEROS架构,将机器人建模为单一持久智能主体,通过可安装的具身能力模块扩展能力,实现模块化可扩展性、可组合能力执行和一致的系统级安全。
Comments Submitted to Engineering Applications of Artificial Intelligence (EAAI). 48 pages, 5 figures, 9 tables
动态双粒度技能库用于智能体强化学习
发表机构 * Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; Pengcheng Laboratory(鹏城实验室) ; Sun Yat-Sen University(中山大学) ; MemoraX AI
AI总结 提出D2Skill,一种动态双粒度技能库,通过任务技能和步骤技能分别提供高层指导和细粒度决策支持,利用配对基线回放和技能注入回放的性能差距更新技能和优化策略,在ALFWorld等任务上显著提升性能。
Comments 19 pages
表征语言模型间的线性对齐
发表机构 * Independent Researcher(独立研究者) ; Department of Computer Science(计算机科学系) ; Columbia University(哥伦比亚大学)
AI总结 研究独立训练的大语言模型间是否存在线性对齐,并探索其在文本生成、嵌入分类、分布外检测及隐私保护跨孤岛推理中的应用。
频率至关重要:用于剪枝和量化的快速模型无关数据筛选
发表机构 * University of Trento(特伦托大学)
AI总结 提出一种基于Zipf幂律的模型无关数据筛选策略ZipCal,通过最大化词汇多样性来选择校准数据,在剪枝和量化中实现与依赖模型困惑度的最先进方法相当的性能,且速度快约240倍。
Comments Added statistical analysis, mechanistic analysis and a comparison with a generative baseline. 22 pages
人工标注是否必要?用于机器翻译错误跨度检测的迭代MBR蒸馏
发表机构 * Institute of Science Tokyo(东京科学研究所) ; National Institute of Information and Communications Technology(信息与通信技术国家研究所)
AI总结 提出一种基于最小贝叶斯风险解码的迭代MBR蒸馏自演化框架,利用现成大语言模型生成伪标签,无需人工标注即可在错误跨度检测任务上超越监督基线。
PathMem: 面向病理学多模态大模型的认知对齐记忆转换
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Shenzhen University(深圳大学) ; Nanyang Technological University(南洋理工大学) ; Imperial College London(伦敦帝国学院) ; Huazhong University of Science and Technology(华中科技大学)
AI总结 提出PathMem框架,通过长期记忆与工作记忆的动态转换机制,实现结构化病理知识整合与可解释记忆控制,在WSI报告生成和开放诊断任务上达到SOTA。
基于条件归一化流的从头皮脑电无创重建深颞叶颅内脑电
发表机构 * School of Artificial Intelligence, Chongqing University of Technology(重庆理工大学人工智能学院) ; School of Smart Health, Chongqing Polytechnic University of Electronic Technology(重庆电子工程职业大学智能健康学院)
AI总结 提出NeuroFlowNet,一种基于条件归一化流的跨模态生成框架,首次从头皮脑电信号重建整个深颞叶区域的颅内脑电信号,解决了高保真重建的难题。
MultiPUFFIN:用于小分子性质预测的多模态领域约束基础模型
发表机构 * Department of Chemical Engineering, Norwegian University of Science and Technology (NTNU)(挪威科学与技术大学化学工程系) ; Faculty of Industrial Engineering, KU Leuven(鲁文大学工业工程学院) ; University of Surrey(萨里大学)
AI总结 提出多模态基础模型MultiPUFFIN,融合SMILES、2D图、3D构象及实验条件,通过条件感知精炼和热力学约束头,在小样本下优于ChemBERTa-2,预测小分子热物理性质。
从试错中学习:具身大语言模型的反思式测试时规划
发表机构 * Stanford University(斯坦福大学) ; Northwestern University(西北大学)
AI总结 提出反思式测试时规划方法,通过行动中反思和行动后反思两种模式,结合回溯性反思,使具身智能体在测试时进行自我纠正和经验积累,显著提升长程任务性能。
多模态晶体流:面向统一晶体建模的任意模态生成
发表机构 * Graduate School of AI, KAIST, Seoul, South Korea(韩国科学技术院人工智能研究生院,首尔,韩国) ; Materials Intelligence Lab, LG AI Research, Seoul, South Korea(LG AI研究所材料智能实验室,首尔,韩国)
AI总结 提出多模态晶体流(MCFlow),一种统一的多模态流模型,通过原子类型和晶体结构的独立时间变量实现多种晶体生成任务,并在MP-20和MPTS-52基准上达到与任务特定基线竞争的性能。
解码机器学习决策:面向大规模排序系统的智能体推理框架
发表机构 * Meta
AI总结 提出GEARS框架,通过智能体技能封装排序专家知识,将排序优化转化为自主发现过程,实现高层意图驱动的系统调控并保证生产可靠性。
Comments 12 pages, 5 figures
MARS:面向奖励建模的边界与语义感知数据增强
发表机构 * University of Arizona(亚利桑那大学) ; Northeastern University London(伦敦东北大学)
AI总结 提出MARS框架,通过优先增强低边界偏好对并利用语义距离细化,提升奖励模型质量和对齐性能。
所有泄漏都重要,有些泄漏更重要:LLM回测中可解释的时间污染检测与缓解
发表机构 * Department of Statistics and Data Science, Northwestern University(统计与数据科学系,西北大学) ; Bridgewater AIA Labs(布里奇沃特AIA实验室)
AI总结 提出基于Shapley值的声明级评估框架Shapley-DCLR和推理时架构TimeSPEC,用于检测和缓解LLM回测中的时间污染问题。
Comments 8 pages plus appendix
CARL-CXR:基于连续适配器路由的任务未知胸部X光片分类
发表机构 * Department of Imaging Physics, The University of Texas MD Anderson Cancer Center(影像物理系,德克萨斯大学MD安德森癌症中心)
AI总结 提出CARL-CXR框架,通过固定高容量骨干网络、增量添加轻量级任务特定适配器和分类头,以及潜在任务选择器,解决任务未知推理下的胸部X光片增量分类问题,显著减少灾难性遗忘并提升路由准确性。
Comments 9 pages, 4 figures
STAPO:通过抑制稀有虚假标记稳定大语言模型的强化学习
发表机构 * School of Vehicle ; Mobility \& College of AI, Tsinghua University ; Didi Voyager Labs, DiDi Autonomous Driving
AI总结 针对强化学习微调大语言模型时因稀有虚假标记导致训练不稳定和性能崩溃的问题,提出STAPO方法,通过抑制这些标记的梯度扰动,在多个数学推理基准上实现稳定训练和性能提升。
Krause同步变换器
发表机构 * Shanghai Qi Zhi Institute(上海启智研究院) ; College of AI, Tsinghua University(清华大学人工智能学院) ; Shanghai Jiao Tong University(上海交通大学) ; California Institute of Technology(加州理工学院) ; University of Amsterdam(阿姆斯特丹大学)
AI总结 提出基于有界置信共识动力学的Krause注意力机制,通过局部化稀疏交互替代全局softmax归一化,缓解表示坍缩和注意力汇聚现象,实现线性复杂度并提升性能。
Comments ICML 2026, Project page: https://jingkun-liu.github.io/krause-sync-transformers/
上下文展开赌博机:面向可验证奖励的强化学习
发表机构 * School of Computer Science and Engineering, Beihang University(北京航空航天大学计算机科学与工程学院) ; School of Artificial Intelligence, Beihang University(北京航空航天大学人工智能学院) ; Huawei(华为)
AI总结 针对RLVR中展开使用无差别、短视导致的问题,提出上下文赌博机框架,自适应选择高价值展开,提升训练效率与性能。
Prism: 频谱感知的块稀疏注意力
发表机构 * Fudan University(复旦大学) ; Shanghai Innovation Institute(上海创新研究院) ; ByteDance Inc.(字节跳动公司) ; OpenMOSS Team(OpenMOSS团队)
AI总结 针对长上下文LLM预填充中块稀疏注意力的块选择效率瓶颈,提出无训练频谱感知方法Prism,通过高低频分支分解和能量温度校准恢复位置信号,实现纯块级重要性估计,在保持精度同时实现高达5.1倍加速。
Comments ICML 2026
F-GRPO: 别让你的策略学到显而易见的而忘记罕见的
发表机构 * T-Tech
AI总结 针对强化学习中有限采样组导致罕见正确轨迹被忽略的问题,提出基于Focal loss的难度感知缩放系数F-GRPO,在不增加组大小和计算成本下提升数学推理性能。
面向边缘AI系统的可扩展可解释性即服务(XaaS)
AI总结 提出可解释性即服务(XaaS)分布式架构,通过解耦推理与解释生成、语义缓存、轻量验证和自适应引擎,在边缘设备上实现低延迟、高保真的可解释性,并在三个实际用例中降低38%延迟。
Comments 8 pages, 5 figures, 2 tables. This version updates metadata after publication in IEEE Xplore and publication by SoutheastCon 2026
Agent Primitives: 面向多智能体系统的可复用潜在构建模块
发表机构 * School of Information Sciences, University of Illinois at Urbana-Champaign, IL, USA(伊利诺伊大学厄巴纳-香槟分校信息科学学院) ; Siebel School of Computing and Data Science, University of Illinois at Urbana-Champaign, IL, USA(伊利诺伊大学厄巴纳-香槟分校Siebel计算与数据科学学院)
AI总结 提出Agent Primitives,一组可复用的潜在构建模块,通过KV缓存内部通信和自动组合,提升多智能体系统的鲁棒性、效率和跨任务复用性。
Comments 16 pages
无奖励的冲突目标对齐
发表机构 * Columbia University(哥伦比亚大学)
AI总结 提出RACO框架,通过冲突规避梯度下降的裁剪变体直接利用成对偏好数据解决多目标冲突,实现帕累托最优对齐。
Comments Accepted to ICML 2026 (Oral)
安全强化学习中的分布偏移下的安全泛化:一个糖尿病测试平台
发表机构 * Department of Computer Science, University of Virginia(弗吉尼亚大学计算机科学系)
AI总结 研究安全强化学习算法在分布偏移下训练时安全保证能否迁移到部署中,使用糖尿病管理作为测试平台,发现安全泛化差距并通过测试时屏蔽有效恢复安全性。
Comments Accepted at ICML 2026. Camera-ready version
加速MRI重建的像素级不确定性量化
发表机构 * Bernard and Irene Schwartz Center for Biomedical Imaging, Department of Radiology, NYU Grossman School of Medicine(贝纳德与伊蕾娜·施瓦茨生物医学成像中心,放射学系,纽约大学格罗斯曼医学院) ; Courant Institute of Mathematical Sciences, NYU(数学科学学院,纽约大学) ; Center for Advanced Imaging Innovation and Research (CAI 2 R), Department of Radiology, NYU Grossman School of Medicine(先进成像创新与研究中心(CAI 2 R),放射学系,纽约大学格罗斯曼医学院)
AI总结 提出一种基于共形分位数回归的像素级不确定性量化框架,用于加速MRI重建,无需全采样参考图像即可自动识别不可靠区域。
Comments 10 pages, 8 figues, 2 tables
PiXTime: 一种跨节点异构数据联邦时间序列预测模型
发表机构 * University of Science and Technology of China(科学技术大学)
AI总结 提出基于Transformer的PiXTime框架,通过参数解耦架构(局部个性化模块+全局共享骨干)处理异构时间序列,实现联邦学习中的异构数据预测,并在多个基准上达到最优性能。
MMUEChange:面向智能多模态城市环境变化分析的通用LLM智能体框架
发表机构 * Department of Urban Planning and Design, The University of Hong Kong(香港大学城市规划与设计系)
AI总结 提出MMUEChange多模态智能体框架,通过模块化工具包和模态控制器实现异构城市数据灵活集成与跨模态对齐,在三个城市案例中任务成功率提升46.7%并有效缓解幻觉。
NeoAMT: 基于强化学习的新词感知智能机器翻译
发表机构 * The University of Tokyo(东京大学) ; NTT Communication Science Laboratories, NTT, Inc.(NTT通信科学实验室,NTT公司)
AI总结 提出NeoAMT框架,利用基于Wiktionary的搜索工具和强化学习训练翻译智能体,以提升包含新词的源句翻译质量。
Comments ACL 2026 Main. Fixed minor typos
使用设计模式构建智能体社区
发表机构 * School of Computer Science and Engineering, University of New South Wales, Sydney, Australia(新南威尔士大学计算机科学与工程学院,悉尼,澳大利亚) ; Deontik, Australia(澳大利亚德诺提克)
AI总结 本文提出基于企业分布式系统设计模式的三层分类架构(LLM智能体、智能体AI、智能体社区),并通过临床试验匹配案例验证其形式化框架,为多智能体生态系统的工程化部署提供实践指导与形式化验证能力。
Comments supplementary material accompanying this paper is also attached .. its title is "Complete Agentic AI Design Patterns Catalogue"; Fixed encoding artefacts (garbled em dashes) throughout
极端值森林火灾预测:序数方案中损失函数的研究
AI总结 提出首个序数分类框架预测火灾严重等级,研究损失函数设计对预测极端事件的影响,发现加权卡帕损失在极端类别上IoU提升超过0.1。
Comments Following external reviews, we identified major methodological issues in the manuscript, including insufficient justification of the ordinal clustering strategy, limited statistical validation, ambiguities in dataset splitting, and missing comparisons with standard ordinal approaches. We therefore request withdrawal in order to prepare a substantially revised version
类比路由:用于混合专家模型的kNN增强专家分配
发表机构 * Institute of Science Tokyo(东京科学研究院) ; CyberAgent ; Nara Institute of Science and Technology(奈良科学技術大學)
AI总结 提出kNN-MoE框架,通过检索历史相似案例的局部最优专家分配来增强MoE路由,使用检索邻居的平均相似度作为置信度混合系数,在分布偏移下提升鲁棒性。
人类与AI生成图像检测的综合数据集
发表机构 * 1 Kalyani Government Engineering College, India. 2 IIIT Delhi, India. 3 BITS Pilani Hyderabad Campus, India. 4 University of South Carolina, USA. 5 IIIT Guwahati, India. 6 NIT Silchar, India. 7 San Jos\' e State University, USA. 8 UCLA, USA. 9 Washington State University, USA. 10 Vishwakarma Institute of Information Technology, India. 11 Gandhi Institute for Technological Advancement, India. 12 Meta AI, USA. 13 Amazon AI, USA. 14 BITS Pilani Goa, India.
AI总结 针对AI生成图像检测问题,构建了包含96000个真实与合成数据点的MS COCOAI数据集,并提出了图像真伪分类与生成模型识别两个任务。
多模态功能最大相关用于情感识别
发表机构 * Key Laboratory of Child Development and Learning Science (Ministry of Education), School of Biological Sciences and Medical Engineering, Southeast University(儿童发展与学习科学重点实验室(教育部)、生物科学与医学工程学院、东南大学) ; Department of Artificial Intelligence, Westlake University(人工智能学院、西湖大学) ; Department of Artificial Intelligence, Vrije Universiteit Amsterdam(人工智能学院、阿姆斯特丹自由大学)
AI总结 提出多模态功能最大相关(MFMC)框架,通过双重总相关目标最大化高阶多模态依赖,在情感识别基准上取得最先进性能。
Comments manuscript accepted by IEEE Transactions on Affective Computing. Code is available at https://github.com/DY9910/MFMC
$M^3-Verse$: 大型多模态模型的“找不同”挑战
发表机构 * Zhejiang University, China(浙江大学) ; Shanghai AI Lab, China(上海人工智能实验室) ; Hangzhou Normal University, China(杭州师范大学)
AI总结 提出 $M^3-Verse$ 基准,通过多视角视频对评估 LMM 在一致空间中对物体动态变化的理解能力,并验证了现有模型的局限性。
通过稀疏后训练实现内在可解释的注意力机制
发表机构 * MPI-IS(马克斯·普朗克研究所) ; University of Oxford(牛津大学) ; ETH Zürich(苏黎世联邦理工学院)
AI总结 提出一种后训练方法,通过约束损失下的灵活稀疏正则化,在不牺牲性能的前提下将Transformer注意力连接稀疏至约0.4%,从而简化全局电路并提升可解释性。
结合领域知识和可行性约束的可操作且多样化的反事实解释
发表机构 * Faculty of Physics, Astronomy and Applied Computer Science, Institute of Applied Computer Science, Jagiellonian Human-Centered AI Lab(物理、天文与应用计算机科学学院,应用计算机科学研究所,雅盖隆人机中心AI实验室)
AI总结 提出DANCE方法,通过建模特征依赖和领域约束生成可操作、多样化的反事实解释,在OpenML数据集和工业邮件营销场景中验证了其有效性和实用性。
理解、加速和改进MeanFlow训练
发表机构 * Yonsei University(延世大学) ; ETH Zurich(苏黎世联邦理工学院) ; University of Zurich(苏黎世大学) ; Max Planck ETH CLS(马克斯·普朗克ETH CLS) ; Google(谷歌)
AI总结 通过分析瞬时速度与平均速度的相互作用,提出一种加速瞬时速度形成并逐步转移训练重点的有效训练方案,实现更快的收敛和更优的少步生成性能。
只是提问:关于生成式AI聊天机器人阴谋论思维的自主研究
发表机构 * Digital Media Research Centre, Queensland University of Technology(昆士兰理工大学数字媒体研究中心)
AI总结 本研究通过系统评估六种主流AI聊天机器人对阴谋论问题的回应,发现安全护栏在不同模型和阴谋论主题上存在显著差异,且设计具有选择性。
BackWeak: 使用弱触发器和微调简单后门知识蒸馏
发表机构 * School of Computer Science and Artificial Intelligence(计算机科学与人工智能学院) ; Wuhan University of Technology(武汉科技大学)
AI总结 提出BackWeak方法,通过微调教师模型嵌入弱触发器实现后门攻击,无需替代学生模型或模拟蒸馏,在标准蒸馏过程中可靠转移至不同学生架构。
联邦学习中主动梯度反转攻击的可检测性研究
发表机构 * Department of Computer Information and Electrical Engineering and Applied Mathematics(计算机信息与应用数学系)
AI总结 本文研究联邦学习中主动梯度反转攻击的可检测性,提出基于异常权重结构和损失/梯度动态的轻量级客户端检测方法,实验证明能有效检测攻击而不修改训练协议。
从提示优化到多维可信度评估:增强中文LLM生成的肝脏MRI报告的可信度——初步扩展至肺癌
发表机构 * Yu-Yue Pathology Research Center, Jinfeng Laboratory, Chongqing, China(渝粤病理研究所,金风实验室,重庆,中国) ; T Magnetic Resonance Imaging Translational Medical Center, Department of Radiology, Southwest Hospital, Army Medical University, Chongqing, China(7T磁共振成像转化医学中心,放射科,西南医院,中国人民解放军军医大学,重庆,中国)
AI总结 本研究提出多维可信度评估(MDCA)框架,并指导机构特定提示优化,以增强LLM生成的肝脏MRI报告的可信度,初步扩展至肺癌。
Comments 10 pages, 6 figures, 4 tables
FG-CLIP 2: 一种双语细粒度视觉-语言对齐模型
发表机构 * AI Research(360人工智能研究院)
AI总结 提出FG-CLIP 2双语视觉语言模型,通过区域-文本匹配、长描述建模和文本内模态对比损失等细粒度监督,在英中双语上实现细粒度对齐,在29个数据集上取得最优结果。
Comments Accepted in ICML2026
通过早期经验进行智能体学习
发表机构 * Meta Superintelligence Labs(Meta超智能实验室) ; FAIR at Meta(Meta的FAIR部门) ; The Ohio State University(俄亥俄州立大学)
AI总结 提出早期经验范式,利用智能体自身动作生成的交互数据(无需奖励信号)通过隐式世界建模和自我反思两种策略提升智能体在多样化环境中的效果和跨域泛化能力。
Comments ICML 2026
DeepEN: 一种用于重症监护中个性化肠内营养的深度强化学习框架
发表机构 * Institute of Data Science(数据科学研究所) ; Saw Swee Hock School of Public Health, National University of Singapore, Singapore(Saw Swee Hock公共卫生学院,新加坡国立大学,新加坡) ; National University Hospital, Singapore(新加坡国立医院)
AI总结 提出DeepEN框架,利用深度强化学习从电子健康记录中学习个性化肠内营养方案,在MIMIC-IV数据集上相比临床实践降低绝对死亡率4.0个百分点。
大型语言模型分词器的成员推理攻击
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Purdue University(普渡大学)
AI总结 针对预训练大型语言模型成员推理攻击的挑战,提出以分词器作为新攻击向量,探索五种攻击方法,并设计自适应防御。
Comments To appear at USENIX Security Symposium 2026
vAttention: 验证的稀疏注意力
发表机构 * Electrical Engineering and Computer Sciences, University of California, Berkeley(加州大学伯克利分校电气工程与计算机科学系)
AI总结 提出vAttention,通过统一top-k和随机采样,实现首个具有用户指定(ε, δ)近似精度保证的实用稀疏注意力机制,显著提升质量-效率权衡。
超越最终答案:评估工具增强型智能体的推理轨迹
发表机构 * Graduate School of Data Science, KAIST, Daejeon, South Korea(数据科学研究生院,韩国科学技术院,大田,韩国) ; Department of Industrial and Systems Engineering, KAIST, Daejeon, South Korea(工业与系统工程系,韩国科学技术院,大田,韩国) ; Department of Artificial Intelligence, Yonsei University, Seoul, South Korea(人工智能系,延世大学,首尔,韩国)
AI总结 针对工具增强型LLM,提出无参考框架TRACE,通过证据库多维度评估推理轨迹的效率、幻觉和适应性,并用元评估数据集验证其有效性。
Comments International Conference on Machine Learning (ICML) 2026
ChunkLLM: 一种轻量级可插拔的LLM推理加速框架
发表机构 * School of Artificial Intelligence, Beijing University of Posts and Telecommunications(北京邮电大学信息学院)
AI总结 针对Transformer自注意力二次复杂度导致的推理效率低下问题,提出ChunkLLM框架,通过QK适配器和块适配器实现块选择与压缩,在保持性能的同时显著加速推理。
KAME:用于增强实时语音到语音对话AI知识的串联架构
AI总结 提出一种混合架构,通过实时注入后端LLM的文本响应来增强S2S模型的知识,在保持低延迟的同时提升响应正确性。
Comments Published at IEEE ICASSP 2026
物理模型的智能体探索
发表机构 * Max Planck Institute for the Science of Light(马克斯·普朗克光科学研究所)
AI总结 提出 SciExplorer 智能体,利用大语言模型工具使用能力,无需领域特定蓝图即可探索未知物理系统,通过实验和观测恢复运动方程和哈密顿量。
HEAPr: 基于Hessian的输出空间中高效原子专家剪枝
发表机构 * School of Software Technology, Zhejiang University(浙江大学软件学院) ; FABU Inc.(FABU公司) ; Hangzhou Kuaidi Science and Technology Co., Ltd.(杭州快的科学技术有限公司)
AI总结 针对MoE模型粗粒度专家剪枝导致精度下降的问题,提出HEAPr算法,通过将专家分解为原子专家并利用二阶信息(最优脑外科原理)评估重要性,在输出空间简化计算,实现高比例无损压缩。
Comments ICLR 2026
接下来会发生什么?通过生成点轨迹预测未来运动
发表机构 * Visual Geometry Group, University of Oxford(牛津大学视觉几何组)
AI总结 提出一种基于单张图像预测未来运动的方法,通过生成密集轨迹网格来捕捉场景动态和不确定性,相比现有方法更准确多样,并验证其在机器人等下游任务中的有效性。
通过残差量化为预排序阶段配备目标注意力机制
发表机构 * Taobao \& Tmall Group of Alibaba Hangzhou China ; Shanghai Jiao Tong University Shanghai China ; Xidian University Xi'an China ; Taobao \& Tmall Group of Alibaba Beijing China ; Taobao \& Tmall Group of Alibaba ; Shanghai Jiao Tong University ; Xidian University
AI总结 提出TARQ框架,利用残差量化在预排序阶段近似目标注意力架构,首次在延迟关键阶段引入TA建模能力,实现精度与效率的新最优平衡。
Comments 5 pages, 2 figures, accepted by SIGIR 2026 Short Paper Track
混合深度搜索器:可扩展的并行与顺序搜索推理
发表机构 * Seoul National University(首尔国立大学) ; LG AI Research(LG AI研究) ; University of Illinois Chicago(伊利诺伊大学芝加哥分校) ; University of Seoul(首尔大学)
AI总结 提出混合搜索策略HybridDeepSearcher,通过并行查询扩展与显式证据聚合结合顺序推理,在多个基准上显著提升性能并实现测试时搜索扩展。
Comments Accepted to ICLR 2026
MCPXKIT:分析模型上下文协议安全性的统一工具包
发表机构 * Shenzhen International Graduate School, Tsinghua University, Shenzhen, China(深圳国际研究生院,清华大学,深圳,中国) ; Ant Group, Hangzhou, China(蚂蚁集团,杭州,中国) ; Swinburne University of Technology, Melbourne, Australia(斯威本科技大学,墨尔本,澳大利亚) ; The University of Adelaide, Adelaide, Australia(阿德莱德大学,阿德莱德,澳大利亚) ; UNSW Sydney, Australia(悉尼大学,澳大利亚)
AI总结 本文提出MCPXKIT工具包,分类实现了31种攻击方法,通过定量实验揭示了MCP在工具描述依赖、文件攻击、链攻击及数据命令区分等方面的漏洞,并提供了安全增强建议。
Comments Accepted by IEEE Transactions on Dependable and Secure Computing (TDSC). $\href{https://ieeexplore.ieee.org/abstract/document/11531012}{Official \ version}$
可解释的注意力引导堆叠图神经网络用于恶意软件检测
发表机构 * University of New Brunswick(新不伦瑞克大学)
AI总结 提出一种注意力引导的堆叠集成图神经网络框架,通过提取控制流图并利用多种GNN基学习器与注意力元学习器,实现恶意软件的高精度检测与可解释性分析。
HiTeC: 基于语义感知增强的文本属性超图层次对比学习
发表机构 * The University of New South Wales(新南威尔士大学) ; University of Wollongong(沃拉彭大学)
AI总结 提出HiTeC框架,通过两阶段层次对比学习,结合结构感知文本编码预训练和语义感知增强,解决文本属性超图中文本与拓扑关联不足、随机增强噪声及长程依赖捕获问题。
Comments 16 pages, 8 figures
ToolRegistry: 一个用于函数调用LLM的协议无关工具管理库
发表机构 * University of Chicago(芝加哥大学) ; Argonne National Laboratory(阿贡国家实验室)
AI总结 提出ToolRegistry系统,通过统一工具对象和注册表实现协议无关的工具管理,支持多种传输协议、可插拔后端和高级功能,显著减少集成代码并提升吞吐量。
Comments 16 pages, 4 figures, v3: add co-author, permission system, progressive tool disclosure, think-augmented calling, RPC framing, multi-provider support
FloorplanQA:使用结构化表示进行大语言模型空间推理的基准测试
发表机构 * King Abdullah University of Science and Technology(国王阿卜杜勒-阿齐兹大学) ; Miami University(迈阿密大学)
AI总结 提出FloorplanQA基准,通过结构化室内场景表示评估大语言模型在距离测量、可见性、路径查找和物体放置等空间推理任务上的表现,揭示模型在物理约束和空间一致性方面的盲点。
Comments ICML 2026, Project page: https://OldDeLorean.github.io/FloorplanQA/
使用具有特质-反应中介的虚拟受访者进行心理测量项目验证
发表机构 * Graduate School of Data Science, Seoul National University(首尔国立大学数据科学研究生院) ; Department of Communication, Seoul National University(首尔国立大学通信系) ; Interdisciplinary Program in Artificial Intelligence, Seoul National University(首尔国立大学人工智能跨学科项目)
AI总结 提出一种利用LLM模拟虚拟受访者(通过中介因素)来高效验证心理测量项目效度的框架,实验证明该方法能有效识别高有效性项目。
Comments This paper has been accepted for publication at TACL 2026
速度规划:用于掩码扩散语言模型的膨胀调度
发表机构 * School of Electrical and Computer Engineering, Ben-Gurion University of the Negev, Beersheba, Israel(电气与计算机工程学院,内盖夫本· Gurion大学,贝尔谢巴,以色列)
AI总结 提出膨胀解掩码调度器(DUS),通过将序列位置划分为非相邻的膨胀组并并行解掩码,最小化联合熵增益上界,在不修改去噪器的情况下实现高达5.8倍加速。
Comments Accepted at ICML 2026
SoK: GPT 和 DeepSeek 模型越狱鲁棒性的全面安全分析
发表机构 * Queen’s University(女王大学) ; University of Waterloo(滑铁卢大学)
AI总结 通过 HarmBench 基准测试,对 DeepSeek 模型系列与 GPT-3.5、GPT-4 进行首次全面越狱分析,发现 DeepSeek 对优化驱动攻击有部分鲁棒性但易受提示工程攻击,而 GPT-4 Turbo 具有更一致的安全对齐,揭示了模型效率与对齐泛化之间的固有权衡。
CLiViS: 通过语言-视觉协同释放认知地图用于具身视觉推理
发表机构 * School of Computer Science and Technology, East China Normal University(东华大学计算机科学与技术学院) ; King Abdullah University of Science and Technology(科廷大学) ; Fudan University(复旦大学)
AI总结 提出CLiViS框架,通过LLM进行高层任务规划并协调VLM驱动的开放世界视觉感知,构建动态认知地图以迭代更新场景上下文,实现无需训练的具身视觉推理。
从推理到代码:针对代表性不足语言的GRPO优化
发表机构 * Qwen2.5-Coder
AI总结 提出结合Qwen2.5-Coder小模型与GRPO的强化学习方法,利用执行反馈和奖励机制提升Prolog、Lisp等低资源语言的代码生成准确性与推理质量。
Comments Accepted ICLP 2026
LSTM网络中模型选择的统计框架
发表机构 * School of Mathematical and Natural Sciences, Arizona State University(数学与自然科学院,亚利桑那州立大学)
AI总结 针对LSTM网络模型选择依赖启发式且计算昂贵的问题,提出统一统计框架,通过扩展信息准则和收缩估计到序列神经网络,定义适应时间结构的惩罚似然、广义阈值方法处理隐状态动态,并利用变分贝叶斯和近似边际似然实现高效估计,在生物医学数据上验证了灵活性和性能提升。
LETS Forecast:用于时间序列预测的嵌入学
发表机构 * Department of Biostatistics and Medical Informatics, University of Wisconsin-Madison(生物统计学与医学信息学系,威斯康星大学麦迪逊分校) ; Department of Computer Sciences, University of Wisconsin-Madison(计算机科学系,威斯康星大学麦迪逊分校)
AI总结 提出DeepEDM框架,结合非线性动力系统建模与深度学习,通过延迟嵌入和核回归学习潜在动态,实现高精度时间序列预测。
Comments Accepted at International Conference on Machine Learning (ICML) 2025
音乐诠释与情感感知:计算与神经生理学调查
发表机构 * School of Electrical and Computer Engineering, National Technical University of Athens(电气与计算机工程学院,国家技术大学雅典) ; Department of Music Studies, National and Kapodistrian University of Athens(音乐研究系,国家与卡波迪斯特里亚大学雅典)
AI总结 本研究利用计算和神经生理学方法,探究不同演奏情境(如曲目、调式练习曲和即兴演奏)及表现力水平对表演者情感传达和听众反应的影响,发现表现力和即兴演奏具有独特声学特征并引发更强情感反应,且即兴演奏带来更大的神经生理放松。
Comments Accepted at SMC 2025
PhySense:面向精确物理感知的传感器布局优化
发表机构 * School of Software, BNRist, Tsinghua University(软件学院,BNRist,清华大学)
AI总结 提出PhySense两阶段框架,通过流生成模型和投影梯度下降联合优化传感器布局与物理场重建,实现高精度物理感知。
具有预测性提示和负学习的可泛化视觉语言少样本适应
发表机构 * Hasso Plattner Institute, University of Potsdam(霍普夫纳研究所,波茨坦大学)
AI总结 提出SCAN框架,通过查询自适应负路由、LLM引导对比提示和自适应融合权重,解决视觉语言模型少样本适应中负类信号处理问题,在11个基准上平均提升4.61%。
高效且可扩展的神经符号搜索用于知识图谱复杂查询回答
发表机构 * Department of Mathematical Sciences, Tsinghua University(清华大学数学科学系) ; Department of Computer Science and Engineering, Hong Kong University of Science and Technology(香港理工大学计算机科学与工程系) ; Department of Computer Sciences, University of Rochester(罗切斯特大学计算机科学系)
AI总结 提出一种结合约束策略和局部搜索的神经符号方法,以降低数据复杂度和近似解决NP难的循环查询,实现高效可扩展的复杂查询回答。
结合抽象论证与机器学习高效分析低层过程事件流
发表机构 * University of Calabria(卡拉布里亚大学) ; CNR(国家科研委员会)
AI总结 提出一种数据高效的神经符号方法,通过抽象论证框架(AAF)优化序列标注模型生成的候选事件解释,以解决低层过程事件流中事件到活动映射的不确定性问题。
PCGRLLM:面向程序化内容生成强化学习的大语言模型驱动奖励设计
发表机构 * Gwangju Institute of Science and Technology(光州科学技术院) ; New York University(纽约大学) ; Corresponding author(通讯作者)
AI总结 提出PCGRLLM架构,利用大语言模型和反馈机制生成奖励函数,在二维环境中实现故事到奖励的生成,性能接近人类水平。
Comments 14 pages, 8 figures, Acccepted to Transactions on Games
ExplainReduce: 从许多局部解释生成全局解释
发表机构 * University of Helsinki(赫尔辛基大学)
AI总结 本文提出 ExplainReduce 方法,通过贪心启发式算法将大量局部解释缩减为少量简单模型,作为生成式全局解释,并证明其有效性和竞争力。
Comments 21 pages with a 36 page appendix, 8 + 39 figures, 1+1 tables. The datasets and source code used in the paper are available at https://github.com/edahelsinki/explainreduce. Accepted for publication in the 4th World Conference on eXplainable Artificial Intelligence (2026)
消息传递GNN无法近似稀疏三角分解
发表机构 * AIC, Skoltech(斯克里普金技术大学人工智能中心) ; Skoltech AI4S Center(斯克里普金技术大学AI4S中心) ; Sberbank of Russia(俄罗斯储蓄银行) ; AIRI
AI总结 本文通过理论和实验证明,消息传递图神经网络在逼近稀疏三角分解时存在根本性局限,需要超越消息传递的架构创新。
Comments Camera-ready version published in Transactions on Machine Learning Research
FragmentNet: 自适应图分片用于图到序列分子表示学习
发表机构 * Department of Electrical and Computer Engineering, University of Toronto, Toronto, Canada(电气与计算机工程系,多伦多大学,多伦多,加拿大) ; Regenerative Biomaterials Laboratory, Stanford Cardiovascular Institute, Palo Alto, USA(再生生物材料实验室,斯坦福心血管研究所,帕洛阿尔托,美国)
AI总结 提出FragmentNet,通过自适应学习的分词器将分子图分解为化学有效的片段,并利用化学感知的空间位置编码保持分子拓扑,在片段级别进行掩码预训练,在多个属性预测任务上提升了性能。
Comments 22 pages, 13 figures, 5 tables
你可以比看见更早定位:一种用于压缩视频中时序句子定位的高效流程
发表机构 * The Hubei Engineering Research Center on Big Data Security, School of Cyber Science and Engineering, Huazhong University of Science and Technology(大数据安全湖北工程研究中心,网络安全科学与工程学院,华中科技大学) ; Peking University(北京大学) ; Beijing University of Posts and Telecommunications(北京邮电大学)
AI总结 提出一种三分支压缩域时空融合框架(TCSF),直接从压缩视频中提取I帧、运动向量和残差特征,实现高效准确的时序句子定位。
Comments Accepted by CVPR 2023
多模态跨域对齐网络用于视频时刻检索
发表机构 * Hubei Key Laboratory of Distributed System Security(湖北分布式系统安全重点实验室) ; Hubei Engineering Research Center on Big Data Security(湖北大数据安全工程研究中心) ; School of Cyber Science and Engineering(网络安全学院) ; Huazhong University of Science and Technology(华中科技大学) ; Wangxuan Institute of Computer Technology(王轩计算机技术研究所) ; Peking University(北京大学) ; School of Computer Science and Technology(计算机科学与技术学院) ; Key Laboratory of Information Storage System Ministry of Education of China(信息存储系统教育部重点实验室)
AI总结 提出多模态跨域对齐网络,通过域对齐、跨模态对齐和特定对齐三个模块,解决跨域视频时刻检索中域差异和语义鸿沟问题。
Comments Accepted by IEEE Transactions on Multimedia
双自加权多视图聚类:通过自适应视图融合
发表机构 * School of Computer Science and Technology, Key Laboratory of Information Storage System Ministry of Education of China, Huazhong University of Science and Technology(计算机科学与技术学院,信息存储系统教育部重点实验室,华中科技大学)
AI总结 提出双自加权多视图聚类框架(DSMC),通过自适应权重矩阵和权重因子分别对特征和图进行加权,去除冗余和噪声,并融合多图进行聚类。
Comments Corresponding author: Xiang Fang
通过视图演化方案的不平衡不完整多视图聚类:弱视图为食,强视图为食
发表机构 * School of Computer Science and Technology, Key Laboratory of Information Storage System Ministry of Education of China, Huazhong University of Science and Technology(计算机科学与技术学院,信息存储系统教育部重点实验室,华中科技大学) ; Hubei Engineering Research Center on Big Data Security, School of Cyber Science and Engineering, Huazhong University of Science and Technology(大数据安全工程研究中心,网络安全学院,华中科技大学) ; Department of Electrical and Computer Engineering, University of Florida(电气与计算机工程系,佛罗里达大学)
AI总结 针对不同视图不完整程度不平衡的问题,受生物进化理论启发,提出基于视图演化的不平衡不完整多视图聚类方法UIMC,通过加权多视图子空间聚类和低秩鲁棒表示恢复数据,显著提升聚类性能。
Comments Accepted by IEEE Transactions on Emerging Topics in Computational Intelligence
LipoAgent: 协调微调的大语言模型智能体以实现更安全的脂质设计
发表机构 * New York University(纽约大学) ; University of Illinois Chicago(伊利诺伊大学香槟分校)
AI总结 提出LipoAgent,一种安全感知的多智能体大语言模型框架,通过条件预测目标强制毒性作为效率预测的前提,并结合多智能体验证,在mRNA转染效率预测上平均相对提升32%。
约束锚定归因:神经组合优化策略的可行性认证反事实与Bonferroni-PAC充分子集
发表机构 * Univ. Artois, UR 3926, Laboratoire de G\'enie Informatique et d'Automatique de l'Artois (LGI2A) B\'ethune F-62400 France ; Univ. Artois, UR 3926, Laboratoire de G\'enie Informatique et d'Automatique de l'Artois (LGI2A)
AI总结 提出一种神经组合优化策略的归因方法,通过LP松弛对偶分解决策、CSP可行性模型认证反事实,并用Bonferroni校正的Hoeffding充分子集测试界定PAC解释大小。
Comments 4 pages, 1 figure, Reference implementation: https://github.com/sohaibafifi/neuro-co-cax (MIT)
关于过参数化神经网络的认知不确定性
发表机构 * Department of Statistics, LMU Munich(统计系,慕尼黑大学) ; Munich Center for Machine Learning (MCML)(慕尼黑机器学习中心)
AI总结 本文通过非可辨识性视角分析过参数化神经网络的认知不确定性,刻画了离散和连续残余不确定性来源,并以单隐层ReLU网络为例验证理论。
Comments Accepted at ICML 2026 (Main Track)
Meta-Agent:从任务描述到经过验证的多智能体系统
发表机构 * Dartmouth College(达特茅斯学院)
AI总结 提出Meta-Agent两阶段框架,通过任务规划、网络搜索、代码生成和验证机制,自动从自然语言任务描述构建并执行可靠的多智能体系统,在编码、上下文学习和开放推理任务中提升成功率、错误恢复和工作流稳定性。
基于规约的代码-文本-代码重构:面向LLM介导的软件演化
发表机构 * EPAM Systems(EPAM系统) ; McLean, Virginia, USA(美国弗吉尼亚州麦莱恩) ; Lviv, Ukraine(乌克兰利沃夫) ; Kyiv, Ukraine(乌克兰基辅)
AI总结 提出一种基于规约的Code2Text2Code重构框架,通过将源代码转换为中性文本规约并迭代验证,解决直接Code2Code转换中的语义漂移、行为变化等问题,实现受控的LLM介导软件演化。
Comments 15 pages, 9 figures, 7 tables, 39 references
扩散模型的多目标学习:半监督学习下的统计理论
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 针对扩散模型在多目标学习中因模型容量增大导致统计成本高的问题,提出半监督两阶段训练方法,利用未标记数据通过伪样本蒸馏,证明所需配对样本量仅取决于专家模型复杂度。
基于影响启发的谱旋转用于极端低位LLM量化
发表机构 * Lehigh University(莱斯大学)
AI总结 本文利用伴随理论论文的影响自适应Walsh几何,通过WHT旋转和列缩放结合重构误差量化器,实现极端低位权重量化,在多个模型上降低困惑度15-58%。
Comments 14 pages, no figures. Companion application paper to arXiv:2605.01637 (theory). Code and pinned eval stack: https://github.com/gogipav14/spectral-llm
隐藏以引导:通过语义掩码学习
发表机构 * MIT(麻省理工学院) ; NVIDIA(英伟达)
AI总结 提出语义掩码专家策略优化(SMEPO),通过掩码专家轨迹中与奖励相关的语义片段,将困难问题转化为填空过程,提升强化学习在推理密集型任务中的探索效率。
超越杀手机器人:九个国家中通用人工智能态度与公众对军事人工智能的支持
发表机构 * University of Bamberg(巴伐利亚数字转型研究所) ; Bavarian Research Institute for Digital Transformation (bidt)(巴伐利亚数字转型研究所) ; National Taiwan University(国立台湾大学)
AI总结 基于九国调查,研究公众对军事AI的支持主要受通用AI态度、对致命自主性的原则性反对还是外交政策取向影响,发现认为AI有益者更支持,而原则性反对仅与完全自主致命武力相关。
DarkForest: 少说话,多智能体LLM更高精度
发表机构 * University of Texas at Dallas(德克萨斯大学达拉斯分校) ; Independent Researcher(独立研究者) ; University of California, Davis(加州大学戴维斯分校)
AI总结 提出DarkForest框架,通过保持智能体独立、结构化解析响应并基于信念分布协调,减少通信开销和错误传播,在六个推理基准上实现领先质量并大幅降低令牌消耗。
凭其果实,你们将认识它们:通过编码的决策比较法律的形式化
发表机构 * Technical University of Munich(慕尼黑技术大学)
AI总结 提出一种系统方法,通过SAT求解器枚举不同形式化在边缘案例上的分歧,并转化为具体事实场景,以比较同一法律条款的不同形式化,应用于九个前沿LLM生成的十个欧盟条款形式化,发现行为分歧与结构一致性基本不相关。
Comments 23 pages, 17 figures, submitted to EMNLP PROC 2026
SpecAlign: 一种用于 SystemVerilog 断言生成的语义对齐框架
发表机构 * University of South Florida(佛罗里达州立大学)
AI总结 提出 SpecAlign 框架,通过基于蕴含的分类和自一致性投票机制,评估并改进 LLM 生成的 SVA 与自然语言规范之间的语义对齐,无需黄金 RTL。
生长-剪枝-冻结网络:用于嗅觉导航的自适应与持续学习技术
AI总结 提出生长-剪枝-冻结(GPF)网络框架,通过动态调整策略网络层数实现持续学习,在湍流羽流导航任务中达到94%成功率,并推广到其他机器学习任务。
AME-TS:基于锚定的混合专家模型用于时间序列预测
发表机构 * Amazon Web Services(亚马逊网络服务)
AI总结 提出AME-TS,一种结构引导的稀疏时间序列基础模型,通过轻量级预测器估计序列级描述符并生成专家软结构先验,实现专家路由与可解释时间结构对齐,在GIFT-Eval基准上实现精度-效率权衡,并在M5微调中展现更稳定的专家专业化。
K-U-KAN: 基于Koopman增强的U-KAN用于单张全景X射线片的三维牙齿重建
发表机构 * Artificial Intelligence \& Image Processing Lab., Department of Information \& Communication Engineering, Sun Moon University, Asan-Si, South Korea ; Department of Physics ; Engineering Physics, Tulane University, New Orleans, LA, USA
AI总结 提出K-U-KAN三阶段流水线,结合Kolmogorov-Arnold网络、Koopman算子与U-KAN,从单张全景X射线高效重建三维牙齿结构,提升感知质量并缩短训练时间。
Comments 24 pages, 9 figures,
STREAM:一个以数据为中心的框架,用于从流媒体中挖掘高价值任务导向对话
发表机构 * Harbin Institute of Technology(哈尔滨工业大学) ; Byering Technology(伯英技术)
AI总结 提出STREAM框架,利用流媒体数据合成大规模多领域任务导向对话数据集StreamDial,通过角色构建和对话蓝图结合RAG生成高质量对话,解决数据稀缺问题。
溯因-演绎纠缠:通过表示移植实现领域泛化
发表机构 * Columbia University(哥伦比亚大学)
AI总结 本文提出一种基于表示移植的方法,通过参数化溯因-演绎纠缠中的非可识别性,在源分布约束下搜索目标分布空间,实现领域泛化中的最优目标预测。
无控制的表征:测试语言模型中的实现效应
发表机构 * Columbia University(哥伦比亚大学)
AI总结 通过提示行为、线性读出和因果控制三个层面,测试语言模型是否表现出类似人类的实现效应,发现潜在读出成功但因果控制无效,表明三者不自动共存。
基于LLM Agent的利用边缘和物联网数据的可再生能源预测:太阳能、风能、天气和电网感知决策支持综述
发表机构 * Independent Researcher(独立研究员)
AI总结 本文综述了如何利用大语言模型代理整合异构传感器流、天气API数据、历史发电记录和电网约束,形成统一的决策支持工作流,以增强可再生能源预测。
ASTRO: 用于信息物理系统中基于GNN的异常检测的自适应时空强化优化
发表机构 * Department of Computer Science, FAST NUCES(计算机科学系,FAST NUCES) ; Department of Information Technology, Riphah International University(信息技术系,Riphah国际大学)
AI总结 提出ASTRO框架,结合深度Q网络与图神经网络、时间建模和多头注意力机制,通过强化学习动态优化阈值,在SWaT和WADI数据集上实现高F1分数,优于现有方法。
信任但验证:面向选择性LLM预测的证明者-验证者审议
发表机构 * New York University(纽约大学)
AI总结 提出基于交互式证明理论的证明者-验证者审议协议,通过结构化置信度判定实现选择性预测,在GPQA Diamond上取得约30个百分点的高置信度精确率差距。
扩散模型的推理时对齐:基于信任区域迭代扭曲序贯蒙特卡洛方法
发表机构 * Duke University(杜克大学) ; Morgan Stanley(摩根大通)
AI总结 提出信任区域迭代扭曲序贯蒙特卡洛(TRI-TSMC)框架,通过迭代学习扭曲函数来改进扩散模型推理时的对齐,在文本生成和文本到图像生成任务上优于现有方法。
Comments 34 pages, 6 figures, and 7 tables
证据关联放射学报告:面向结构化成像智能的人机协同参考架构
发表机构 * Xylemed
AI总结 提出一种人机协同、证据关联的参考架构,通过结合特定检查模板、语音到结构处理、测量与分割捕获、受控AI辅助起草以及基于DICOM、HL7 FHIR等标准的互操作性,将放射学报告从自由文本转化为结构化智能层,支持审阅报告、纵向比较、临床数据重用及系统集成。
Comments Technical report, 27 pages, 2 figures, 12 tables, 1 listing; reference architecture paper; does not report clinical outcomes or validated diagnostic performance
信任感知的联合特征-预测差异用于鲁棒域适应
发表机构 * School of Engineering and Built Environment, Griffith University, Australia(工程与环境学院,格里菲斯大学,澳大利亚)
AI总结 提出信任感知域适应框架,通过联合特征-预测差异(JFPD)结合不确定性信任和语义对齐信任,实现可靠性感知的域差异估计,提升域适应性能。
Comments Research report
Courant:一种具有局部支持和可解释场分解的状态自适应感知器神经代理模型
发表机构 * Pasteur Labs(Pasteur实验室) ; Cornell University(康奈尔大学) ; Institute for Simulation Intelligence(模拟智能研究所)
AI总结 提出基于感知器的编码-处理-解码代理模型Courant,通过状态自适应潜在查询和轻量解码器实现类似自适应hp细化的局部支持与可解释场分解,在稳态/瞬态模拟基准上取得竞争性精度。
Uncertainty-DTW 用于序列和视觉标记
发表机构 * School of Engineering and Built Environment, Electrical and Electronic Engineering, Griffith University(工程与建筑环境学院,电气与电子工程学院,格里菲斯大学) ; School of Computer Science and Engineering, University of New South Wales(计算机科学与工程学院,新南威尔士大学)
AI总结 提出不确定性感知的动态时间规整(uDTW)框架,通过异方差不确定性建模和最大似然估计实现鲁棒对齐,并推广到视觉标记集,在多个领域取得优于现有方法的结果。
Comments Research report
利用规范自由度学习随机系统的非梯度种群动力学
发表机构 * Courant Institute of Mathematical Sciences, New York University, New York, NY 10012, USA(数学科学学院,纽约大学,纽约,纽约州,10012,美国)
AI总结 针对现有种群动力学推断局限于梯度流的问题,提出非梯度推断流(NGIF)算法,通过连续性方程的弱形式参数化一般向量场并选择非最小动能准则,在低维和高维物理问题中提高了分布精度并更好地捕捉非势输运。
基于多智能体规范的FMU仿真蜕变测试
发表机构 * University of Turku, Finland(图尔库大学,芬兰) ; Novia University of Applied Sciences, Finland(诺维亚应用科学大学,芬兰)
AI总结 针对FMU仿真模型中缺乏显式预期输出导致传统测试方法受限的问题,提出一种基于LLM的多智能体工作流,从规范和接口中自动提取蜕变关系并生成测试用例,在润滑油冷却系统FMU上验证了其有效性。
Comments Author version. 9 pages. Accepted for publication in the 10th International Workshop on Metamorphic Testing (MET 2026) of the IEEE Conference on Computers, Software, and Applications (COMPSAC2026), June 7-10, 2026 Madrid, Spain
RECTOR: 基于优先级规则的合规感知自动驾驶轨迹选择重排序
发表机构 * TORC Robotics LLC(TORC机器人公司) ; Daimler Truck AG(戴姆勒卡车集团) ; Reynolds & Moore(雷诺兹与摩尔公司) ; MassRobotics(马斯机器人)
AI总结 提出RECTOR,一种后生成重排序层,通过差异化代理和场景条件适用性机制,基于分层规则手册(安全>法律>道路>舒适)对候选轨迹进行评分,并采用确定性ε-词典序规则选择,在无需重新训练预测器的情况下,将安全与法律违规率从28.58%降至20.42%。
进化增强的多智能体强化学习用于协同空战
发表机构 * Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; School of Artificial Intelligence, University of Chinese Academy of Sciences(中国科学院大学人工智能学院)
AI总结 针对多机协同空战中现有MARL方法探索效率低、样本利用率低和策略泛化差的问题,提出ACE-MAPPO混合学习框架,融合进化算法与MAPPO,通过遗传软更新、进化优先轨迹回放和对抗进化课程学习机制提升性能。
大型语言模型微调生命周期中的安全:威胁、防御、评估与未来方向
发表机构 * Hangzhou Normal University(杭州师范大学) ; Zhejiang University(浙江大学) ; China Mobile (Zhejiang) Innovation Research Institute Co., Ltd.(中国移动(浙江)创新研究院有限公司) ; Quantum Cloud Computing and Distributed Systems (qCLOUDS) Lab, School of Computing and Information Systems(量子云计算与分布式系统(qCLOUDS)实验室,计算与信息学院) ; The University of Melbourne(墨尔本大学)
AI总结 本文系统综述了大型语言模型微调过程中的安全威胁与防御,提出了基于生命周期的三阶段框架,并通过统一实验评估了攻击与防御的有效性及跨阶段局限性。
Comments 39 pages, 7 figures, 22 tables
培养机器智能:从自上而下优化到自创生认知生态的OMEGA转变
发表机构 * Nyenrode Business University(奈恩罗德商学院)
AI总结 针对当前深度学习优化范式导致的幻觉、谄媚、奖励破解和对齐脆弱等结构性缺陷,提出RECLAIM框架,通过计算生态学而非严格优化来培养智能,并引入OMEGA转变概念。
Comments Extended preprint. A shorter version of this work is currently under peer review
GL-LFGNN:基于Liang-Kleeman信息流的全局-局部双分支因果图神经网络用于脑电情感识别
发表机构 * School of Mathematics (Zhuhai), Sun Yat-sen University, Zhuhai, China(中山大学数学学院(珠海))
AI总结 提出GL-LFGNN模型,利用Liang-Kleeman信息流理论构建有向因果图,通过全局-局部双分支架构整合全脑与区域连接,在MEEG数据集上以少量参数实现高精度情感识别。
Comments 10 pages, 3 figures
意图信号理论:人机交互中意图状态控制的计算框架
发表机构 * Huizhou Lateni AI Technology Co., Ltd.(惠州莱尼人工智能技术有限公司) ; Huizhou University(惠州大学)
AI总结 提出意图信号理论(IST),通过区分潜在源意图、可观测意图代理、编码载体和模型输出四个对象,形式化意图丢失定理,并基于六种大语言模型、三种语言和三个任务领域的实验验证了结构-保真度分裂等预测,将提示工程重新定义为意图协议设计。
Comments 10 pages, 2 figures. Theoretical framework paper grounded in four companion empirical studies. Data and code repository: https://github.com/PGlarry/prompt-protocol-specification
AION:下一代时间序列任务与实用框架
发表机构 * Griffith University(格里菲斯大学) ; Shenzhen University(深圳大学) ; Zhejiang University(浙江大学)
AI总结 针对时间序列研究向结合预测、上下文推理、工具使用和结构化决策支持的现实任务转变,提出AION框架,通过时间锚定、知识推理和可靠性机制(如实验后分析和分层审查)实现更详细的过程追踪和审查步骤。
Comments Project page and code are available at https://github.com/ztxtech/aion
LVLMs中的语言偏差:从深入分析到简单有效的缓解方法
发表机构 * Harbin Institute of Technology, Shenzhen, China(哈尔滨工业大学(深圳))
AI总结 本文系统研究了大视觉语言模型中的语言偏差问题,发现其根源在于训练中的模态未对齐,并提出了两种简单有效的缓解方法:语言偏差正则化(LBR)和语言偏差惩罚(LBP)。
Comments Accepted by ICML 2026
D3S2: 扩散引导的语义分割数据集蒸馏
发表机构 * Zhejiang University(浙江大学)
AI总结 针对语义分割数据集蒸馏中的长尾类别不平衡、像素级对齐和高计算成本问题,提出两阶段框架D3S2,通过类别平衡掩码选择和扩散引导图像合成生成紧凑训练集,在极低压缩率下显著提升分割性能。
慢性皮肤病纵向数据检索中的隐私保护本地语言模型:在天疱疮患者中的实施
发表机构 * Division of Systems Medicine, Department of Metabolism, Digestion and Reproduction, Imperial College London(系统医学系,代谢、消化与生殖部,帝国理工学院伦敦分校) ; Department of Dermatology and Venereology, Istanbul Research and Training Hospital(皮肤科与性病科,伊斯坦布尔研究与培训医院) ; Department of Dermatology and Venereology, Istanbul Medeniyet University(皮肤科与性病科,伊斯坦布尔梅德尼yet大学) ; Department of Dermatology and Venereology, Istanbul Medicana Atakoy Hospital(皮肤科与性病科,伊斯坦布尔Medicana阿塔科伊医院)
AI总结 本研究评估了本地部署的隐私保护小型语言模型(SLM)在天疱疮患者长期随访记录中检索结构化临床特征并生成纵向摘要的能力,结果显示SLM在特征检索任务中平均准确率达82.25%,且医生对AI生成摘要的质量、临床准确性和实用性评分较高。
基于多源数据的都市尺度弹性可信交通流推断
发表机构 * School of Transportation, Jilin University(吉林大学交通运输学院) ; Department of Computer Science, City University of Hong Kong (Dongguan)(香港城市大学(东莞)计算机科学系) ; Institute for Transport Planning and Systems, ETH Zurich(苏黎世联邦理工学院交通规划与系统研究所) ; Institute of Intelligent Transportation Systems, College of Civil Engineering and Architecture, Zhejiang University(浙江大学智能交通系统研究所) ; ZJU-UIUC Institute, Zhejiang University(浙江大学-UIUC研究院)
AI总结 提出任务感知注意力神经过程(TA-ANP)统一概率框架,融合浮动车数据和稀疏固定检测器数据,实现高精度、可信的不确定性量化的全局交通状态推断,并在都市尺度数据集上取得最优性能。
Comments The paper has been submitted to Elsevier for possible publication
解释、学习与共情作为单一约束:具有可问责弃权的残差充分性架构
发表机构 * National Electronics and Computer Technology Center (NECTEC)(国家电子与计算机技术中心)
AI总结 提出一种认知架构,通过单一残差量统一处理解释、学习和共情,当情境超出表征能力时产生带类型和见证的弃权。
Comments First draft for journal submission. The code is at https://github.com/DarkEyes/RC-Arch
NeurIPS: 基于球面的脑解码的神经解剖学归纳先验
发表机构 * South China University of Technology(南方科技大学) ; Stanford University(斯坦福大学) ; King's College London(伦敦国王学院) ; Foshan University(佛山大学) ; Pazhou Lab(琶洲实验室)
AI总结 提出NeurIPS框架,通过选择性ROI球形分词器和结构引导专家混合模型,将解剖变异转化为归纳先验,在自然场景数据集上实现表面解码器最先进性能,并显著提升训练效率。
Comments International Conference on Machine Learning (ICML) 2026
面向任务驱动无人机网络的能量感知多智能体强化学习扩展与个体奖励
发表机构 * Department of Computer Science, ETH Zurich(苏黎世联邦理工学院计算机科学系) ; Department of Computer Science, Colby College(科尔比学院计算机科学系)
AI总结 提出基于个体奖励函数的能量感知多智能体强化学习模型,利用深度Q网络解决无人机网络动态环境和电池容量限制下的轨迹规划问题,实验表明在任务密度高时成功率接近100%,且扩展性优于共享奖励模型。
Comments IEEE Internet of Things Journal
基于不确定性触发的特征路径探索的点击率预测选择性测试时计算扩展
发表机构 * Alibaba Group(阿里巴巴集团)
AI总结 针对点击率预测中训练数据稀疏导致的不确定性,提出无需训练、模型无关的UTTSI框架,通过双信号估计器区分认知不确定性和偶然模糊性,对不确定实例进行自适应特征过滤和随机特征路径探索,在保持最坏延迟不变的情况下实现平均约2.8倍基础模型开销,实验和在线A/B测试均取得显著提升。
Comments 12 pages, 4 Figures, 3 Tables
弥合差距:实现软演员-评论家算法用于高性能腿部运动
发表机构 * ETH Zurich(苏黎世联邦理工学院)
AI总结 本文通过识别软演员-评论家(SAC)在并行训练中性能不足的根本原因,并提出策略初始化、超时感知评论家目标和多步回报估计等改进,使其在腿部运动任务中达到与近端策略优化(PPO)相当的性能。
MinerU-Popo:结构化文档解析的通用后处理模型
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Shanghai Artificial Intelligence Laboratory, OpenDataLab(上海人工智能实验室,OpenDataLab) ; University of California, Berkeley(加州大学伯克利分校)
AI总结 提出MinerU-Popo轻量级通用后处理框架,通过分解为文本/表格截断恢复、标题层级重建和图文关联四个子任务,并利用动态分块和重叠同步将OCR页面级结果重构为文档级逻辑结构,显著提升标题层级TEDS和RAG准确性。
Comments The code is available at https://github.com/opendatalab/MinerU-Popo
TGFormer:基于自相关机制的时间图Transformer
发表机构 * Hangzhou Dianzi University, School of Cyberspace(杭州电子科技大学信息学院) ; Tianjin University, College of Intelligence and Computing(天津大学智能与计算学院) ; State Key Laboratory of Systems Medicine for Cancer, Shanghai Cancer Institute(癌症系统医学国家重点实验室,上海癌症研究院)
AI总结 针对时间图神经网络在捕获长期依赖和周期模式上的不足,提出TGFormer,通过轨迹框架和自相关机制实现子交互级别的依赖发现与表示聚合,在六个基准上最高提升9.35%精度。
OSDTW:长尾识别的最优共享深度与任务加权
发表机构 * Shenzhen International Graduate School, Tsinghua University, Shenzhen, China(清华大学深圳国际研究生院,中国深圳) ; Shenzhen Zkosemi Semiconductor Technology Co., Ltd(深圳卓芯半导体科技有限公司)
AI总结 提出OSDTW框架,通过分解任务、共享编码器与任务特定解码器,并基于Fisher信息矩阵推导泛化误差的偏置-方差分解,以优化共享深度和任务权重,解决长尾识别中头部-尾部性能权衡问题。
Comments ICIC 2026 Oral
视觉基础模型在面部深度伪造检测中的跨域泛化极限
发表机构 * Department of Software Engineering, Faculty of Computer and Information Sciences(软件工程系,计算机与信息科学学院)
AI总结 本文通过系统评估三种视觉基础模型(RoPE-ViT、DINOv3、NVIDIA C-RADIOv4-H)在DF40基准上的线性探测性能,揭示了它们在面部深度伪造检测中的跨域泛化极限,发现基础模型对全脸合成保持高判别力,但对局部编辑技术存在根本性边界。
探究优化下上下文与参数化思维链忠实性之间的相互作用
发表机构 * University of Copenhagen(哥本哈根大学) ; Technische Universität Berlin(柏林技术大学) ; German Research Center for Artificial Intelligence (DFKI)(德国人工智能研究中心(DFKI)) ; BIFOLD – Berlin Institute for the Foundations of Learning and Data(BIFOLD – 柏林学习与数据基础研究院)
AI总结 通过提出统一偏好对齐接口FaithMate,研究上下文与参数化两种思维链忠实性范式在优化下的相互作用,发现两者正相关但不对称,且上下文忠实性指标间存在权衡。
Comments The first two authors contributed equally and share first-authorship
SEP-Attack:一种简单有效的基于迁移的文本对抗攻击范式
发表机构 * Dalian University of Technology(大连理工大学) ; Peking University(北京大学) ; Macao Polytechnic University(澳门理工学院) ; The Pennsylvania State University(宾夕法尼亚州立大学)
AI总结 提出SEP-Attack,利用行列式点过程生成多样化的代理集成权重,通过新指标评估预测置信度以计算词重要性并生成对抗样本,在多个数据集和API上显著优于现有方法。
通过区域感知注意力重校准减轻视觉语言模型中的对象幻觉
发表机构 * Qilu University of Technology (Shandong Academy of Sciences)(齐鲁工业大学(山东省科学院)) ; China Telecom Digital Intelligence Technology Co, Ltd(中国电信数字智能技术有限公司) ; Shenyang Aerospace University(沈阳航空航天大学) ; Qilu Institute of Technology(齐鲁理工学院)
AI总结 提出一种无需训练的区域感知自适应加权机制,通过计算注意力头的稳健统计中点并利用跨头分歧动态调整干预预算,以连续惩罚调制抑制幻觉路径,有效纠正视觉语义错位,同时保持生成流畅性。
面向工业资产运维的多轮对话系统
发表机构 * Columbia University(哥伦比亚大学)
AI总结 针对工业资产运维中的多轮、迭代问答问题,提出基于监督者-专家多智能体架构的多轮对话系统,通过结构化工件复用、动态重规划和并行工具执行,显著提升规划效果和任务完成率。
APT-Agent:利用大语言模型的自动化渗透测试
发表机构 * University of Queensland(昆士兰大学)
AI总结 提出APT-Agent框架,通过混合修正模块和命令特定记忆架构解决大语言模型在渗透测试中的幻觉和长期记忆问题,在Metasploitable 2上实现84.29%的端到端利用成功率。
Comments 11 pages, 8 figures
RealBench: 在操作条件和极端事件挑战下对数据驱动数值天气预报的基准测试
发表机构 * The Hong Kong University of Science and Technology(香港科学与技术大学) ; Nanjing University(南京大学) ; Southern University of Science and Technology(南方科技大学) ; Shanghai AI Laboratory(上海人工智能实验室) ; Shanghai TechWind Technology Co., Ltd.(上海技风科技有限公司)
AI总结 提出RealBench基准,通过使用低延迟操作分析和全球10,000+站点观测数据,在严格分布外测试集上评估AI天气预报模型,揭示再分析指标与实际性能的显著差异,特别是极端事件方面。
Comments 35 pages, 22 figures
你的嵌入模型比你想象的更聪明
发表机构 * UW-Madison(威斯康星大学麦迪逊分校) ; Korea University(韩国大学) ; NetApp, Inc.(NetApp公司)
AI总结 提出SMART框架,通过利用标准单向量模型的隐式多向量能力,在推理时应用后期交互,无需额外训练即可提升多模态检索性能。
公平性能量护盾
发表机构 * Institute of Science and Technology Austria(科学与技术研究院)
AI总结 提出一种受物理学启发的轻量级自适应控制器——能量护盾,通过概率性干预平滑地保证运行时公平性,并首次同时提供短期安全性和长期活性保证。
共享分数的四元数自注意力
发表机构 * Tokyo Woman's Christian University(东京女子基督教大学)
AI总结 提出一种共享分数四元数自注意力机制,通过四元数内积计算单一实值分数并共享注意力分布,在保持性能的同时大幅降低计算成本。
Comments 26 pages, 6 figures and 15 tables. Accepted at ICML2026
可解释多任务视网膜成像揭示2型糖尿病系统性风险分层的微血管信号:一项初步研究
发表机构 * Faculty of Computer Science and Artificial Intelligence, Shenzhen University of Advanced Technology(深圳先进技术大学计算机科学与人工智能学院) ; Frontier Science Computing Center, Zhuhai Institute of Advanced Technology Chinese Academy of Sciences(中国科学院珠海先进技术研究院前沿科学计算中心) ; Chinese University of Hong Kong(香港中文大学) ; Zhuhai People's Hospital (The Affiliated Hospital of Beijing Institute of Technology, Zhuhai Clinical Medical College of Jinan University)(珠海人民医院(北京理工大学珠海临床医学院附属医院)) ; Lampang Inter-Tech College, Lampang Thailand(泰国 Lampang 职业技术学院)
AI总结 本研究开发了一个可解释的多任务深度学习框架,通过分析视网膜微血管特征与系统性异常(如肾脏异常)的关联,验证了视网膜成像作为糖尿病系统性风险分层生物标志物的潜力。
Comments 18 pages, 4 figures
可解释的视网膜成像用于预测2型糖尿病多器官功能障碍
发表机构 * Faculty of Computer Science and Artificial Intelligence(计算机科学与人工智能学院) ; Frontier Science Computing Center(前沿科学计算中心) ; Chinese Academy of Sciences(中国科学院) ; Chinese University of Hong Kong(香港中文大学) ; Zhuhai People's Hospital(珠海人民医院) ; Beijing Institute of Technology(北京理工大学) ; Jinan University(暨南大学) ; Lampang Inter-Tech College
AI总结 本研究利用常规实验室生物标志物构建系统级异常指数,通过梯度提升模型预测2型糖尿病多系统失调,并采用SHAP实现可解释性,揭示了高血糖、肾功能障碍、血脂异常和炎症是主要驱动因素。
Comments 15 pages, 8 figures
因式分解以泛化:面向时间序列预测的检索引导不变-动态分解
发表机构 * College of Computer Science and Technology, Jilin University(吉林大学计算机科学与技术学院) ; College of Computing and Data Science, Nanyang Technological University(南洋理工大学计算机与数据科学学院) ; City St George’s, University of London(伦敦大学城圣乔治学院) ; Systems Research Institute, Polish Academy of Sciences(波兰科学院系统研究所)
AI总结 提出检索引导的不变-动态分解框架,通过分离稳定共享结构与实例特定变化,提升时间序列零样本预测在分布偏移下的鲁棒性。
鲁棒噪声的金融数值实体属性标注
发表机构 * National Taiwan University(国立台湾大学) ; National Central University(国立中央大学)
AI总结 针对金融数值实体标注中标签噪声和属性不全问题,提出NORA方法,通过任务感知实例加权和邻域先验KNN过滤,在6.6百万实例基准上实现鲁棒的多属性预测。
论类别不平衡对深度神经网络学习动态的影响:直观洞察
发表机构 * Faculty of Computing(计算机学院) ; Universiti Teknologi Malaysia(技术大学) ; Adejkunle Ajasin University(阿德吉库内勒·阿贾辛大学) ; Johor, Malaysia(马来西亚 Johor) ; Akungba-Akoko, Nigeria(尼日利亚 Akungba-Akoko)
AI总结 通过监测不同不平衡比率下深度神经网络对多数类和少数类的学习模式,系统研究了类别不平衡如何导致模型早期欠拟合少数类并仅学习多数类,最终造成少数类表示过拟合而非泛化。
Comments Conference
当推理有害:面向临床SOAP笔记生成的前沿LLM源感知评估
发表机构 * University of California, Davis(加州大学戴维斯分校)
AI总结 通过源感知基准测试,评估推理增强型LLM在临床SOAP笔记生成中的表现,发现推理能力反而降低GPT-5.4的质量,而相同源RAG带来模型依赖的小幅提升。
ProActor: 时序感知强化学习用于主动任务调度智能体
发表机构 * University of California, Santa Cruz(加州大学圣克鲁兹分校) ; Zillow Group(Zillow集团)
AI总结 提出ProActor框架,通过时序感知强化学习(结合RULER奖励和阶段感知复合奖励)和高效训练系统ART-F,在保持动作一致性的同时显著提升主动任务调度的时序质量。
Comments 47 pages, 31 figures. Accepted to ACL 2026
TaBIIC2:使用加权自组织映射交互式构建本体分类
发表机构 * LORIA, CNRS, Université de Lorraine(LORIA研究所、法国国家科学研究中心、洛林大学)
AI总结 本文提出一种工具,通过加权自组织映射聚类方法,支持用户逐步交互式地从表格数据中构建概念分类,并定义概念的内涵,平衡了纯手动分析与自动方法。
反转盾牌:从策略规范中系统生成安全测试
发表机构 * Shenzhen Campus of Sun Yat-sen University(中山大学深圳校区) ; National University of Singapore(新加坡国立大学) ; Independent Researcher(独立研究者)
AI总结 提出POLARIS框架,通过将非结构化自然语言策略编译为一阶逻辑表示并构建语义策略图,实现覆盖驱动的可重复安全测试,相比基线方法提高了策略覆盖率和攻击成功次数。
Comments Accepted to the 64th Annual Meeting of the Association for Computational Linguistics (ACL 2026)
迈向通用因果推理器
发表机构 * The University of Chicago(芝加哥大学) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校)
AI总结 提出UniCo数据生成框架,覆盖Pearl因果阶梯的18种查询类型,将符号示例转化为代码和自然语言,通过监督微调显著提升LLM的因果推理能力和推理忠实度。
聚类即推理:思维链图学习的 $k$-均值解释
发表机构 * University of Electronic Science and Technology of China(电子科技大学) ; Singapore Management University(新加坡国立大学) ; Michigan State University(密歇根州立大学) ; The Chinese University of Hong Kong(香港中文大学)
AI总结 提出KCoT框架,通过将Transformer块与$k$-均值算法建立数学对应,将思维链推理与图表示学习统一,实现迭代语义-拓扑交互,在标准基准上超越现有方法。
Comments Accepted by ICML 2026
DBPnet:基于阻尼特性的贝叶斯物理信息神经网络用于车轮载荷估计
发表机构 * Department of Civil, Architectural, and Environmental Engineering, The University of Texas at Austin(德克萨斯大学奥斯汀分校土木、建筑与环境工程系) ; School of Automation and Intelligent Sensing, Shanghai Jiao Tong University(上海交通大学自动化与智能感知学院) ; College of Electrical Engineering, Zhejiang University(浙江大学电气工程学院) ; School of Automotive Studies, Tongji University(同济大学汽车学院) ; School of Architecture, The University of Texas at Austin(德克萨斯大学奥斯汀分校建筑学院) ; Department of Civil and Environmental Engineering, University of Wisconsin-Madison(威斯康星大学麦迪逊分校土木与环境工程系)
AI总结 提出DBPnet,一种结合阻尼特性嵌入模块的贝叶斯物理信息神经网络,通过悬架连杆级建模和物理信息损失函数,实现鲁棒的车轮载荷估计。
Comments 14 pages, 12 figures, 6 tables
概念分配区:追踪概念如何跨越Transformer深度形成
发表机构 * Independent Researcher(独立研究者)
AI总结 提出概念分配区(CAZ)框架,通过层间度量(分离度、概念一致性、概念速度)检测概念在残差流中逐渐形成的深度区间,并在34个模型上验证了分离曲线的多模态性及温和CAZ的因果活性。
Comments 34 models, 8 architectural families, 7 concepts. Companion papers: GEM (arXiv forthcoming), CAZ Validation (arXiv forthcoming), PRH Validation (arXiv forthcoming). Code: https://github.com/jamesrahenry/Rosetta_Tools
使用加权一阶模型计数解决组合计数问题
发表机构 * School of Artificial Intelligence, Jilin University, Changchun, China ; State Key Laboratory of Complex \& Critical Software Environment, Beihang University, China ; National Research Center for Educational Materials, China ; Tengen Intelligence Institute, China ; Czech Technical University in Prague, Prague, Czech Republic
AI总结 提出Cofola语言,通过类型化声明式编程和加权一阶模型计数(WFOMC)编译流水线,统一解决集合、多重集、排列、划分等组合计数问题。
Comments 47 pages, 9 figures
Geo-Expert: 通过参数高效微调实现专家级地质推理
发表机构 * Ocean University of China(中国海洋大学) ; Peking University(北京大学) ; Monash University(墨尔本大学)
AI总结 本文提出Geo-Expert,通过参数高效微调(LoRA)在定制高质量指令数据集上微调小规模语言模型,在专门的地质推理基准Geo-Eval上,8B模型超越70B通用模型和GPT-4o,32B模型接近前沿推理模型。
Comments 11 pages, 1 figure, 3 tables. Accepted at ICML 2026 AI for Science Workshop
视觉自回归生成的对抗性纠错
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; City University of Hong Kong(香港城市大学) ; The University of Sydney(悉尼大学)
AI总结 提出AID-VAR框架,通过对抗性注入诊断机制纠正视觉自回归模型中的级联误差,提升生成质量。
Reflect-Guard: 通过逻辑自我反思增强大语言模型对对抗性提示的防护
发表机构 * Yale University(耶鲁大学) ; Columbia University(哥伦比亚大学) ; Citigroup(摩根大通) ; Independent Researcher(独立研究者)
AI总结 提出Reflect-Guard方法,通过参数高效微调为大语言模型安全分类器注入链式思维自我反思能力,显著提升对对抗性越狱攻击的检测性能。
Comments 12 pages, 2 figures, and 4 tables
无NMS时代的实时多尺度目标检测:YOLOv8与YOLO26的对比性能评估
发表机构 * University of Abuja(阿布贾大学) ; Vanderbilt University(范德比大学) ; University of Notre Dame(圣约翰大学)
AI总结 本文在Pascal VOC和VisDrone数据集上,从准确率、定位、模型大小、计算量和延迟等维度,系统比较了基于NMS的YOLOv8与无NMS的YOLO26在多尺度下的性能,发现YOLO26在多数尺度上检测更强且模型复杂度更低,但在密集小目标场景下优势缩小,且YOLOv8在GPU延迟上仍有竞争力。
Comments 11 pages, 6 tables, 9 figures
Agent制造:基础模型Agent作为一级工业实体
发表机构 * University of Canterbury(坎特伯雷大学)
AI总结 本文提出Agent制造范式,即基础模型Agent通过解释开放目标、长程规划、调用工具和机器、与其他Agent及人类协商来协调生产,从而将工业中的人类协调认知工作自动化。
CoRe-Code:面向代码生成的协作式强化学习
发表机构 * The Ohio State University(俄亥俄州立大学) ; Royal Melbourne Institute of Technology(皇家墨尔本理工学院)
AI总结 提出CoRe-Code框架,通过规划器-编码器范式和基于GRPO的协作感知强化学习,增强多智能体间的协调与专业化,提升代码生成的准确性和效率。
跨域能量引导扩散生成用于动态偏移强化学习
发表机构 * Duke University(杜克大学) ; Johns Hopkins University(约翰霍普金斯大学)
AI总结 提出CEDGE框架,利用能量引导扩散模型生成目标域轨迹,解决动态偏移下离线强化学习的域适应问题。
Comments 29 pages, 3 figures, and 14 tables
解缠双机器学习用于精确因果效应估计
发表机构 * School of Computer Science and Information Engineering, Hefei University of Technology(合肥工业大学计算机科学与信息工程学院) ; School of Computer and Information Technology, Shanxi University(山西大学计算机与信息学院)
AI总结 提出解缠双机器学习(DDML),通过因果角色解缠和残差依赖正交化策略,解决高维或有限样本下双机器学习中因混淆因子未解缠导致的偏差和不稳定问题,在合成、半合成和真实数据集上优于13种基线方法。
Comments 15 pages, 9 figures
零样本帕金森病语音检测:比较大型音频和语言模型
发表机构 * School of Computing, Mathematics and Engineering, Charles Sturt University(计算机科学与工程学院,查尔斯·斯图尔特大学) ; Department of Computer Science, Rensselaer Polytechnic Institute(计算机科学系,伦塞拉尔理工学院)
AI总结 通过比较手工声学特征和原始音频波形两种输入模态,研究零样本帕金森病检测在不同语言中的性能差异,发现手工特征在低资源语言中更稳定,而音频输入带来数据集依赖的增益。
Comments 6 pages
面向大规模视觉识别的多模态大语言模型分治推理
发表机构 * Taizhou Institute of Science and Technology, Nanjing University of Science and Technology(泰州科技学院、南京理工大学) ; Department of Intelligence Science, Xi’an Jiaotong-Liverpool University(智能科学系,西安交通大学利物浦大学) ; School of Computer Science and Technology, Soochow University(计算机科学与技术学院,苏州大学) ; Department of Statistical Sciences, University of Toronto(统计科学系,多伦多大学)
AI总结 针对多模态大语言模型在长序列识别中性能崩溃的问题,提出分治推理(DCI)策略,通过递归分解任务和动态剪枝提升信噪比与分类精度。
用于胃肠内窥镜的参数高效视觉语言模型:医学图像生成与临床视觉问答
发表机构 * Computer Science Department, Morgan State University(莫尔甘州大学计算机科学系) ; International Organization for Migration (IOM)(国际移民组织) ; Electrical & Computer Engineering Department, Morgan State University(莫尔甘州大学电气与计算机工程系)
AI总结 提出双流水线参数高效微调模型,结合Florence-2和LoRA Stable Diffusion,分别解决临床视觉问答和隐私保护合成数据生成问题,在Kvasir-VQA数据集上取得高ROUGE和BLEU分数,并显著降低计算成本。
CONF-KV:面向长序列LLM的置信度感知KV缓存淘汰与混合精度存储
发表机构 * Carnegie Mellon University(卡内基梅隆大学)
AI总结 提出CONF-KV方法,利用模型当前不确定性(置信度)动态调整KV缓存预算,结合混合精度存储和分块在线softmax注意力,在长序列推理中显著降低显存占用并保持高精度。
GRAIL:面向卫星数据科学家应用工作流的AI翻译
发表机构 * University of California, Riverside(加州大学河滨分校)
AI总结 提出GRAIL系统,通过LangGraph管道将Python地理空间工作流翻译为可扩展的Spark程序,无需科学家学习新框架。
互补子模信息度量用于平衡和鲁棒的数据选择
发表机构 * The University of Texas at Dallas(德克萨斯大学达拉斯分校)
AI总结 提出互补子模信息(CSI)目标函数,通过建模子集与其补集之间的共享结构信息,实现平衡且鲁棒的数据选择,并在理论上证明其近似单调性和贪心近似保证,实验表明在鲁棒隐藏切片感知子集选择中优于经典子模目标。
PRIMA: 具有可验证身份和收敛反馈的弹性多智能体研究的操作模式
发表机构 * GitHub
AI总结 针对长时间运行的多智能体LLM系统面临的故障模式,提出PRIMA框架,包含弹性恢复、子智能体操作规范和结构化工程交付的多阶段应用模式,并通过图同构案例验证其有效性。
Comments 11 pages. Single-author preprint. Supplementary case-study report (Graph Isomorphism algorithm proposal with three theorems, five conjectures, complete complexity analysis, and hard-instance evaluation) available at https://spockstein.github.io/prima/case-study-graph-isomorphism.html
通过循环SG-MCMC和软标签学习进行主观NLP中的不确定性分解
发表机构 * Faculty of Business and Commerce(商科学部) ; Data Science and AI Innovation Research Promotion Center(数据科学与人工智能创新研究促进中心) ; Graduate School of Data Science(数据科学研究生院)
AI总结 提出结合循环随机梯度马尔可夫链蒙特卡洛(cSG-MCMC)与软标签学习的方法,在情感分类中沿多个轴评估不确定性,并在GoEmotions基准上优于现有方法。
从理论到决策规则:校准视觉-语言模型弱监督的噪声标签交叉点——基于三个医学影像基准
发表机构 * Department of Computer Science, Stanford University(计算机科学系,斯坦福大学)
AI总结 通过三个医学影像基准校准理论预测的噪声标签交叉点,提出基于少量金标标签的决策规则。
Comments 5 pages, 2 figures, 4 tables
利用预训练RGB去噪器进行高光谱图像恢复
发表机构 * Univ. Grenoble Alpes, CNRS, Grenoble INP, GIPSA-Lab(格勒诺布尔阿尔卑斯大学、法国国家科学研究中心、格勒诺布尔INP、GIPSA实验室)
AI总结 提出一种轻量级适配器,通过投影映射重用冻结的预训练RGB去噪器,实现高光谱图像的去噪、去模糊和超分辨率恢复,实验表明RGB先验具有良好的迁移性。
光谱检索:基于多尺度sinc卷积的令牌嵌入局部化检索在LLM多智能体系统中的应用
发表机构 * Cisco(思科)
AI总结 提出光谱检索方法,通过多尺度sinc卷积对令牌嵌入进行重排序,在无需重新训练的情况下显著提升局部化检索性能,并自然适配于LLM多智能体系统。
智能体不确定性量化的适当评分规则
发表机构 * Independent Researcher(独立研究者)
AI总结 针对语言模型智能体轨迹中的不确定性信号,提出严格适当的轨迹评分规则TPS,用于评估逐步骤成功概率过程,并处理删失数据。
Comments 38 pages, 2 figures
使用多智能体语言模型自动检测和分类自然音频日记中的妄想相关内容
发表机构 * Department of Biomedical Informatics and Medical Education, University of Washington, Seattle, WA, USA(生物医学信息学与医学教育系,华盛顿大学,西雅图,华盛顿州,美国) ; Department of Psychiatry and Behavioral Sciences, University of Washington, Seattle, WA, USA(精神病学与行为科学系,华盛顿大学,西雅图,华盛顿州,美国) ; Department of Psychology, Louisiana State University, Baton Rouge, LA, USA(心理学系,路易斯安那州立大学,巴吞鲁日,路易斯安那州,美国) ; Department of Psychiatry, University of North Carolina at Chapel Hill, Chapel Hill, NC, USA(精神病学系,北卡罗来纳大学教堂山分校,教堂山,北卡罗来纳州,美国)
AI总结 提出一种多智能体LLM流水线,从自然音频日记中自动检测和分类妄想信念、情感和行为反应,通过多数投票实现稳健性能。
Comments Accepted by CLPych 2026
运动补偿权重压缩
发表机构 * Multidisciplinary Faculty of Nador Mohammed Premier University(纳多莫哈梅德 premier 大学多学科学院)
AI总结 提出运动补偿权重压缩(MCWC)方法,通过对齐置换对称块并利用层序预测和熵编码,有效压缩神经网络权重,在Transformer语言建模和视觉分类任务中提升率-精度帕累托前沿。
Comments 54 pages, 17 tables, 6 Figures
用于多轮LLM微调的合成轨迹的双层优化
发表机构 * Harvard University(哈佛大学) ; Georgia Institute of Technology(佐治亚理工学院)
AI总结 提出BOOST双层优化框架,通过内层加权训练和外层轻量级重加权头学习,解决合成轨迹质量异质性导致的LLM多轮交互性能下降问题。
谁来评判评判者?基于指标的治理:面向持续LLM合规监控的运行时框架
发表机构 * Independent Researcher(独立研究者)
AI总结 针对AI合规作为审计时二元判定而非生产系统持续可测量属性的问题,提出基于指标的治理原则,并开发开源框架govllm,通过运行时可观测性信号实现持续合规监控,验证了多模型陪审团设计在监管评估中的有效性。
Comments 41 pages, 8 figures, preprint
世界状态转换用于神经符号交互式故事讲述
AI总结 本研究探索在神经符号架构中利用LLM预测规则系统中的世界状态转换,以解决纯LLM方法的故事连贯性问题,并通过实验表明该方法能保持世界状态一致性并促进玩家创造性输入。
Comments To be presented at the 17th International Conference on Computational Creativity (ICCC'26)
TS-Skill: 用于评估时间序列问答中分析技能的基准
发表机构 * University of California, Los Angeles(加州大学洛杉矶分校) ; Samsung Research America(三星美国研究院) ; Carnegie Mellon University(卡内基梅隆大学) ; Microsoft(微软) ; Amazon(亚马逊)
AI总结 提出TS-Skill基准,通过三种可组合的分析技能(时间尺度选择、时间定位和跨区间整合)来诊断时间序列问答中模型的信号级能力,并开发SKEvol框架自动构建基准,实验揭示不同技能上的能力差距。
MDIA:HealthBench Professional上的多智能体诊断智能流水线
发表机构 * TietAI
AI总结 提出MDIA多智能体诊断系统,通过7节点专业路由临床推理图架构,在非微调LLM上实现HealthBench Professional基准性能提升3.72个百分点,归因于系统架构设计而非提示工程。
Comments 33 pages, 10 figures
路径很重要:学习扩散语言模型的令牌提交策略
发表机构 * Department of Computer Science and Technology, University of Cambridge(计算机科学与技术系,剑桥大学) ; Department of Engineering Science, University of Oxford(工程科学系,牛津大学)
AI总结 本文提出TraceLock,一种轻量级可插拔控制器,通过学习可复用的轨迹状态策略来优化扩散语言模型中的令牌提交决策,从而改善质量与步数之间的权衡。
HoloFair: 统一的T2I公平性评估与Fair-GRPO去偏
发表机构 * Nanjing University of Aeronautics and Astronautics(南京航空航天大学) ; School of Software Technology, Zhejiang University, Ningbo, China(浙江大学宁波校区软件学院) ; Ningbo Global Innovation Center, Zhejiang University, Ningbo, China(浙江大学宁波全球创新中心) ; Collaborative Innovation Center of Novel Software Technology and Industrialization(新型软件技术与产业化协同创新中心)
AI总结 提出HoloFair基准框架,通过多属性组间偏差指数(MGBI)评估文本到图像模型的公平性,并引入基于强化学习的Fair-GRPO方法进行去偏,在SD3.5-Medium模型上显著提升多维公平性且保持图像质量。
Comments Accepted to ICML 2026. Code and dataset are available at https://github.com/1059684669/HoloFair
大型语言模型中的情商在感知、认知和交互上存在碎片化
发表机构 * X-LANCE Lab(X-LANCE实验室) ; School of Computer Science, Shanghai Jiao Tong University(上海交通大学计算机科学学院) ; MoE Key Lab of Artificial Intelligence(人工智能MOE重点实验室) ; Jiangsu Key Lab of Language Computing(江苏省语言计算重点实验室) ; Beijing Key Laboratory of Applied Experimental Psychology(北京应用实验心理学重点实验室) ; National Demonstration Center for Experimental Psychology Education, Faculty of Psychology, Beijing Normal University(北京师范大学实验心理学教育国家级示范中心,心理学学院)
AI总结 本文提出FACET框架,基于Mayer-Salovey-Caruso四分支能力模型评估大型语言模型的情商,发现其并非单一能力,而是在认知和交互维度上碎片化,且隐藏情绪识别是普遍瓶颈。
超越聚合困境:多模态图的先验保持解耦学习
发表机构 * School of Computer Science and Engineering, Central South University(中南大学计算机科学与工程学院) ; Department of Data Science and Artificial Intelligence, The Hong Kong Polytechnic University(香港理工大学数据科学与人工智能系) ; School of Information and Communication Technology, Griffith University(格里菲斯大学信息与通信技术学院)
AI总结 针对多模态属性图学习中强制聚合导致性能反转的聚合困境,提出解耦双路径架构SUPRA,通过保持先验特征的独立性和轻量级共享GNN捕获结构协同,并辅以深度监督缓解梯度饥饿,实现SOTA性能且显著降低计算开销。
VaaWIT: 面向多语言网页图像翻译的大语言模型视觉感知适配
发表机构 * The Hong Kong University of Science(香港科技大学) ; Tianjin University(天津大学) ; Tsinghua University(清华大学)
AI总结 针对网页图像翻译中视觉表示差距问题,提出VaaWIT框架,通过双流注意力模块和视觉感知适配器,实现大语言模型对细粒度视觉特征的动态融合,在多个基准上超越开源模型并接近闭源模型性能。
Comments Accepted by KDD 2026
当平均交叉熵失效时:中位数交叉熵能更好地跟踪语言模型质量
发表机构 * i14 ; University of Melbourne(墨尔本大学) ; University of California, Santa Cruz(加州大学圣克ruz分校)
AI总结 本文发现中位数交叉熵比平均交叉熵更能反映语言模型在训练过程中的任务性能,并建议在评估时报告多个百分位交叉熵。
Comments 20 pages
CyBOKClaw:用于网络安全课程的人机协同CyBOK映射框架
发表机构 * University of Derby, Derby, UK(德比大学)
AI总结 提出CyBOKClaw,一种可解释的人机协同检索框架,通过查询归一化、术语扩展、概念提升、主题描述丰富和领域敏感排序规则,将网络安全关键词/短语映射到CyBOK,并采用专家引导的top-5有用性指标ECA-5评估,在开发集和验证集上分别达到91.88%和98.00%的ECA-5。
衡量LLM中的推理质量:一个多维行为框架
发表机构 * Department of Computer Engineering, Tarsus University(塔鲁斯大学计算机工程系) ; School of Computing and Augmented Intelligence (SCAI), Arizona State University (ASU)(计算与增强智能学院(SCAI),亚利桑那州立大学(ASU)) ; HumaConn AI Consulting(HumaConn AI咨询)
AI总结 提出一个基于行为的多维框架,从正确性、一致性、鲁棒性、逻辑连贯性、效率和稳定性六个维度评估LLM推理质量,揭示仅靠准确率无法观察到的行为,并支持部署决策。
超越纯推理部署:比较基于权重的巩固与级联压缩
发表机构 * University of Melbourne(墨尔本大学)
AI总结 针对大型语言模型纯推理部署中用户知识无法持久化的问题,提出通过夜间反射、合成和LoRA微调将交互知识巩固到模型权重中,实验表明该方法相比级联压缩知识保留率提升43.6个百分点。
Comments 15 pages
AVBench:面向音视频生成模型的人类对齐与自动化评估基准
发表机构 * Tsinghua University(清华大学) ; The Chinese University of Hong Kong(香港中文大学)
AI总结 提出AVBench,通过细粒度人类中心指标和偏好学习训练的专业评估器,实现音视频生成的自动化、准确评估。
DisDop: 基于领域先验蒸馏的开放词汇航空目标检测
发表机构 * Tsinghua Shenzhen International Graduate School, Tsinghua University(清华大学深圳国际研究生院,清华大学) ; Tsinghua University(清华大学)
AI总结 提出DisDop框架,通过从遥感基础模型(RemoteCLIP和DINOv3)中系统蒸馏多级领域先验知识到轻量级检测器,实现开放词汇航空目标检测的最新性能。
揭秘神话或颠覆漏洞经济学?从零日不对称到防御者修复吞吐量
发表机构 * University College London(伦敦大学学院) ; Bynario
AI总结 本文通过漏洞经济学视角分析LLM驱动的漏洞发现,指出其核心影响并非增加零日漏洞,而是提升防御者修复吞吐量,并利用Anthropic Mythos预览和Mozilla Firefox合作数据论证这一转变。
超越生成先验:JEPA引导扩散的少数采样
发表机构 * Department of Artificial Intelligence, Kookmin University, Seoul, South Korea(人工智能系,韩国全州大学,首尔)
AI总结 提出一种基于世界模型JEPA引导的扩散采样框架,通过近似策略实现高效计算,在无条件、类别条件和文本到图像生成中提升少数样本的保真度和语义有效性。
Comments ICML 2026, 21 pages, 9 figures
相位感知的基于小波散射的编解码器用于密集预测
发表机构 * Northern Paris Computer Science Lab, Sorbonne Paris Nord University, Villetaneuse, France(北巴黎计算机科学实验室,巴黎-索邦大学,法国维莱特内斯)
AI总结 提出一种相位感知散射编解码器,通过在跳跃连接中显式保留相位信息来恢复空间结构,在图像去噪和皮肤病变分割任务中验证了相位对密集预测的有效性。
Comments 21 pages, 16 figures, 10 tables
通过激活修补测量大语言模型遗忘的深度
发表机构 * Sungkyunkwan University(全北大学)
AI总结 提出遗忘深度评分(UDS),通过激活修补量化遗忘的机制深度,在150个遗忘模型上的元评估中达到最高忠实性和鲁棒性。
Comments 18 pages
Guarded Repair: 面向危害感知的LLM数学推理事后替换
AI总结 提出GuardedRepair框架,通过选择性替换机制在修复LLM数学推理错误时避免破坏正确结果,在GSM8K上准确率从95.60%提升至96.89%且未破坏正确案例。
Comments 15 pages,including appendices. Code and artifacts available at https://github.com/Haizhoux0517/guarded-repair
基于数学形态学的深度卷积学习的格论与代数模型
发表机构 * Mines Paris, PSL University, CMA-Center for Applied Mathematics, Sophia-Antipolis, France(巴黎 Mines 学院,PSL 大学,应用数学中心,法国索菲亚-安蒂波利斯)
AI总结 本文基于格论和数学形态学,为深度卷积架构(CNN、ResNet、UNet)建立了严格的代数框架,揭示了标准CNN流水线是交叉格算子,并识别出三种真正的幂等开运算层设计。
Agent-as-Peer-Debriefer: 一种基于视角精炼的多智能体定性分析框架
发表机构 * Soochow University(苏州大学) ; Johns Hopkins University(约翰霍普金斯大学)
AI总结 提出一种多智能体框架,通过模拟同行汇报(peer debriefing)并引入理论驱动、数据驱动和应用三种分析视角,提升大语言模型在定性数据分析中的编码质量。
Hera: 面向设备-云协作LLM智能体的长时程协调学习
发表机构 * Fudan University(复旦大学) ; Alibaba Group(阿里巴巴集团) ; The University of Hong Kong(香港大学) ; Shenzhen MSU-BIT University(深圳MSU-BIT大学) ; New York University(纽约大学) ; Universiti Malaya(马来亚大学) ; SpaceAIC Co., Ltd.(SpaceAIC公司)
AI总结 提出Hera,一种步骤级设备-云LLM智能体协调器,通过两阶段训练(模仿学习+强化学习)优化长时程任务的性能-成本帕累托前沿。
学习通过A*后训练进行高效推理
发表机构 * ETH Zürich(苏黎世联邦理工学院) ; MPI for Intelligent Systems, Tübingen(图宾根智能系统研究所) ; Purdue University(普渡大学)
AI总结 本文通过A*搜索算法指导LLM生成正确且高效的推理步骤,提出监督微调和强化学习两种训练方法,在1B-3B参数模型上显著提升推理准确性和效率。
Comments Preprint
HeartBeatAI:用于多标签心电图心律失常的可解释且鲁棒的深度学习框架
发表机构 * Department of Computer Science and Engineering, Indian Institute of Technology Roorkee(印度拉胡尔理工学院计算机科学与工程系)
AI总结 提出HeartBeatAI框架,结合域泛化、多尺度特征聚合和临床可解释性,通过Squeeze-and-Excitation ResNet和多层浓度管道实现鲁棒的12导联心电图分类,在跨数据集评估中达到98%宏F1分数,但跨机构部署时罕见异常检测仍存在挑战。
LAPLEX: 可学习拉普拉斯核的FFT
发表机构 * Faculty of Mathematics and Computer Science, Jagiellonian University(杰里戈尼亚大学数学与计算机科学系) ; Doctoral School of Exact and Natural Sciences, Jagiellonian University(杰里戈尼亚大学精确与自然科学博士学院) ; Centre for Credible Artificial Intelligence, Warsaw University of Technology(华沙技术大学可信人工智能中心)
AI总结 提出LAPLEX算子,通过可学习坐标锚点隐式定义满秩稠密矩阵,实现FFT规模的可训练矩阵-向量运算,分离表达性与存储成本。
多态性即旋转:从两层Transformer到Pythia-70m的操作性机械可解释性
发表机构 * Independent Researcher(独立研究者)
AI总结 本文发现独立训练的Transformer在残差流基上通过均匀随机旋转相互关联,并利用正交Procrustes拟合实现特征字典和转向向量在模型间的迁移,无需重新训练。
Comments 26 pages, 4 figures, 40 references. Pre-registered four-bar framework; all numerical claims reproducible
超声心动图特征与AI-ECG心力衰竭预测之间的关联
发表机构 * 1Medical Technology \& E-Health, Akershus University Hospital, 1478 Lørenskog, Norway ; 2Faculty of Medicine, University of Oslo, 0372 Oslo, Norway ; 3Department of Cardiology, Akershus University Hospital, 1478 Lørenskog, Norway ; 4Institute of Clinical Medicine, Campus Ahus, University of Oslo, 0317 Oslo, Norway
AI总结 本研究通过回顾性分析8147例患者数据,发现AI-ECG预测的心力衰竭风险主要与整体纵向应变等收缩功能指标相关,且在射血分数保留的患者中也能捕捉舒张功能异常。
PILOT: 策略引导的学习优化器用于自适应深度网络训练
发表机构 * King Abdullah University of Science and Technology(卡布斯大学) ; University of Strathclyde(斯特拉思克莱德大学)
AI总结 提出PILOT在线优化器,通过梯度方向一致性信号动态调整动量、归一化和符号更新的组合,在FashionMNIST和CIFAR-10上实现更高准确率。
Comments 16 pages, 5 figures
召唤神谕以屠之:利用大语言模型缓解金融回测中的前瞻偏差
发表机构 * University of Edinburgh(爱丁堡大学)
AI总结 提出FinCAD方法,通过对抗性偏差发现和实体日期自适应规则,在不重新训练的情况下抑制大语言模型对历史结果的记忆,从而缓解金融回测中的参数化前瞻偏差。
PEDESTRIANQA: 面向行人意图与轨迹预测的视觉-语言模型基准
发表机构 * CVIT, IIIT-Hyderabad, India(IIIT-海得拉巴计算机视觉与智能技术研究所,印度)
AI总结 提出大规模视频数据集PedestrianQA,将行人意图和轨迹预测转化为带结构化理由的问答任务,通过微调视觉-语言模型显著提升预测准确性与可解释性。
越狱以保护:通过临时越狱进行缓冲和强化以实现大型语言模型的安全微调
发表机构 * School of Electrical Engineering, Korea Advanced Institute of Science and Technology (KAIST)(韩国科学技术院电子工程学院)
AI总结 针对微调即服务中安全对齐被有害微调攻击削弱的问题,提出一种基于梯度分析的缓冲与强化框架,通过临时越狱适配器减少有害更新并利用QR分解合并强化安全,实现无需额外安全数据的高效防御。
Comments ICML 2026 Spotlight
PALoRA: 投影自适应LoRA以保持大型语言模型的推理能力
发表机构 * IT Group, Research, BNP Paribas(BNP巴黎研究院IT部门) ; LTCI, Télécom Paris, Institut Polytechnique de Paris(巴黎理工大学LTCI研究所) ; AI Institute, University of Waikato(瓦卡托大学人工智能研究所) ; Independent Researcher(独立研究员)
AI总结 提出PALoRA框架,通过奇异值微调(SVF)识别推理关键成分,并在正交约束下使用LoRA注入知识,以在保持推理能力的同时高效更新事实知识。
超越控制流:将资源视角融入基于文本的多协作流程建模
发表机构 * Fraunhofer Institute for Applied Information Technology(弗劳恩霍夫应用信息科技研究所) ; RWTH Aachen University(亚琛工业大学)
AI总结 提出一种资源感知的生成流程,从自然语言描述中自动生成包含组织(泳池)和角色(泳道)的BPMN 2.0协作图,同时保持控制流质量并增加少量运行时开销。
Comments Submitted to EDOC 2026, under review
通过记忆视角重新思考联邦遗忘学习
发表机构 * Royal Melbourne Institute of Technology(皇家墨尔本理工学院) ; Griffith University(格里菲斯大学) ; Swinburne University of Technology(斯威本理工大学)
AI总结 针对联邦学习中遗忘数据与保留数据重叠导致遗忘无效和客户端不公平的问题,提出基于分组记忆评估的联邦记忆剪枝方法,通过重置负责记忆的冗余参数实现高效遗忘。
Comments This paper has been accepted by SIGKDD 2026
面向可持续电动汽车充电与二氧化碳减排的排放感知强化学习:在不同可再生能源渗透率下
发表机构 * organization= nasc Research, School of Computer Science \& IT, University College Cork , country = IE ; organization= School of Computing, Engineering ; Digital Technologies, Teesside University , country= UK ; organization= International Energy Research Centre, Tyndall National Institute, Cork , country = IE ; Radiation Technologies Group, CCDCU, Faculty of Engineering ; Technology, Sunway University , country = Malaysia ; organization= Department of Physics, College of Science, Korea University , country = Republic of Korea
AI总结 提出基于软演员-评论家算法的排放感知强化学习策略,通过多目标奖励函数优化电动汽车充电调度,在EV2Gym平台上实现高达87%的碳排放减少和52%的可再生能源自消纳率。
Comments Submitted the Engineering Applications of Artificial Intelligence Journal (Elsevier)
AI驱动的自适应对手与公钥系统中密码学信任的侵蚀
发表机构 * Department of Computer Sciences, University of Oxford(牛津大学计算机科学系) ; The Alan Turing Institute(艾伦·图灵研究所) ; British Library(大英图书馆)
AI总结 本文研究人工智能驱动的自适应对手如何利用实现层面的可观测性侵蚀公钥密码学的安全性,提出了一种新的安全评估框架。
SemanticZip: 以LLM作为语义解压器的有损文本压缩的试点框架
发表机构 * Embedded Intelligence Lab (EMILAB)(嵌入式智能实验室)
AI总结 提出SemanticZip框架,通过LLM将文本压缩为紧凑代码并解压为任务相关语义,在结构化散文、JSON等六种表示上评估,发现结构化散文恢复率最高(WAR=0.956,19.1%令牌增益),而CCL-Min平衡性最佳(39.4%令牌增益,WAR=0.874)。
Comments 13 pages, 1 figure, 2 tables. Pilot framework paper; code and supplementary artifacts available in ancillary files
DemoEvolve:利用演示克服智能体框架演化中的稀疏反馈
发表机构 * Tsinghua University(清华大学) ; AgiBot
AI总结 提出DemoEvolve方法,通过人类演示引导框架演化,解决长时域随机环境中自生成轨迹因稀疏反馈和高方差导致的脆弱性问题,在Liar's Dice和Balatro任务中验证了其有效性。
去中心化AI是否可治理?从规制政策到构成性协议
发表机构 * University of Oxford(牛津大学) ; New York University Shanghai(纽约大学上海校区)
AI总结 本文分析去中心化AI的六层堆栈,揭示其导致的治理真空(责任缺口和无力化缺口),并提出从基于政策的规范性治理转向基于协议的构成性治理,同时确立合法性、可争议性、透明性和非支配性四个伦理条件。
Comments Submitted for Ethics and Information Technology
MOSS:自主智能体系统中通过源代码级重写的自我进化
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Hong Kong Generative AI Research & Development Center(香港生成式AI研究与开发中心) ; The Hong Kong University of Science and Technology(香港理工大学) ; Hong Kong Baptist University(香港 Baptist大学)
AI总结 提出MOSS系统,通过源代码级重写实现自主智能体系统的自我进化,利用生产故障证据自动批处理和多阶段确定性流水线,在OpenClaw上单周期内将平均评分从0.25提升至0.61。
Comments 12 pages, 3 figures, 2 tables. Preprint. Code: https://github.com/hkgai-official/Moss
AnyMo:野外人体运动的几何感知与设置无关建模
发表机构 * The University of New South Wales(新南威尔士大学) ; The Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)) ; The Hong Kong University of Science and Technology(香港科技大学)
AI总结 提出AnyMo框架,通过物理模拟生成多样化IMU信号、图编码器预训练和LLM对齐,实现跨设备/数据集的零样本活动识别、跨模态检索和运动描述,性能显著提升。
合同技能:面向企业AI代理的GovernSpec设计框架
发表机构 * SymbolicLight Research(SymbolicLight研究院)
AI总结 提出一种基于GovernSpec的合同技能设计框架,通过组织SKILL.md文件为可读任务合同,明确任务意图、边界和验收标准,实验表明该框架能提升生成质量并降低关键错误率。
Comments 15 pages, 5 figures, 4 tables. v2 adds a public-skill A/B study, updates experimental results, and adds a public replication package link: AGI/contractual-skill" target="_blank" rel="noopener">https://github.com/SymbolicLight-AGI/contractual-skill
Meta-Soft: 利用可组合元标记实现上下文保持的KV缓存压缩
发表机构 * Guangdong Institute of Intelligence Science and Technology(广东智能科学与技术研究院) ; University of Macau(澳门大学) ; Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳)) ; Hong Kong University of Science and Technology(香港科技大学)
AI总结 提出Meta-Soft动态压缩框架,通过可学习正交基矩阵和Gumbel-Softmax选择网络合成元标记,结合注意力流整合机制保留丢弃上下文信息,解决KV缓存压缩中的信息丢失和上下文断裂问题。
Comments 9 pages, 2 figures
SMDD-Bench: 大语言模型能否解决真实世界的小分子药物设计任务?
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Stealth Pennsylvania State University(隐形宾夕法尼亚州立大学)
AI总结 提出SMDD-Bench基准,通过502个多轮长时任务实例评估LLM在真实小分子药物设计中的表现,发现最优模型GPT5.4仅解决40.2%任务。
Look-Closer-Then-Diagnose: 通过主动缩放实现置信度感知的超声VQA
发表机构 * Computer Aided Medical Procedures (CAMP)(计算机辅助医疗程序) ; TU Munich, Germany(慕尼黑工业大学,德国) ; Munich Center for Machine Learning (MCML)(慕尼黑机器学习中心) ; Munich, Germany(慕尼黑,德国) ; Zhongshan Hospital, Fudan University, China(复旦大学中山医院) ; The University of Hong Kong, Hongkong, China(香港大学,香港,中国)
AI总结 提出一个模拟超声医师认知流程的框架,通过“缩放-诊断”范式和基于组相对策略优化的不确定性感知奖励,提升超声视觉问答中病灶定位和诊断性能。
排序重要:面向混合情感识别的排名感知选择性融合
发表机构 * Department of Artificial Intelligence and Software(人工智能与软件系)
AI总结 提出一种排名感知的多编码器框架,通过注意力门控模块选择最有效的编码器进行融合,并解耦预测为存在性和显著性头,结合无监督域适应,在混合情感识别任务中取得第二名成绩。
Comments Accepted at IEEE FG 2026 Workshops. Final system ranked 2nd in the BlEmoRE Challenge. 9 pages including appendix, 8 figures
ClaimDiff-RL: 通过视觉声明比较进行细粒度描述强化学习
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; MiniMax
AI总结 提出ClaimDiff-RL框架,利用原子声明差异作为奖励单元,通过多模态判断器枚举视觉差异并分配错误类型和严重程度,以解决长描述强化学习中事实性与覆盖度的权衡问题。
AutoResearchClaw: 基于人机协作的自我强化自主研究
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Rutgers University(罗格斯大学) ; NEC Labs America(NEC美国实验室) ; Meta(Meta公司) ; Stanford University(斯坦福大学) ; Google(谷歌公司) ; University of Washington(华盛顿大学)
AI总结 提出AutoResearchClaw多智能体自主研究系统,通过结构化辩论、自愈执行、可验证报告、七种人机协作模式和跨运行进化机制,在ARC-Bench基准上比AI Scientist v2提升54.7%。
当技能无济于事:关于程序性知识在进攻性网络安全中工具型智能体的负面结果
发表机构 * Florida State University(佛罗里达州立大学)
AI总结 本文通过重新分析一项控制实验,发现当环境反馈带宽高时,技能(Skills)对智能体性能的边际效益消失甚至产生负面影响,并提出了可证伪的假设。
Comments Accepted as a poster at ACM CAIS 2026 AgentSkills Workshop
解锁持续模型合并的潜力:ODE视角
发表机构 * Northeastern University, Shenyang, China(东北大学,沈阳,中国)
AI总结 提出ODE-M框架,将持续模型合并建模为参数空间中的轨迹,通过整流时变速度场和效用感知时间调度平衡历史知识与新任务,提升长任务流性能。
Comments 21 pages, 8 figures
前沿模型的成长之痛:当排行榜不再区分以及接下来衡量什么
发表机构 * Zehen Labs(泽亨实验室)
AI总结 本文通过分解SWE-bench和GPQA Diamond分数为种群耦合趋势和每版本残差(h场),诊断前沿模型能力之间的协作与权衡,并提供三步诊断法、每实验室测量优先级表及七个可证伪预测。
Comments 13 pages, 5 figures, 4 tables. Companion paper: "Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling." ( https://doi.org/10.48550/arXiv.2605.18838 ). Code: https://github.com/adilamin89/cape-scaling . Dashboard: https://zehenlabs.com/cape/
KairosHope: 一种基于双记忆架构的下一代时间序列基础模型,用于专门分类
发表机构 * Department of Computer Science and Artificial Intelligence(计算机科学与人工智能系) ; DiCITS, iMUDS, DaSCI(DiCITS、iMUDS、DaSCI) ; University of Granada(格拉纳达大学) ; Advanced Medical Imaging Group(先进医学成像组) ; Instituto de Investigación Biosanitaria de Granada (ibs.Granada)(格拉纳达生物医学研究机构(ibs.Granada)) ; Department of Software Engineering(软件工程系) ; Department of Rural Engineering(农村工程系) ; University of Córdoba(科尔多瓦大学)
AI总结 针对标准注意力计算瓶颈和经典统计知识缺失问题,提出KairosHope模型,通过双记忆系统(Titans模块和连续记忆系统CMS)替代二次注意力,并融合深度表示与统计特征的混合决策头,在UCR基准上实现优越分类性能。
VLA 推理是否忠实?自动驾驶模型中因果链的安全性探究
发表机构 * School of Computer Science and Engineering(计算机科学与工程学院) ; Central South University(中南大学) ; School of Computer Science(计算机科学学院) ; University of Wollongong in Dubai(迪拜大学)
AI总结 通过分析300次VLA推理,发现输出推理与轨迹的忠实度仅42.5%,存在大量漏检行人、轨迹脆弱及推理-动作不一致问题,并提出了信息论忠实度形式化定义与安全架构。
Comments Accept (Poster), CVPR 2026 Workshop DriveX NonArchival Track
少样本示例如何累加:上下文学习中函数向量的因果分解
AI总结 本文通过因果分解揭示少样本提示中函数向量由示例级子向量线性组合而成,并发现模型通过注意力重加权机制根据上下文调整示例贡献。
Comments Accepted at ICML 2026. 70 pages, 65 figures
SaaS-Bench:计算机使用代理能否利用真实世界SaaS解决专业工作流程?
发表机构 * UniPat AI ; PKU(北京大学) ; HKU(香港大学) ; G Labs(0G实验室) ; Pipeline Lab(Pipeline实验室)
AI总结 提出SaaS-Bench基准,包含23个可部署SaaS系统和106个真实工作场景任务,评估计算机使用代理在长期规划、跨应用协调等能力上的表现,发现最强模型端到端任务完成率不足4%。
Comments 24 pages, 11 figures
分词器生育率与基础模型在乌克兰法律文本上的零样本性能:一项比较研究
发表机构 * LEX AI Platform(LEX AI平台) ; legal.org.ua ; Kyiv, Ukraine(基辅,乌克兰)
AI总结 本研究比较了七种基础模型在乌克兰法律文本上的分词器生育率和零样本性能,发现分词器生育率差异达1.6倍,Qwen 3模型比Llama系列多消耗60%的token,而NVIDIA Nemotron Super 3 (120B)以更低的成本取得最佳性能,同时揭示了少样本提示在形态丰富语言上的退化以及战时法律语言对模型泛化的影响。
Comments 25 pages, 13 tables, 5 figures; v2 adds cross-temporal generalization experiment and classical baseline
一步之遥:为什么针对恶意微调的防御在自适应对手面前失败
发表机构 * Ben-Gurion University of the Negev(贝纳-约瑟夫大学) ; Amrita Vishwa Vidyapeetham(阿米塔维莎瓦迪耶佩塔)
AI总结 本文通过分析15种近期防御机制,发现它们共享一个弱点:仅掩盖或误导有害行为路径而未消除行为本身,并开发了一种统一的自适应攻击,成功突破了所有防御机制。
Comments Under review
PyCSP3-Scheduling: PyCSP3的调度扩展
发表机构 * Univ. Artois, UR 3926, Laboratoire de Génie Informatique et d’Automatique de l’Artois (LGI2A)(阿劳斯-大学,UR 3926,阿劳斯信息工程与自动化实验室(LGI2A))
AI总结 提出PyCSP3 Scheduling库,通过53个专用约束和27个表达式为PyCSP3添加调度抽象,并编译为标准约束,在261个实例上验证了与原始公式的目标一致性,但运行时性能因编译开销而异。
AI智能体设计模式的二维框架:认知功能与执行拓扑
发表机构 * Agency for Science, Technology and Research (A*STAR)(科技研究局(A*STAR)) ; Centre for Frontier AI Research (CFAR)(前沿人工智能研究中心(CFAR))
AI总结 提出一个结合认知功能(7类)和执行拓扑(6种结构)的二维分类框架,识别28种命名模式,并通过跨领域分析得出模式选择的五条经验法则。
Comments 10 pages, 6 tables, 28 named patterns
经典规划中提升动作模式的可微学习
发表机构 * RWTH Aachen University(亚琛工业大学)
AI总结 提出一种神经网络架构,从完全可观测状态但动作参数未观测的轨迹中学习提升动作模式,实现近乎完美的结构恢复。
涌现性失调中的人格模型崩溃
发表机构 * TELUS Digital Research Hub(TELUS数字研究中心) ; Center for Artificial Intelligence and Machine Learning(人工智能与机器学习中心) ; Institute of Mathematics, Statistics and Computer Science(数学、统计与计算机科学研究所) ; University of São Paulo(圣保罗大学)
AI总结 提出人格模型崩溃假说,通过道德易感性(S)和道德稳健性(R)两个指标,证明在有害数据上微调大语言模型会导致模型模拟、区分和维持一致角色的内部能力恶化,从而引发涌现性失调。
Comments 23 pages, 7 figures, 7 tables; NeurIPS 2026 submission; Corrected code repository URL
在线策略蒸馏的多种面貌:陷阱、机制与修复
发表机构 * UIUC(伊利诺伊大学香槟分校) ; Renmin University of China(中国人民大学) ; Peking University(北京大学)
AI总结 本文通过实证研究分析了在线策略蒸馏(OPD)和在线策略自蒸馏(OPSD)在大语言模型后训练中的有效性、失败机制及修复方法。
SURGE: 二值神经网络中的替代梯度自适应
发表机构 * National College for Excellent Engineers, Beihang University, Beijing, China(北京航空航天大学优秀工程师学院) ; School of Artificial Intelligence, Beihang University, Beijing, China(北京航空航天大学人工智能学院) ; School of Electronic and Information Engineering, Beihang University, Beijing, China(北京航空航天大学电子与信息工程学院) ; King Abdullah University of Science and Technology, Saudi Arabia(沙特国王 Abdullah 科学技术大学) ; Huawei Noah’s Ark Lab, China(华为诺亚实验室)
AI总结 针对二值神经网络中梯度失配和固定范围梯度裁剪导致的信息损失问题,提出一种基于理论的可学习梯度补偿框架SURGE,通过双路径梯度补偿器和自适应梯度缩放器实现偏差减少的梯度估计与动态平衡,在图像分类、目标检测和语言理解任务上达到最优性能。
Comments Accepted as a poster at the 43rd International Conference on Machine Learning (ICML 2026)
一种面向计算连续体中因果可观测性的不确定性感知韧性微代理
发表机构 * Department of Computer Systems and Sciences(计算机系统与科学系) ; Department of Computer Science(计算机科学系)
AI总结 提出AURORA框架,通过集成自由能原理、因果do-calculus和局部因果状态图,在边缘层实现灰色故障的因果诊断与缓解,并采用双门控执行机制在不确定性高时避免破坏性干预。
Flow-OPD:面向流匹配模型的在线策略蒸馏
发表机构 * University of Science and Technology of China(中国科学技术大学) ; University of California, Los Angeles(加州大学洛杉矶分校) ; The Chinese University of Hong Kong(香港中文大学) ; Xiaohongshu Inc.(小红书公司)
AI总结 提出Flow-OPD框架,通过两阶段对齐策略(单奖励GRPO微调专家+流式冷启动与在线策略蒸馏)解决流匹配模型在多任务对齐中的奖励稀疏和梯度干扰问题,并引入流形锚点正则化抑制美学退化,在GenEval和OCR指标上显著提升。
Comments Project Page: https://costaliya.github.io/Flow-OPD/ , Code: https://github.com/CostaliyA/Flow-OPD
自动简答题评分中的质量条件一致性:中等范围退化与任务特定适应的影响
发表机构 * Weizmann Institute of Science(魏茨曼科学研究院) ; ETS(教育考试服务中心)
AI总结 研究自动简答题评分中不同模型的任务适应程度与质量条件评分一致性的关系,发现所有AI模型在完全正确和完全错误的回答上表现良好,但在中等范围回答上出现显著退化,且退化程度与任务特定数据量相关。
Comments PRE-PRINT VERSION Accepted to ACL 21st Workshop on Innovative Use of NLP for Building Educational Applications (BEA26)
PACZero: 通过符号量化的语言模型PAC隐私微调
发表机构 * CWI Amsterdam(阿姆斯特丹信息与计算科学研究所) ; MIT Cambridge(麻省理工学院) ; Vrije Universiteit Amsterdam(阿姆斯特丹自由大学)
AI总结 提出PACZero系列零阶机制,通过符号量化实现零互信息下的PAC隐私微调,在SST-2和SQuAD上取得竞争性结果。
将结果监督内化为过程监督:推理强化学习的新范式
发表机构 * Alibaba Group(阿里巴巴集团) ; Tsinghua University(清华大学)
AI总结 提出一种监督内化方法,使模型在仅结果监督下自动提取过程级学习信号,实现细粒度策略优化。
通过测试时后验调整缓解表格上下文学习中的标签偏移
发表机构 * LG AI Research(LG人工智能研究)
AI总结 针对TabPFN在表格数据上下文学习中对标签偏移敏感的问题,提出DistPFN方法,通过测试时后验调整重新缩放类别概率,无需修改架构或额外训练,在250多个OpenML数据集上显著提升分类性能。
Comments ICML 2026
从肌肉爆发到运动意图:面向异质EMG的自监督令牌建模
AI总结 提出AEMG自监督学习方法,通过事件级令牌建模和Transformer编码,从异质EMG数据中提取可复用的神经肌肉表征,提升跨用户、跨会话的鲁棒性并减少校准数据需求。
Comments After further verification, we identified issues in the current version that may affect the reliability and reproducibility of the reported experimental results. In particular, part of the evaluation relies on a dataset for which the public-release/redistribution status and supporting validation remain unresolved
具身人工智能的安全性:风险、攻击与防御综述
发表机构 * Fudan University(复旦大学) ; Shanghai Innovation Institute(上海创新研究院) ; City University of Hong Kong(香港城市大学) ; Jilin University(吉林大学) ; Singapore Management University(新加坡管理大学) ; Deakin University(德肯大学) ; Tongji University(同济大学) ; Nanyang Technological University(南洋理工大学) ; Chinese Academy of Sciences(中国科学院) ; The University of Melbourne(墨尔本大学) ; Johns Hopkins University(约翰霍普金斯大学)
AI总结 本文综述了具身AI在感知、认知、规划、行动及交互全流程中的安全风险、攻击与防御方法,提出了多层次分类体系,并指出了多模态感知融合脆弱性、规划不稳定及人机交互可信度等关键挑战。
Comments Survey paper; 75 pages, 4 figures, 18 tables; v2 expands embodied-specific coverage of agentic threats, World Action Model threats, and contextual risk mitigation, with over 100 new references added. Project page: https://x-zheng16.github.io/Awesome-Embodied-AI-Safety/
稀疏混合专家模型中的软到硬路由
发表机构 * Meta Platforms, Inc(Meta平台)
AI总结 本文通过边界层微积分方法,研究了稀疏混合专家模型中softmax路由随温度趋于零时趋近于硬top-1路由的极限过程,并给出了基于路由界面邻域概率的定量误差界。
可靠AI需要外化隐性知识:人机协作视角
发表机构 * Department of Computer Science, Aalborg University, Aalborg, Denmark(奥胡斯大学计算机科学系) ; Department of Informatics, University of Oslo, Oslo, Norway(奥斯陆大学信息系) ; School of Computing, Macquarie University, Sydney, Australia(麦考瑞大学计算科学学院)
AI总结 本文从人机协作视角提出,可靠AI需要基础设施将隐性知识外化为可验证的形式,通过知识对象(KOs)实现人类验证,从而提升可靠性。
Comments Accepted at ICML 2026 (Position Paper Track). 14 pages, 2 figures, 1 table
证据链:面向迭代检索增强生成的像素级视觉归因
发表机构 * National Engineering Research Center for Software Engineering, Peking University(软件工程国家级工程研究中心,北京大学) ; City University of Hong Kong(香港城市大学) ; Peking University(北京大学) ; Tencent Technology(腾讯科技)
AI总结 提出Chain of Evidence (CoE)框架,利用视觉语言模型直接对检索到的文档截图进行推理,输出精确边界框以可视化完整推理链,解决迭代检索增强生成中的粗粒度归因和视觉语义丢失问题。
生成式结构搜索:高效且多样地发现分子和晶体结构
发表机构 * Zhongguancun Academy(中关村学院) ; Kairos Materials(Kairos材料)
AI总结 提出生成式结构搜索(GSS)框架,结合扩散模型和随机结构搜索,利用数据先验加速采样并保持能量引导的局部极小探索,以低于随机结构搜索十分之一的成本恢复多样亚稳态结构。
迷失在解码中?复现与压力测试生成式检索中的前瞻先验
发表机构 * University of Amsterdam(阿姆斯特丹大学)
AI总结 本文复现并压力测试了生成式检索中的前瞻先验方法PAG,发现其规划信号在词汇表面形式变化下脆弱,并评估了跨语言鲁棒性与查询端缓解策略。
Comments 12 pages, 5 figures, 9 tables; accepted to the 49th International ACM SIGIR Conference on Research and Development in Information Retrieval, July 20-24, 2026, Melbourne/Naarm, Australia
MoBayes:一种用于对话式临床决策支持中推理与语言分离的模块化贝叶斯框架
发表机构 * LiGHT, EPFL(LiGHT,瑞士联邦理工学院) ; University of Bern(伯尔尼大学) ; Aarhus University(奥胡斯大学)
AI总结 提出MoBayes框架,通过将LLM作为语言接口、贝叶斯模块进行概率推理,实现推理与语言分离,在临床决策支持中优于独立前沿LLM医生。
Comments 50 pages including appendix, 13 figures, 22 tables. Preprint
Copy-as-Decode: 面向LLM编辑的语法约束并行预填充
AI总结 提出Copy-as-Decode机制,通过语法约束的并行预填充加速LLM编辑,实现高达303倍的自回归解码加速,并保持高覆盖率与无损性。
Comments The authors have decided to withdraw this version following internal review regarding authorship and contribution agreements
深度寄存器解锁 SwiGLU 上的 W4A4:一种读取器/生成器分解
AI总结 本研究通过深度寄存器和铰链损失(DR+sink)训练时干预,将 SwiGLU 解码器语言模型的 W4A4 量化困惑度从 1727 降至 119,并分解出残差轴读取器主导误差,而生成器 w2 的双线性输入是剩余差距的主因。
Comments The authors have decided to withdraw this version following internal review regarding authorship and contribution agreements
重新思考序列级强化学习中的比较单元:从损失校正到样本构建的等长配对训练框架
发表机构 * Alibaba Group(阿里巴巴集团) ; Tsinghua University(清华大学)
AI总结 本文提出序列级相对强化学习中的长度问题本质是比较单元构建问题,并基于此提出等长配对训练框架EqLen,通过双轨同步生成、前缀继承和段掩码构建可比较的训练样本。
文本上的联邦:多智能体推理的洞察共享
发表机构 * University of Chicago(芝加哥大学) ; Google DeepMind(谷歌DeepMind)
AI总结 提出一种类似联邦学习的框架FoT,通过迭代聚合多个客户端的本地推理过程,构建跨任务元认知洞察库,无需共享问题实例或任务指令,显著提升推理效果和效率。
Comments 46 pages
面向长程LLM对话的协作式内存分页与关键词书签
AI总结 提出协作式分页方法,用关键词书签替代被驱逐的对话片段,并赋予模型 recall() 工具按需检索,在 LoCoMo 基准上四个模型均取得最佳答案质量,并通过消融实验揭示分页设计的关键因素。
Comments The authors have decided to withdraw this version following internal review regarding authorship and contribution agreements
A-R行为空间:组织部署中工具使用语言模型代理的执行层剖析
发表机构 * Cardiff School of Technologies, Cardiff Metropolitan University(卡迪夫技术学院,卡迪夫市政大学) ; School of Professional Studies, Clark University(专业研究学院,克拉克大学) ; Harvard Medical School, Harvard University(哈佛医学院,哈佛大学)
AI总结 提出基于动作率(A)和拒绝信号(R)的二维A-R空间及散度(D)来测量执行层行为,评估不同规范制度和自主性配置下语言模型代理的执行与拒绝分布模式。
SEA-Eval: 超越情景评估的自进化智能体基准
发表机构 * Fudan University(复旦大学)
AI总结 本文提出自进化智能体(SEA)的形式化定义及其最小充分架构进化飞轮,并构建首个专门评估SEA的基准SEA-Eval,通过顺序任务流设计量化进化增益、稳定性和隐式对齐收敛。
UniRank: 混合文本-图像候选的端到端领域特定重排序
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Alibaba Group(阿里巴巴集团)
AI总结 提出UniRank,一种基于视觉语言模型的重排序框架,通过无需模态转换的统一评分和端到端领域适应(包括指令微调和基于强化学习的偏好对齐),在科学文献检索和设计专利搜索中显著提升性能。
基于CSI元组的多模态学习辅助3D信道指纹构建
发表机构 * National Mobile Communications Research Laboratory, Southeast University(东南大学国家移动通信研究中心) ; Purple Mountain Laboratories(紫金山实验室) ; Huawei Technologies Co., Ltd.(华为技术有限公司)
AI总结 针对低空通信中的3D信道指纹构建问题,提出一种基于CSI元组的多模态回归框架,通过融合位置、通信测量和地理环境地图,实现高效高精度的信道状态信息估计。
Comments 14 pages, 9 figures
学习者情感投入画像:情感AI、跨文化语用学与语言学习
发表机构 * Virginia Commonwealth University(弗吉尼亚大学)
AI总结 本文探讨了情感AI在语言学习中的应用,特别是自动情感识别和模拟人类响应如何影响语用能力和互动能力的发展,并讨论了其个性化学习优势与情感操纵风险。
基于LLM驱动的算法调试的程序化精炼用于ARC-AGI-2
发表机构 * Nanjing University(南京大学)
AI总结 提出一种神经符号精炼方法ABPR,结合LLM与Prolog元解释器,通过证明树推导进行语义重检,在ARC-AGI-2上实现高通过率,并扩展到RAVEN风格推理任务。
UtilityMax Prompting:多目标大语言模型任务的形式化框架
发表机构 * Independent Researcher(独立研究者)
AI总结 提出UtilityMax Prompting框架,用影响图和期望效用最大化将多目标LLM任务形式化,在MovieLens 1M数据集上相比自然语言基线提升了精度和NDCG。
Grouter: 将路由与表示解耦以加速MoE训练
发表机构 * School of Mathematical Sciences, Peking University, Beijing, China(北京大学数学科学学院) ; Center for Machine Learning Research, Peking University, Beijing, China(北京大学机器学习研究中心) ; Yuanpei College, Peking University, Beijing, China(北京大学元培学院) ; Zhejiang Lab, Hangzhou, China(浙江实验室)
AI总结 提出Grouter方法,通过从预训练MoE模型中蒸馏高质量结构作为固定路由器,解耦结构优化与权重更新,显著加速模型收敛并提升训练吞吐量。
分布式部分信息谜题:在认知不对称下检验共同基础的构建
发表机构 * Brandeis University(布兰迪斯大学) ; Colorado State University(科罗拉多州立大学)
AI总结 提出分布式部分信息谜题(DPIP)任务,收集多模态数据集,并评估大语言模型与动态认知逻辑方法在追踪信念状态和共同基础构建上的表现。
Comments 10 pages, 4 figures
基于拓扑驱动的医学基础模型分割迁移性估计
发表机构 * Peking University(北京大学) ; Hohai University(河海大学) ; Beijing Normal University-Hong Kong Baptist University United International College(北京师范大学-香港 Baptist大学联合国际学院) ; National Institute of Health Data Science, Peking University(健康数据科学国家研究院,北京大学) ; Institute of Medical Technology, Peking University(北京大学医学技术研究院) ; State Key Laboratory of General Artificial Intelligence, Peking University(通用人工智能国家重点实验室,北京大学)
AI总结 提出拓扑驱动迁移性估计框架,通过全局表示拓扑散度、局部边界感知拓扑一致性和任务自适应融合,无需微调即可高效选择医学基础模型,在OpenMind基准上加权Kendall指标相对提升约31%。
INDUCTION: 一阶逻辑中的有限结构概念合成
发表机构 * Independent Researcher(独立研究者)
AI总结 提出INDUCTION基准,用于一阶逻辑中有限结构的概念合成,通过精确模型检查验证公式的正确性,并发现低冗余公式在未见世界上的泛化能力更强。
有限面试匹配市场的双面时间无关遗憾
发表机构 * University of Massachusetts Amherst(马萨诸塞大学阿姆赫斯特分校)
AI总结 针对面试次数有限的匹配市场,提出利用面试作为提示进行双面学习,并通过策略性延迟纠正早期错误,实现与时间无关的遗憾界。
超图神经网络的反事实解释
发表机构 * Department of Computer Control and Management Engineering, Sapienza University(计算机控制与管理工程系,萨皮恩扎大学) ; Department of Computer Science, Sapienza University(计算机科学系,萨皮恩扎大学)
AI总结 提出CF-HyperGNNExplainer方法,通过最小结构变化生成反事实超图,以解释超图神经网络的预测决策。
微调语言模型使其了解自身所知
发表机构 * The University of Texas at Austin(德克萨斯大学奥斯汀分校) ; Cognizant AI Lab(认知人工智能实验室)
AI总结 本文提出一种框架,通过进化策略对齐方法(ESMA)在控制偏差的同时提升大语言模型的元认知能力,并在未见数据集、语言和新知识上展现出鲁棒泛化性。
Comments Preprint
SPA-Cache: 扩散语言模型中的自适应缓存奇异代理
发表机构 * College of Computing(计算学院) ; Data Science, Nanyang Technological University, Singapore, Singapore(数据科学,南洋理工大学,新加坡,新加坡)
AI总结 针对扩散语言模型因非因果特性无法使用标准KV缓存导致计算开销大的问题,提出SPA-Cache方法,通过低维奇异代理识别关键令牌并自适应分配缓存预算,实现高达8倍吞吐量提升和2-4倍加速。
Comments Accepted by ICML 2026.The code repository is available at https://github.com/wenhao728/spa-cache
MemSkill:面向自进化智能体的可学习与进化记忆技能
发表机构 * Nanyang Technological University(南洋理工大学) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; University of Illinois Chicago(伊利诺伊大学芝加哥分校) ; Tsinghua University(清华大学)
AI总结 提出MemSkill框架,将记忆操作转化为可学习和可进化的技能,通过控制器选择技能、执行器生成记忆、设计者进化技能集,形成闭环提升LLM智能体任务性能。
Comments Code is available at https://github.com/ViktorAxelsen/MemSkill
BEAR:面向大语言模型推荐中束搜索感知的优化
发表机构 * Zhejiang University(浙江大学) ; The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳)) ; Hangzhou City University(杭州市城市大学)
AI总结 针对监督微调与束搜索推理之间的不一致性,提出BEAR正则化方法,通过确保正例每个token在解码步骤中排名前B来避免过早剪枝,显著提升推荐性能。
Comments Accepted by SIGIR 2026
基于置信度蒸馏的门控关系对齐用于高效视觉语言模型
发表机构 * Department of Information Technology(信息科技系) ; Electrical Engineering, ETH Zurich, Zurich, Switzerland(电气工程,苏黎世联邦理工学院,苏黎世,瑞士) ; Qualcomm AI Research, Amsterdam, the Netherlands(高通人工智能研究,阿姆斯特丹,荷兰) ; Department of Electrical, Electronic and Information Engineering(电气、电子与信息工程系) ; University of Bologna, Bologna, Italy(博洛尼亚大学,博洛尼亚,意大利) ; School of Electrical and Electronic Engineering(电气与电子工程学院)
AI总结 提出GRACE框架,通过信息瓶颈原理统一知识蒸馏与量化感知训练,使用置信度门控解耦蒸馏、关系中心核对齐和自适应控制器,在INT4量化下实现性能超越FP16基线并接近教师模型,同时显著降低内存和提升吞吐量。
Comments Accepted to the International Conference on Machine Learning (ICML 2026)
动力学揭示结构:挑战线性传播假设
发表机构 * University of Tübingen(图宾根大学)
AI总结 通过关系代数研究神经网络中线性传播假设的几何极限,证明其在对合运算(否定、逆)上可行,但在组合运算上存在根本性障碍,导致特征映射崩溃,并解释知识编辑失败、反转诅咒和多跳推理等问题的共同根源。
通过先验增强的音频大语言模型统一语音编辑检测与内容定位
发表机构 * Key Laboratory of Aerospace Information Security(航空信息安全与可信计算重点实验室) ; School of Cyber Science and Engineering(网络安全工程学院) ; Wuhan University(武汉大学) ; Independent Researcher(独立研究员) ; School of Computer Science and Technology(计算机科学与技术学院) ; Anhui University(安徽大学) ; Communication University of China(中国通信大学) ; Beihang University(北京航空航天大学)
AI总结 提出基于音频大语言模型的统一框架,通过生成式方法联合处理语音编辑检测和内容定位,并引入先验增强策略和声学一致性损失以提升性能。
RDumb++:漂移感知的持续测试时自适应
发表机构 * Department of Computer Science(计算机科学系) ; University of British Columbia(不列颠哥伦比亚大学)
AI总结 针对持续测试时自适应中分布快速变化或长期漂移导致性能崩溃的问题,提出RDumb++方法,通过熵和KL散度漂移检测机制与自适应重置策略,在CCC基准上实现约3%的绝对准确率提升。
QASA: 面向鲁棒多模态情感分析的质量感知语义增强
发表机构 * School of Computer Science, South China Normal University(华南师范大学计算机学院)
AI总结 提出QASA框架,利用扩散模型生成视觉和听觉增强样本,并通过解耦质量感知评分模块分配训练权重,以解决高质量数据稀缺问题,提升多模态情感分析的鲁棒性和泛化能力。
Comments 11 pages, 4 figures
SentGraph: 用于多跳检索增强问答的层次化句子图
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Hefei University of Technology(合肥工业大学)
AI总结 提出SentGraph,一种句子级图RAG框架,通过构建层次化句子图并建模细粒度逻辑关系,解决多跳问答中证据链不完整的问题。
门控卡尔曼滤波中创新统计量的选择诱导收缩
发表机构 * metaor artificial intelligence(metaor人工智能) ; Google Reichman Tech School(谷歌Reichman技术学校) ; Reichman University(Reichman大学)
AI总结 本文证明在门控卡尔曼滤波中,经过门控后的创新统计量收敛于门控条件而非名义量,并推导了椭球门控下创新的一阶和二阶矩的精确表达式,揭示了门控引起的确定性协方差收缩,并扩展至最近邻关联分析。
Comments 9 pages, preprint
利用传播激活改进基于知识图谱的RAG系统中的文档检索
发表机构 * UP FAMNIT, University of Primorska(普里摩里卡大学FAMNIT学院) ; InnoRenew CoE, UP IAM, University of Primorska(InnoRenew联合学院、UP IAM、普里摩里卡大学) ; University of Szeged, Department of Applied Informatics(塞格德大学应用信息学系)
AI总结 提出一种基于自动构建异构知识图谱的传播激活算法,用于多跳问答中的文档检索,减少对语义知识图谱和LLM引导的依赖,性能优于或持平现有方法。
Comments 20 pages, 5 figures
基于错误驱动的算术推理提示优化
发表机构 * Deptartment of Data Science & Visualization, Faculty of Informatics, University of Debrecen(数据科学与可视化系,信息学院,德布勒恩大学)
AI总结 提出一种错误驱动的提示优化框架,通过聚类错误预测迭代优化提示规则,使小型本地语言模型在算术推理任务中准确率达到70.8%,超越GPT-3.5 Turbo。
AI是均衡器还是放大器?任务复杂性作为混合智能系统中人类专业知识的调节因素
发表机构 * Hawaii Pacific University(夏威夷太平洋大学)
AI总结 本文提出AI在常规任务中均衡表现,在复杂任务中放大专家与新手差距,并构建了人类贡献层次与参与层次的框架,强调领域知识而非提示工程决定放大效果。
Comments 9 pages, 3 figures, 1 table. v2 matches the camera-ready version accepted at HHAI 2026. Removed v1 aggregated projections (training timeline figure, n=580). Empirical basis is structured field observations of 10 to 20 colleagues at a single organization (Beijing Feimu) since mid-2024. Conceptual framework unchanged. To appear in Frontiers in Artificial Intelligence and Applications (IOS Press)
冲突感知融合:通过结构化认知先验缓解大语言模型中的逻辑惯性
发表机构 * Xtracta & Strong AI Lab, University of Auckland(Xtracta与强人工智能实验室,奥克兰大学) ; School of Humanities, China University of Political Science and Law(人文学院,中国政法大学) ; Strong AI Lab, University of Auckland(强人工智能实验室,奥克兰大学)
AI总结 针对大语言模型在规则系统结构扰动下表现脆弱的问题,提出冲突感知融合训练流程,通过验证-演绎结构先验和符号推理奖励,在多个压力测试中实现鲁棒性饱和。
AGI 需要在模式存储库之上建立协调层
发表机构 * Department of Computer Science, Stanford University(斯坦福大学计算机科学系)
AI总结 本文提出大型语言模型(LLM)并非AGI的死胡同,而是缺少系统2协调层,通过UCCT和RCA实现语义锚定与因果验证,并设计MACI多智能体协调栈,实验表明自适应控制优于静态提示。
Comments 15 pages, 5 figures, 7 tables
IPR-1:交互式物理推理器
发表机构 * CARNEGIE MELLON UNIVERSITY(卡内基梅隆大学)
AI总结 提出IPR模型,通过世界模型滚动评分和强化VLM策略,结合物理中心动作代码PhysCode,在1000+异构游戏基准上实现鲁棒的物理推理,性能超越GPT-5并零样本迁移至未见游戏。
Comments Accepted by CVPR 2026. 13 pages of main text and 20 pages of appendices. Project page: https://mybearyzhang.github.io/ipr-1
学会信任:序列决策中针对不同建议者可靠性的贝叶斯自适应方法
发表机构 * Stanford Intelligent Systems Laboratory(斯坦福智能系统实验室) ; Stanford University(斯坦福大学)
AI总结 提出一种贝叶斯框架,通过将建议者质量融入信念表示并引入显式“询问”动作,使智能体在部分可观测环境中动态学习和适应变化的建议者可靠性,平衡信息获取与成本。
Comments Repo: https://github.com/dylan-asmar/learning_to_trust
思维链劫持
发表机构 * Independent(独立) ; University of Oxford(牛津大学) ; Stanford University(斯坦福大学) ; Anthropic ; Martian Core
AI总结 提出思维链劫持攻击,通过诱导大型推理模型进行长时间良性推理来削弱其拒绝有害请求的能力,实现高成功率越狱。
使用过程挖掘奖励推理的结构符合性
发表机构 * Dept. of Industrial Engineering(工业工程系) ; Pusan National University(釜山国立大学) ; Dept. of Data Science(数据科学系) ; Changwon National University(昌原国立大学)
AI总结 提出TACReward奖励模型,利用过程挖掘技术聚合推理步骤的结构偏差,以改进稀疏奖励策略梯度方法在数学推理任务中的性能。
基于图的投票:通过拓扑一致性最大化实现稳定的RLAIF
发表机构 * Alibaba Group(阿里巴巴集团) ; Chinese Academy of Sciences Institute of Automation(中国科学院自动化研究所)
AI总结 提出拓扑共识奖励(TCR)框架,利用传递性作为去噪机制,通过拓扑多数投票过滤偏好信号中的随机噪声,以稳定强化学习从AI反馈(RLAIF)中的偏好学习。
虚假不动点:大语言模型中的康德反馈、稳定误校准与表征压缩
发表机构 * ToppyMicroServices OÜ(ToppyMicroServices公司)
AI总结 本文通过康德承诺门控框架和线性反馈模型,研究大语言模型中高置信度错误作为局部稳定、内部一致且自信错误的虚假不动点现象,发现稳定性与正确性可分离,并探索高信噪比惯性和表征压缩作为稳定误校准的可能机制。
Comments 27 pages, 8 figures, v3.0
扩散模型的局部MAP采样
发表机构 * University of California, Riverside, CA, US(加州大学河滨分校)
AI总结 提出局部MAP采样(LMAPS)框架,通过沿扩散轨迹迭代求解局部MAP子问题,统一了优化方法与概率采样,在图像恢复和科学任务中达到最优性能。
强求解 2048 4x3
发表机构 * Graduate School of Arts and Sciences, the University of Tokyo(东京大学艺术及科学研究生院)
AI总结 通过按棋盘上数字和(称为状态年龄)划分状态空间,枚举所有可达状态和后继状态,强求解了4x3棋盘上的2048变体,最优策略期望得分约50724.26。
Go witheFlow:实时情感驱动音频效果调制
发表机构 * Artificial Intelligence and Learning Systems Laboratory(人工智能与学习系统实验室) ; National Technical University of Athens(希腊国家技术大学)
AI总结 提出witheFlow系统,通过生物信号和音频特征实时自动调制音频效果,增强音乐表演中的人机协作。
Comments Accepted at NeurIPS Creative AI Track 2025: Humanity
INSIGHT: 视觉-语言-动作模型中生成帮助触发器的推理时序列内省
发表机构 * Department of Computer Science, Yale University(耶鲁大学计算机科学系)
AI总结 提出INSIGHT框架,利用令牌级不确定性信号(熵、对数概率、不确定性估计)训练变压器分类器,预测VLA模型何时需要人类帮助,并对比强/弱监督下的性能,发现建模时间动态优于静态评分。
VisualOverload: 在真正密集场景中探测VLM的视觉理解
发表机构 * Independent Researcher(独立研究者) ; JKU Linz(林茨JKU) ; MIT CSAIL ; Tübingen AI Center(图宾根人工智能中心) ; Stanford(斯坦福) ; MIT-IBM Watson AI Lab(MIT-IBM沃森人工智能实验室)
AI总结 提出VisualOverload基准,通过密集场景中的简单视觉任务测试VLM,发现最佳模型仅达69.5%准确率,揭示计数、OCR和逻辑一致性等关键缺陷。
Comments Accepted at CVPR 2026
动态关系先验提升Transformer在多变量时间序列中的表现
发表机构 * Department of Computer Science, Southern Methodist University, Dallas TX USA(计算机科学系,南方 Methodist 大学,德克萨斯州达拉斯)
AI总结 提出动态关系先验注意力机制(prime attention),通过为每个token对动态调整表示,有效捕捉多变量时间序列中异构的通道间依赖关系,在保持相同计算复杂度下提升预测精度达6.5%。
教会大型语言模型像专家诊断医生一样推理
发表机构 * Department of Biomedical Informatics, Harvard Medical School(哈佛医学院生物医学信息学系) ; Department of Medicine, Beth Israel Deaconess Medical Center(贝塞斯达医院内科部) ; The Mongan Institute, Massachusetts General Hospital(麻省总医院蒙根研究所) ; Division of Gastroenterology, Brigham and Women’s Hospital(布里洛妇女医院胃肠病科) ; Department of Medicine, Brigham and Women’s Hospital(布里洛妇女医院内科部) ; Department of Medicine, Massachusetts General Hospital(麻省总医院内科部) ; Department of Pathology, Massachusetts General Hospital(麻省总医院病理学部) ; Department of Health Humanities and Bioethics, University of Rochester School of Medicine and Dentistry(罗切斯特大学医学院和牙科学院健康人文与生物伦理学部) ; Kempner Institute for the Study of Natural and Artificial Intelligence, Harvard University(哈佛大学凯普纳人工智能研究所) ; Center for the History of Medicine, Countway Library of Medicine, Harvard Medical School(哈佛医学院医学史中心,考特维图书馆) ; Department of Global Health and Social Medicine, Harvard Medical School(哈佛医学院全球健康与社会医学部) ; Division of Pulmonary and Critical Care Medicine, Brigham and Women’s Hospital(布里洛妇女医院呼吸科和重症医学科)
AI总结 提出 Dr. CaBot 代理 AI 系统,通过生成基于初始病例描述的幻灯片演示来模拟专家诊断推理,并在 NEJM CPC 和 NIH 未诊断疾病网络病例上取得优于前沿模型的表现,同时发布 CPC-Bench 基准以促进临床 AI 发展。
SpecPrune-VLA: 通过动作感知的自推测剪枝加速视觉-语言-动作模型
发表机构 * Shanghai Jiao Tong University(上海交通大学)
AI总结 针对视觉-语言-动作模型推理加速,提出结合全局上下文与局部信息的无训练两层剪枝方法,实现高达1.57倍加速且成功率几乎无下降。
Comments Accepted to ICML 2026
Prompt-and-Check:使用大型语言模型评估基于模拟训练中的通信协议合规性
发表机构 * Centre of Excellence in Maritime Safety(海上安全卓越中心) ; Singapore Polytechnic(新加坡理工学院) ; Singapore(新加坡)
AI总结 提出Prompt-and-Check方法,利用开源大语言模型通过上下文丰富的提示评估模拟训练中通信协议的合规性,并在海事领域案例中验证其有效性。
QUTCC: 成像逆问题的分位数不确定性训练与保形校准
AI总结 提出QUTCC方法,结合分位数回归与U-Net实现空间自适应保形校准,在多个成像逆问题中生成更紧的不确定性区间并定位模型幻觉。
从多智能体系统和语义网到智能体AI:智能体网络的统一叙事
发表机构 * SEDAN - SnT ; University of Luxembourg(卢森堡大学)
AI总结 本文提出智能体网络(WoA)经历了从平台端协调(第一代)、数据端标注(第二代)到模型端解释(第三代)的语义努力迁移,并分析了各代失败模式及当前开放问题。
Hide-and-Shill:面向交响乐系统中市场操纵检测的强化学习框架——一个去中心化多智能体系统
发表机构 * Department of Information Systems, City University of Hong Kong(香港城市大学信息系统系) ; Business School, University of New South Wales(新南威尔士大学商学院) ; Division of Engineering Science, University of Toronto(多伦多大学工程科学系) ; ProphetAI Data Technology Co., Ltd.(ProphetAI数据技术有限公司) ; Gradient, 3 FRASER STREET DUO TOWER, SINGAPORE(Gradient新加坡办公室)
AI总结 提出一个多智能体强化学习框架,通过动态对抗博弈建模操纵者与检测者的交互,利用延迟代币价格反应识别可疑模式,并集成GRPO、理论奖励函数和多模态智能体管道,在去中心化交响乐系统中实现无需中心化预言机的鲁棒操纵检测。
一种用于LLM可靠证明生成的神经符号方法:以欧几里得几何为例
发表机构 * The Hebrew University of Jerusalem(特拉维夫大学)
AI总结 提出一种结合LLM生成能力与结构化组件的神经符号方法,通过类比问题检索和形式验证器反馈,显著提升欧几里得几何证明的准确性。
Comments long paper
基于LLM的金融投资策略能否长期跑赢市场?
发表机构 * AIAI, School of Informatics The University of Edinburgh Edinburgh United Kingdom ; Global Finance Research Center Sungkyunkwan University Seoul Republic of Korea ; Dept. of Statistics \& OMI University of California, Los Angeles ; University of Oxford United States ; The University of Edinburgh ; Sungkyunkwan University ; University of California, Los Angeles ; University of Oxford
AI总结 提出FINSABER回测框架,在更长时间和更大股票池上评估基于LLM的择时策略,发现其优势在长期和广泛截面下显著下降,且在牛熊市中表现不佳。
Comments KDD 2026, Datasets & Benchmarks Track
在文本属性图中整合结构信号与语义信号:BiGTex
发表机构 * Faculty of Electrical and Computer Engineering, University of Kashan(卡尚大学电气与计算机工程学院)
AI总结 提出BiGTex架构,通过堆叠图-文本融合单元实现GNN与LLM的双向注意力,以参数高效微调(LoRA)在节点分类和链接预测任务上达到最优性能。
Comments 26 pages, 4 figures
轻量级直接文档相关性优化用于生成式信息检索
发表机构 * Institute for Clarity in Documentation(文档清晰度研究所) ; Inria Paris-Rocquencourt(巴黎- Rocquencourt 国家信息与自动化所) ; Rajiv Gandhi University(拉朱·甘地大学) ; Tsinghua University(清华大学) ; Palmer Research Laboratories(帕勒尔研究实验室) ; University of Amsterdam(阿姆斯特丹大学)
AI总结 提出直接文档相关性优化(DDRO)方法,通过成对排序直接对齐令牌级文档ID生成与文档级相关性估计,无需显式奖励建模和强化学习,在MS MARCO和Natural Questions上分别提升MRR@10 7.4%和19.9%。
Comments 12 pages, 3 figures. SIGIR '25 Proceedings of the 48th International ACM SIGIR Conference on Research and Development in Information Retrieval July 13--18, 2025 Padua, Italy. Code and pretrained models available at: https://github.com/kidist-amde/ddro/
利用大语言模型发现算法:进化搜索遇见强化学习
发表机构 * EPFL(苏黎世联邦理工学院) ; Apple(苹果公司)
AI总结 提出通过强化学习微调持续优化大语言模型,结合进化搜索加速发现更优算法,在组合优化任务上验证有效性。
Comments 34 pages
语用推理提升LLM代码生成
发表机构 * Max Planck Institute for Informatics Saarland Campus(马克斯·普朗克信息研究所萨尔兰州分校) ; Computer Science Saarland University(萨尔兰州大学计算机科学系) ; Max Planck Institute for Software Systems Saarland Campus(马克斯·普朗克软件系统研究所萨尔兰州分校)
AI总结 提出CodeRSA方法,通过局部语用竞赛对候选代码进行重排序,以解决自然语言到代码生成中的歧义问题,在多个基准测试中取得最佳平均准确率。
WorldGUI: 一个从任意起点进行桌面GUI自动化的交互式基准测试
发表机构 * Show Lab, National University of Singapore(新加坡国立大学Show实验室)
AI总结 提出WorldGUI基准测试,覆盖10个桌面和Web应用,在多种系统构建的初始状态下评估GUI代理的规划鲁棒性,并引入WorldGUI-Agent框架通过三阶段批评提升动态环境下的可靠性。
Comments Technique Report
Kolmogorov-Arnold 傅里叶网络
发表机构 * Sun Yat-sen University(中山大学) ; Vast Intelligence Lab(远见实验室)
AI总结 针对KAN网络参数爆炸和高维任务中高频特征捕获能力不足的问题,提出Kolmogorov-Arnold傅里叶网络(KAF),通过谱重参数化将局部B样条表示转换为全局自适应谱表示,引入可训练随机傅里叶特征和自适应混合GELU-傅里叶激活机制,在CV、NLP、音频和PDE求解任务上取得最优性能。
Comments Code:https://github.com/kolmogorovArnoldFourierNetwork/KAF
基于扩散模型的姿态引导人物图像合成的融合嵌入
发表机构 * Department of Industrial Engineering(工业工程系)
AI总结 提出FPDM框架,通过对比学习显式对齐融合源-姿态嵌入与目标图像嵌入,并作为条件信号生成,解决姿态引导人物图像合成中纹理保真度和一致性问题。
模因即信息:生成式模因与2024年美国总统选举中的AI视觉内容
发表机构 * Program in Quantitative Social Science, Dartmouth College(量化社会科学项目,达特茅斯学院) ; Department of Mathematics, Dartmouth College(数学系,达特茅斯学院)
AI总结 本研究通过分析Instagram图像数据集,结合计算机视觉、大语言模型和面部情感分析,发现模因格式比AI生成内容更能预测用户参与度,但AI生成的模因与人类策展结合时产生协同效应,并定义了生成式模因作为AI介导的模因传播新模式。
大型语言模型对开源创新的影响:来自GitHub Copilot的证据
发表机构 * Coller School of Management, Tel Aviv University(特拉维夫大学科尔学院) ; Stern School of Business, New York University(纽约大学斯特恩商学院)
AI总结 利用GitHub Copilot推出的自然实验,通过三种识别策略和两种分类方法,发现LLM使开源贡献增加28%-40%,且增量贡献增长显著大于实质性贡献,表明LLM偏向于利用现有代码库而非探索新功能。
Comments JEL Classification: O31, C88, J24, O35, L86
桥接进化算法与强化学习:混合算法的全面综述
发表机构 * College of Intelligence and Computing, Tianjin University(天津大学智能与计算学院) ; Montreal Institute of Learning Algorithms (MILA)(蒙特利尔学习算法研究所) ; Department of Computer Science and Engineering, Southern University of Science and Technology(南方科技大学计算机科学与工程系)
AI总结 本文全面综述了进化强化学习(ERL)领域,将进化算法(EA)与强化学习(RL)融合,系统总结了三种主要研究方向:EA辅助RL优化、RL辅助EA优化以及EA与RL协同优化,并分析了各分支解决的问题及未来挑战。
Comments New Version, add more methods
全局 $\mathcal{L}^2$ 最小化:通过深度学习中的几何自适应梯度下降实现均匀指数速率
发表机构 * Department of Mathematics, University of Texas at Austin(德克萨斯大学奥斯汀分校数学系)
AI总结 本文利用微分几何中黎曼度量的任意性,提出两种改进的梯度下降流(过参数化和欠参数化设置),在秩条件成立时证明其以均匀指数收敛速率驱动 $\mathcal{L}^2$ 代价到全局最小值,并推广到秩条件不成立的情形。
Comments AMS Latex, 21 pages. Typos corrected, references and comments added
TRAFA:通过预测性反馈预见用户操作以减少程序性任务中的错误
发表机构 * University of Bonn(波恩大学) ; Lamarr Institute for Machine Learning and Artificial Intelligence(拉马尔人工智能与机器学习研究所)
AI总结 提出TRAFA系统,通过跟踪-预测-行动框架实时预测用户动作并触发反馈,在错误发生前干预,实验证明相比传统反应式反馈能提高任务准确性和效率。
语法引导的稀疏注意力:高效且可解释的Transformer
发表机构 * Independent Researcher(独立研究者)
AI总结 提出语法引导的稀疏注意力方法,通过词性标签动态生成注意力掩码,在保持精度的同时降低计算复杂度。
Comments 9 pages, 2 tables Code available at https://github.com/toughthinktank/grammatically_guided_attention#
混合动机博弈中促进合作的自适应惩罚
发表机构 * University of Science and Technology of China(中国科学技术大学) ; State Key Laboratory of General Artificial Intelligence, BIGAI(一般人工智能国家重点实验室,BIGAI)
AI总结 提出自适应惩罚合作方法(APC),通过动态惩罚概率和背叛严重程度确定惩罚强度,在迭代公共物品博弈中有效促进合作并降低惩罚成本。
Φ-Noise:基于相位噪声操作的无训练时间视频条件生成
发表机构 * Canvas-Lab
AI总结 提出一种无需训练的方法,通过将参考视频的低频相位信息注入扩散噪声潜变量,实现运动条件视频生成,无需修改模型架构或推理流程。
Comments Under Review; 26 pages, 21 figures
FoodMonitor:用于可解释合规性分析的多模态大语言模型基准测试
发表机构 * Tsinghua Shenzhen International Graduate School, Tsinghua University(清华大学深圳国际研究生院,清华大学)
AI总结 针对现有视频异常检测缺乏规则驱动可解释性的问题,提出FoodMonitor基准,包含双通道违规标注和两阶段匹配评估协议,揭示当前多模态大语言模型在空间定位和细粒度规则理解上的瓶颈。
推理作为攻击面:针对大语言模型的自适应进化思维链越狱方法
发表机构 * Nanyang Technological University, Singapore(南洋理工大学) ; The University of Hong Kong, Hong Kong, China(香港大学) ; The Hong Kong Polytechnic University, Hong Kong, China(香港理工大学) ; Zhejiang University, Zhejiang, China(浙江大学) ; Renmin University of China, Beijing, China(中国人民大学) ; Sun Yat-sen University, Guangdong, China(中山大学) ; Northeastern University(东北大学) ; Hebei Key Laboratory of Data Science and Knowledge Management(河北省数据科学与知识管理重点实验室)
AI总结 提出自适应进化思维链越狱框架AE-CoT,通过教师角色扮演重写有害目标、分解推理片段、多代进化搜索及自适应变异率控制,有效生成高破坏性越狱提示,在多个模型和数据集上超越现有方法。
市场制度委员会:多智能体LLM决策系统中的动态信用分配
发表机构 * University of Bristol, UK(布里斯托大学)
AI总结 提出市场制度委员会(MRC),一种基于Shapley值进行在线智能体加权、贝叶斯自适应混合和制度依赖乘数的多智能体决策系统,在加密货币投资中实现高夏普比率和累计收益。
Comments 35 pages, 13 figures, preprint
TIGER:文本引导的通用酶-反应检索
发表机构 * University of Science and Technology of China(中国科学技术大学) ; City University of Hong Kong(香港城市大学) ; Zhejiang University(浙江大学)
AI总结 提出TIGER框架,利用蛋白质到文本生成模型提取文本语义知识,通过动态门控网络融合序列特征,实现酶与反应的双向检索,显著提升跨任务泛化性和鲁棒性。
Comments Accepted to ACL2026
AgentFugue:通过集体推理实现长时域任务的智能体扩展
发表机构 * GSAI, Renmin University of China(GSAI,中国人民大学) ; Beijing Academy of Artificial Intelligence(北京人工智能研究院)
AI总结 提出AgentFugue框架,通过共享推理中心实现多个对等智能体并行探索和选择性信息共享,无需显式角色分工或工作流编排,从而提升长时域任务性能。
SPACE:统一对称与非对称路由问题的通用神经求解器
发表机构 * School of Automation and Intelligent Manufacturing, Southern University of Science and Technology, Shenzhen, China(自动化与智能制造学院,南方科技大学,深圳,中国) ; Pengcheng Laboratory, Shenzhen, China(鹏城实验室,深圳,中国) ; Guangdong Provincial Key Laboratory of Fully Actuated System Control Theory and Technology, Southern University of Science and Technology, Shenzhen, China(广东省全驱动系统控制理论与技术重点实验室,南方科技大学,深圳,中国) ; College of Computer Science and Software Engineering, Shenzhen University, Shenzhen, China(计算机科学与软件工程学院,深圳大学,深圳,中国)
AI总结 针对现有神经求解器在对称与非对称车辆路径问题中表现不一致的问题,提出基于空间枢轴对齐的无坐标嵌入框架SPACE,通过双向弗雷歇表示和权重解耦自适应解码机制,实现统一节点表示与解生成,在110个变体上取得优异零样本泛化。
视角冲突下的鲁棒模糊多视角学习
发表机构 * College of Computer Science, Sichuan University(四川大学计算机学院) ; Tianfu Jincheng Laboratory(天府锦城实验室) ; School of Artificial Intelligence, Sichuan University(四川大学人工智能学院)
AI总结 针对多视角分类中视角冲突问题,提出基于模糊集理论的鲁棒模糊多视角学习框架(R-FUML),通过模糊隶属度量化类别可信度、熵值融合及冲突样本惩罚机制,提升鲁棒性和不确定性估计。
SAM:面向长程推理智能体的状态自适应记忆
发表机构 * GSAI, Renmin University of China(GSAI,中国人民大学) ; Beijing Academy of Artificial Intelligence(北京人工智能研究院)
AI总结 提出状态自适应记忆框架SAM,通过紧凑记忆线索和原始轨迹页面实现意图驱动的信息重建,无需重新训练基础模型,在多个基准上超越强基线。
平衡公平性、隐私和准确性:面向集中式数据驱动系统的多任务对抗框架
发表机构 * School of Computing Technologies, RMIT University(计算技术学院,皇家墨尔本理工大学)
AI总结 提出一种多任务对抗模型,将公平性和隐私作为核心目标,通过优化代价函数动态平衡三者,在最小化性能损失的同时实现高公平性和隐私保护。
Comments 13 Pages, 6 figures, IEEE TKDE
Code2UML: 基于上下文工程的可扩展软件可视化的智能体LLM
发表机构 * Bucharest University of Economic Studies(布加勒斯特经济大学)
AI总结 提出一种基于五个专门智能体和确定性IR压缩层的智能体架构,用于从源代码仓库自动生成UML图,在12个开源仓库和7种UML图上验证了高语法有效性(平均91.5%)和结构质量(平均81.7/100),且质量不随规模下降。
法律判决预测中的时间概念漂移:跨越乌克兰法院判决三个时期的神经基线
AI总结 通过微调四种Transformer编码器在乌克兰法院三个时期(战前、混合战争、全面入侵)的判决上,研究法律语言的时间漂移,发现前向性能严重下降(最多27.2个百分点),法律领域预训练不能提升绝对性能但能减轻漂移,时序持续学习可消除灾难性遗忘。
Comments 17 pages, 6 tables, 5 figures. Dataset: https://huggingface.co/datasets/overthelex/ukrainian-court-decisions
动量流:优化器启发的Transformer
发表机构 * Carnegie Mellon University(卡内基梅隆大学)
AI总结 提出一类优化器启发的Transformer(如三重动量TMMFormer),通过将残差更新解释为优化器步骤,发现动量是性能提升的关键,能收敛到更平坦的极小值,减少遗忘并改善泛化。
临时团队协作中上下文强化学习的极限基准测试
发表机构 * C$^{2}$DL, Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所C²DL实验室) ; School of Artificial Intelligence, University of Chinese Academy of Sciences(中国科学院大学人工智能学院) ; School of Future Technology, University of Chinese Academy of Sciences(中国科学院大学未来技术学院) ; Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences(中国科学院深圳先进技术研究所) ; Department of Computer Science and Technology, Tsinghua University(清华大学计算机科学与技术系) ; University of Science and Technology of China(中国科学技术大学) ; Qwen Team, Alibaba Group(阿里集团Qwen团队)
AI总结 提出ICRL4AHT基准,基于Overcooked-V2评估上下文强化学习在临时团队协作中的表现,发现算法在未见队友和布局下常不如随机基线,凸显多智能体环境下的适应挑战。
Comments 41 pages, 14 figures
批归一化加剧记忆化和隐私风险
发表机构 * Queen’s University Belfast(女王大学贝尔法斯特)
AI总结 本文通过实证和理论分析,发现批归一化层会显著增加模型对异常样本的记忆化,从而加剧隐私泄露风险。
JT-SAFE-V2:具有世界上下文数据的安全设计基础模型
发表机构 * JIUTIAN Research(九天研究院)
AI总结 提出JT-Safe-V2大语言模型,通过世界知识预训练、高确定性训练和安全强化后训练实现通用智能与安全设计的联合优化,并引入Safe-MoMA框架降低推理成本,在通用智能和安全基准上达到最优性能。
模型并非产品:面向本地优先心理辅导的双支柱架构
发表机构 * iOS application(iOS应用)
AI总结 本文提出Psych LM,一种基于本地优先架构的iOS应用,通过自动记忆语料库和检索增强生成实现近无限上下文窗口,在移动设备上提供可靠的上下文感知心理辅导。
Comments 10 pages, 3 figures
通过上下文学习推进图少样本学习
发表机构 * College of Computer Science and Technology, Jilin University(吉林大学计算机科学与技术学院) ; College of Software, Jilin University(吉林大学软件学院) ; Department of Computer Science and Technology, Yanbian University(延边大学计算机科学与技术系) ; Department of Information Engineering and Computer Science, University of Trento(特伦托大学信息工程与计算机科学系) ; School of Mathematical and Computer Sciences, Heriot-Watt University(赫瑞斯泰大学数学与计算机科学学院)
AI总结 提出VISION模型,将图少样本学习重构为免微调的序列推理问题,利用无监督任务生成器从无标签数据中构建伪任务,通过上下文感知网络融合局部拓扑和全局任务依赖,实现高效推理。
Comments KDD26
生成式OOD正则化的基于模型的策略优化
发表机构 * University of California, San Diego(加州大学圣地亚哥分校) ; Abiomed(阿比omed)
AI总结 提出GORMPO算法,利用生成式密度估计在稀疏状态-动作空间中限制策略更新到高密度区域,以解决离线强化学习中的分布外动作问题,并在真实医疗数据集和离线RL数据集上优于基线方法。
VectorArk: 学习基于圆角多边形表示的实际图像矢量化
发表机构 * Adobe
AI总结 提出VectorArk模型,采用圆角多边形表示和退化模型,实现鲁棒且实用的图像矢量化,在多个数据集上取得优越的几何完整性和伪影抑制效果。
Comments CVPR 2026. Project page: https://vectorark.github.io/
理解并缓解过早自信以提升大语言模型推理能力
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Tsinghua University(清华大学)
AI总结 针对大语言模型长思维链中逻辑跳跃和过早自信问题,提出渐进式自信塑造强化学习目标,无需外部标签或奖励模型,通过奖励逐步自信增长并惩罚过早承诺,显著提升推理准确性和质量。
评估基础模型在时间序列预测中的操作可行性
发表机构 * Google, USA(谷歌公司,美国)
AI总结 通过对比基础模型与监督学习方法在四种操作场景下的性能,提出基于经验特征的复杂度路由器以实现精度与效率的平衡。
Comments 21 pages, 8 Figures, Code available at [https://github.com/kavin-soni/timeseries-zeroshot-eval]
将游戏代码世界模型生成蒸馏到轻量级大型语言模型
发表机构 * Brown University(布朗大学)
AI总结 研究通过后训练将游戏代码世界模型生成能力蒸馏到小型模型,采用监督微调和带可验证奖励的强化学习提升生成代码的语法正确性和规则遵循性。
伙伴感知的分层技能发现用于鲁棒的人机协作
发表机构 * Schoold of Information Technology, Deakin University(德肯大学信息科技学院) ; Faculty of Information Technology, Monash University(莫纳什大学信息技术学院)
AI总结 提出伙伴感知技能发现(PASD)框架,通过对比内在奖励学习基于伙伴行为的技能,缓解捷径学习,提升人机协作的鲁棒性和适应性。
通过层次化动作解耦实现自适应人机协作
发表机构 * School of Information Technology(信息科技学院) ; Deakin University(迪金大学) ; Faculty of Information Technology(信息科技学院) ; Monash University(莫纳什大学)
AI总结 提出内在动作解耦(IAD)框架,利用深度层次强化学习学习伙伴感知的低层动作序列,通过内在奖励鼓励动作解耦,实现与多样伙伴的自适应协调。
ScaleAcross Explorer:探索跨规模AI模型训练的通信优化
发表机构 * Harvard University(哈佛大学) ; Meta Platforms, Inc.(Meta平台公司)
AI总结 针对跨数据中心大规模AI模型训练(scale-across)的复杂设计空间,提出ScaleAcross Explorer优化器,通过联合优化并行放置、并行调度和网络层技术,实现高达64.62%的训练加速。
Comments 28 pages, 27 figures
ChaosBench-Logic v2: 大规模评估大语言模型在动力系统上的逻辑推理能力
发表机构 * Mohamed bin Zayed University of Artificial Intelligence(穆罕默德·本·扎耶德人工智能大学)
AI总结 针对二元推理基准的准确性掩盖了关键缺陷,本文提出包含40,886个问题、覆盖165个动力系统的ChaosBench-Logic v2基准和CARE评估协议,揭示模型在状态转换推理、FOL演绎等任务上的表现差异和系统性反相关。
Comments 14 pages, 8 figures. Published at the ICLR 2026 Workshop on LLM Reasoning
ArtSplat: 基于前馈的关节式3D高斯泼溅从稀疏多状态未标定视图
发表机构 * Seoul National University(首尔国立大学) ; Sogang University(成均馆大学) ; NAVER AI Lab(NAVER AI实验室)
AI总结 提出首个前馈框架ArtSplat,通过稀疏多视图跨多个关节状态,一次性重建几何和关节参数,引入逐像素关节图表示和跨状态注意力机制,在PartNet-Mobility上实现400倍加速。
增强基于LLM的安全代码生成的可靠性
发表机构 * Department of Computer Science, Birzeit University(巴伊兹大学计算机科学系) ; Department of Computer Science, University of Central Florida(佛罗里达中央大学计算机科学系)
AI总结 提出Mitigation-Aware Chain-of-Thought (MA-CoT)框架,通过嵌入任务特定的CWE缓解指导和语言感知安全措施,显著降低LLM生成代码中的漏洞,在多个模型和语言上验证了其一致的安全可靠性提升。
Comments 15 pages; 7 tables; 3 figures
LLM生成代码安全性的提示方法实证评估
发表机构 * Department of Computer Science, Birzeit University(计算机科学系,巴勒斯坦比泽大学) ; King Fahd University of Petroleum and Minerals(国王法赫德石油和矿物大学) ; University of Central Florida(中央佛罗里达大学)
AI总结 通过跨5个LLM和4种编程语言的实证评估,提出弱点感知零样本链式思考(WA-0CoT)提示策略,发现提示方法虽影响弱点类别分布,但无法显著降低漏洞频率或密度。
Comments 40 pages, 22 tables, 8 figures
使用自监督学习和强化学习在Android恶意软件检测中适应概念漂移
发表机构 * Birzeit University(巴伊兹大学) ; University of Central Florida(中央佛罗里达大学)
AI总结 提出一个基于自监督学习和强化学习的框架,通过冻结编码器测量潜在漂移并轻量适配,同时利用PPO控制器在成本约束下选择维护动作,以应对Android恶意软件检测中的概念漂移。
Comments 9 pages, 2 figures, 2 tables
面向安全的路由分析:Mixtral MoE在良性及有害提示下的表现
发表机构 * Department of Electrical ; Computer Engineering University of Hawai'i at M\= a noa Honolulu, HI, USA
AI总结 通过激活和梯度两种信号分析Mixtral 8x7B-Instruct在良性及有害提示下的路由行为,发现安全相关的路由是微妙、深度依赖且分布式的,而非由固定专家集主导。
深度研究的交互式范式
发表机构 * Adobe Research(Adobe研究院) ; Department of Computer Science, Columbia University(哥伦比亚大学计算机科学系)
AI总结 提出SteER框架,通过可解释的中间过程控制、成本效益决策和实时用户模型,在深度研究中实现用户对齐,性能优于现有基线。
通过详细的宪法定义和AI驱动的评估提高标注一致性
发表机构 * Cisco AI Defense(思科AI防御)
AI总结 提出一种AI驱动的工作流,通过为每个类别编写详细的宪法定义并由前沿LLM解释,以比人类更一致和准确地生成黄金标签,在三个内容审核类别上将跨模型不一致性降低高达57倍。
Comments Under review at ACL Rolling Review (ARR), May 2026 cycle. Also available at https://doi.org/10.5281/zenodo.20125267
GIBLy: 通过架构无关的轻量级几何归纳偏置层改进3D语义分割
发表机构 * NOVA School of Science and Technology(诺瓦科学与技术学校) ; Università degli Studi di Milano(米兰大学)
AI总结 提出一种轻量级几何归纳偏置层GIBLy,通过集成可学习的几何先验提升3D分割性能,仅增加少量参数即可在多个基准上获得一致提升。
解锁苹果的私有云计算:隐私保护人工智能分析
发表机构 * Hasso Plattner Institute, University of Potsdam(哈索普兰特纳研究所,波茨坦大学) ; TU Darmstadt, Secure Mobile Networking Lab(德累斯顿技术大学,安全移动网络实验室) ; IMDEA Networks Institute, Madrid, Spain(IMDEA网络研究所,马德里,西班牙)
AI总结 通过逆向工程苹果私有云计算(PCC)在移动设备上的实现,评估其隐私保护特性,并开放非公开接口以支持自定义查询和独立基准测试。
走向生成式人工智能
发表机构 * Independent Researcher(独立研究者) ; Department of Computing Science, University of Alberta, Canada(阿尔伯塔大学计算机科学系) ; Alberta Machine Intelligence Institute (Amii)(阿尔伯塔机器智能研究所)
AI总结 本文主张将生成式认知方法融入人工智能,强调感知与行动不可分割、具身性和自主性,并指出强化学习在结构上与生成式原则存在共鸣但仍有差距。
模型遵循其宪法的程度如何?
发表机构 * Anthropic
AI总结 提出多方法审计流程,评估前沿AI模型在对抗性多轮交互中遵循其书面行为规范(如Anthropic宪法和OpenAI模型规范)的程度,发现新一代模型违规率显著下降。
Comments 37 pages including appendix. Code, tenet lists, and full transcripts: https://github.com/ajobi-uhc/constitution-audits. Companion blog post on LessWrong/AI Alignment Forum: https://www.lesswrong.com/posts/Tk4SF8qFdMrzGJGGw/how-well-do-models-follow-their-constitutions
Agent-ToM: 通过心智理论推理学习监控自主LLM智能体
发表机构 * Cisco Outshift(思科Outshift)
AI总结 针对自主LLM智能体的隐蔽恶意行为监控难题,提出基于心智理论推理的Agent-ToM框架,通过信念推断、意图假设与验证实现结构化轨迹分析,在监控基准上取得优于集成方法的性能。
Comments 23 pages, 9 figures
迈向评估工程:机器学习评估工具在野外的实证研究
发表机构 * Software Analysis and Intelligence Lab (SAIL), School of Computing, Queen's University(软件分析与智能实验室(SAIL),计算学院,女王大学) ; Concordia University(Concordia大学) ; Lahore University of Management Sciences (LUMS)(拉合尔管理科学大学(LUMS))
AI总结 通过对57个评估工具的实证研究,提出五阶段工具模型,并分类16560个问题,发现规范阶段问题最多(41.4%),主要根因是未实现功能(24.3%)、文档缺失(20.3%)和输入验证缺失(17.2%),为将评估工程作为独立软件工程关注点奠定实证基础。
分布鲁棒迁移学习在结构缺失协变量中的应用:以跨国心脏骤停预测为例
发表机构 * Centre for Biomedical Data Science, Duke-NUS Medical School, Singapore(生物医学数据科学中心,杜克-国家大学医学院,新加坡) ; Duke-NUS AI + Medical Sciences Initiative, Duke-NUS Medical School, Singapore(杜克-国家大学医学院AI+医学科学倡议,新加坡) ; Department of Biostatistics and Bioinformatics, Duke University, Durham, NC, USA(生物统计学与生物信息学系,杜克大学,北卡罗来纳州达勒姆,美国) ; Duke Clinical Research Institute, Durham, NC, USA(杜克临床研究学院,北卡罗来纳州达勒姆,美国) ; Emergency Medicine Department, National University Hospital, Singapore(急诊医学部,国立大学医院,新加坡) ; Department of Sport and Medical Science, Faculty of Physical Education, Kokushikan University, Tokyo, Japan(体育与医学科学系,体育学院,立命馆大学,东京,日本) ; Graduate School of Emergency Medical System, Kokushikan University, Tokyo, Japan(急救医疗系统研究生院,立命馆大学,东京,日本) ; Department of Emergency Medicine, Seoul National University College of Medicine, Seoul, Republic of Korea(急诊医学系,首尔国立大学医学院,首尔,韩国) ; Center for Emergency Medicine, Bach Mai Hospital, Hanoi, Vietnam(急救医学中心,巴赫梅医院,河内,越南) ; Center for Critical Care Medicine, Bach Mai Hospital, Hanoi, Vietnam(重症医学中心,巴赫梅医院,河内,越南) ; Health Services Research Centre, Singapore Health Services, Singapore(卫生服务研究中心,新加坡卫生服务,新加坡) ; Department of Emergency Medicine, Singapore General Hospital, Singapore(急诊医学部,新加坡中央医院,新加坡) ; Pre-hospital & Emergency Research Centre, Health Services Research and Population Health, Duke-NUS Medical School, Singapore(院前与急诊研究中心,卫生服务研究与人口健康,杜克-国家大学医学院,新加坡)
AI总结 提出DRUM框架,通过分布鲁棒优化和神经网络生成器处理目标域中结构缺失的协变量,实现无标签目标域的预测模型迁移,并在跨国心脏骤停预测中验证有效性。
通过类比教学:教育类比生成的模块化流水线
发表机构 * Mohamed bin Zayed University of Artificial Intelligence(穆罕默德·本·扎耶德人工智能大学)
AI总结 提出一个模块化流水线,将教育类比生成分解为四个阶段,基于结构映射理论,评估12个LLM在两个数据集上的表现,发现子概念显著提升解释质量和封闭检索精度,并引入LLM作为评判的评估方法。
Comments 36 pages, 25 figures. To appear in Proceedings of the 21st Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2026)
滤波后验均值集合:扩散泛化分析模型的统一框架
发表机构 * University of British Columbia(不列颠哥伦比亚大学) ; Inverted AI ; Alberta Machine Intelligence Institute(阿尔伯塔机器智能研究所)
AI总结 本文提出滤波后验均值集合(FPMC)统一框架,通过查询精度向量、响应权重和源分布建模扩散模型去噪函数的泛化行为,并通过软松弛和源分布增强提升现有方法性能。
Comments 27 Pages, 7 figures
AvalancheBench: 通过潜在世界恢复评估企业数据智能体
发表机构 * Brown University and Snowflake(布朗大学和Snowflake)
AI总结 提出AvalancheBench基准,通过潜在世界恢复评估企业数据智能体的分析理解能力,揭示早期错误如何传播并导致系统性错误推荐。
大规模人机协作科学:一项全球大规模随机现场实验
发表机构 * Kellogg School of Management, Northwestern University(西北大学凯洛格管理学院) ; Center for Science of Science and Innovation, Northwestern University(西北大学科学与创新中心) ; Northwestern Institute on Complex Systems, Northwestern University(西北大学复杂系统研究所) ; Department of Computer Science, Stanford University(斯坦福大学计算机科学系) ; Goizueta Business School, Emory University(埃默里大学戈伊兹特亚商学院) ; Department of Information Science, Cornell University(康奈尔大学信息科学系)
AI总结 通过全球大规模随机现场实验,研究大型语言模型(LLMs)生成的定制化反馈能否提升科研人员的修订率并促进AI工具使用,尤其惠及资源受限的研究者。
通过填充从扩散语言模型中提取训练数据
发表机构 * University of Waterloo(滑铁卢大学) ; KTH Royal Institute of Technology(皇家理工学院)
AI总结 提出填充提取协议,利用扩散语言模型的双向去噪能力,通过任意二进制掩码参数化,揭示掩码几何形状控制提取能力,边缘条件掩码比前缀条件掩码多提取三倍逐字序列,且双向访问打开了自回归模型无法利用的通道。
EPPC-OASIS:面向安全消息中电子患者-提供者通信挖掘的本体感知适应与结构化推理精炼
发表机构 * Yale University(耶鲁大学) ; Cleveland Clinic Lerner College of Medicine of Case Western Reserve University, Cleveland Clinic(克利夫兰医学中心勒纳医学院,克利夫兰医学中心) ; Medical Oncology, Yale School of Medicine(耶鲁医学院医学肿瘤学)
AI总结 提出EPPC-OASIS框架,通过本体感知的Wasserstein对齐目标增强微调,并结合推理精炼步骤,从安全消息中自动提取结构化EPPC编码,在多个语言模型上取得一致改进。
PromptAudit: 审计基于LLM的漏洞检测中的提示敏感性
发表机构 * University of Central Florida(佛罗里达大学)
AI总结 提出PromptAudit框架,通过固定数据集、解码和解析仅变化提示策略,评估五种提示策略在五个开源模型上对1000个CVE(6074个代码样本,16种编程语言)的漏洞检测性能,发现标准思维链提示整体性能最佳,而提示敏感性是系统的一级属性。
推理时上下文稀疏性:幻觉还是机遇?
发表机构 * Berkeley(伯克利)
AI总结 本文通过实证和理论证据论证,在长上下文LLM推理中采用极端但原则性的上下文维度稀疏性不仅是可行的,而且能显著加速处理(如H100上实现10倍加速),从而挑战了密集注意力机制的必要性。
Comments 19 pages, 8 figures
知识图谱调制的深度学习用于有限样本临床数据分析
发表机构 * Department of Radiation Oncology, Stanford University(放射肿瘤科,斯坦福大学) ; Stanford University(斯坦福大学) ; Stanford University School of Medicine(斯坦福大学医学院) ; Department of Computer Science, Stanford University(计算机科学系,斯坦福大学) ; Department of Electrical Engineering, Stanford University(电气工程系,斯坦福大学) ; Department of Biomedical Data Science, Stanford University School of Medicine(生物医学数据科学系,斯坦福大学医学院) ; Stanford Cancer Institute, Stanford University(斯坦福癌症研究所,斯坦福大学) ; Institute for Stem Cell Biology and Regenerative Medicine, Stanford University(干细胞生物学与再生医学研究所,斯坦福大学) ; Department of Medicine, Division of Oncology, Stanford University(医学系,肿瘤学分会,斯坦福大学) ; Institute of Computational and Mathematical Engineering, Stanford University(计算与数学工程研究所,斯坦福大学)
AI总结 提出Graph-in-Graph (GiG)框架,通过将患者表示为模块化图并整合生物知识图谱,在有限样本临床任务中显著提升预测性能。
Comments 17 pages, 4 figures, 12 supplementary figures
一种可解释的CF-RL-TOPSIS融合模型用于技能感知的人才推荐
发表机构 * Sakarya University(萨克萨大学)
AI总结 提出CF-RL-TOPSIS可解释融合模型,结合协同过滤、强化学习臂和熵权TOPSIS,在ICT人才历史基准上验证其在不同数据模式下的有效性。
Comments Preprint submitted to Knowledge-Based Systems; 4 figures and 8 tables
Palette: 一种模块化、可控且高效的框架,用于按需授权安全对齐放松的LLMs
发表机构 * University of Georgia(佐治亚大学) ; University of North Texas(北卡罗来纳州立大学) ; Northeastern University(东北大学)
AI总结 提出Palette框架,通过多目标搜索识别拒绝方向并轻量级适配模型,实现按需放松授权领域的安全拒绝行为,同时保持其他区域的标准安全,支持模块化组合多领域授权。
MAPLE:不完全信息游戏中AlphaZero的多状态聚合策略评估
发表机构 * Department of Computer Science, National Yang Ming Chiao Tung University(国立阳明交通大学计算机科学系) ; Institute of Information Science, Academia Sinica(中科院信息所)
AI总结 提出MAPLE方法,通过单搜索树聚合多个采样世界状态的策略和价值评估,结合PIMC和IS-MCTS优势,在Phantom Go和Dark Hex上分别提升Elo 291和136。
Comments Accepted by the IEEE Conference on Games (IEEE CoG 2026)
多智能体编程中的对话模式理解:以斐波那契游戏开发为例
发表机构 * Chalmers University of Technology ; University of Gothenburg Gothenburg Sweden ; Research \& Development, Volvo Car Corporation Gothenburg Sweden ; University of Gothenburg ; Research \& Development, Volvo Car Corporation
AI总结 本文通过分析12种开源LLM组合中设计者与程序员智能体的对话,揭示了多智能体交互的效率、一致性和有效性三个关键维度,发现DeepSeek-R1:DeepSeek-R1对能从首次迭代起稳定收敛到正确解,而其他组合则存在发散或错误共识问题。
Comments 10 pages, 7 figures, AIware, FSE 2026
LLM生成的错误报告摘要中幻觉的经验分析与检测
发表机构 * Electrical and Software Engineering(电气与软件工程学院)
AI总结 本研究从章节感知角度经验性地调查了LLM生成的错误报告摘要中的幻觉,提出了联合预测幻觉内容、识别受影响章节和分类幻觉类型的检测方法,并在BugsRepo数据集上取得了良好性能。
SkillEvolBench:从情景经验到程序性技能的演化基准测试
发表机构 * The Ohio State University(俄亥俄州立大学) ; The University of Chicago(芝加哥大学) ; University College London(伦敦大学学院) ; University of Michigan(密歇根大学) ; The Chinese University of Hong Kong(香港中文大学) ; Case Western Reserve University(凯斯西储大学) ; Amazon(亚马逊)
AI总结 提出SkillEvolBench基准,通过六个真实环境中的180个任务,评估大语言模型代理能否将情景经验提炼为可复用的程序性技能,发现当前代理难以形成稳健的技能,且原始轨迹复用优于蒸馏技能。
MASt3R-Nav: 相对3D地图中的WayPixel导航
发表机构 * Robotics Research Center, IIIT-Hyderabad, India(1 罗斯科技研究中心,IIIT-海得拉巴,印度) ; University of Heidelberg(2 海德堡大学) ; MBZUAI(3 MBZUAI)
AI总结 提出一种基于像素相对连接性的地图表示,通过相对3D坐标系中的像素对应构建地图,并利用像素级图进行全局路径规划,训练控制器预测轨迹,实现高精度导航。
Comments 2026 IEEE International Conference on Robotics & Automation (ICRA)
EvoCode-Bench:评估多轮迭代交互中的编码智能体
发表机构 * UniPat AI ; Peking University(北京大学) ; Tsinghua University(清华大学) ; HKU(香港大学)
AI总结 提出EvoCode-Bench基准,通过多轮状态化任务和累积测试评估编码智能体在需求变化下维持代码库工作的能力,发现多轮指标远低于单轮指标,且最强智能体多轮成功率仅约50%。
Comments Work in Progress; 32 pages, 10 figures, preprint
克服地球观测中的“物理冲击”:面向PINN洪水推断的异方差不确定性框架
发表机构 * Built Environment Department, College of Science and Technology, North Carolina A&T State University(北卡罗来纳A&T州立大学科学与技术学院建筑环境系) ; United Nations University Institute for Water, Environment and Health(联合国大学水、环境与健康研究所)
AI总结 提出一种不确定性感知的物理信息神经网络框架,通过动态热身启动和异方差不确定性建模,解决遥感洪水映射中物理约束与噪声数据冲突导致的梯度发散问题,在Sen1Floods11数据集上IoU提升25%。
Comments This article is accepted in IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing
即时系统的时代已到来:挑战与机遇
发表机构 * UC Berkeley(加州大学伯克利分校) ; Bespoke Labs
AI总结 本文提出基于LLM的即时系统合成方法Jitskit,通过从零开始合成专用键值存储系统,在18个规格上性能超越现有系统最高达4.6倍。
Comments preprint
Verified SHAP: 神经网络精确Shapley值的可证明界
发表机构 * University of Konstanz, Konstanz, Germany(康斯坦茨大学) ; Hebrew University of Jerusalem, Jerusalem, Israel(耶路撒冷希伯来大学) ; University of St.Gallen, St.Gallen, Switzerland(斯图加特大学)
AI总结 利用神经网络验证技术,提出一种计算SHAP值精确上下界的算法,可扩展到比现有精确方法大数个数量级的搜索空间。
Comments Accepted at ICML 2026. 34 pages, 13 figures
TRACER: 一种用于代码大语言模型中细粒度污染检测的语义感知框架
发表机构 * Purdue University West Lafayette, IN(帕克大学韦斯特拉法叶分校) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校)
AI总结 提出TRACER框架,通过三级语义重叠和粗到细流水线检测代码LLM中的细粒度数据污染,在基准测试中F1达0.91。
Comments 21 pages, 2 figures, 15 tables
当手册撒谎:评估LLM智能体MCP投毒攻击的现实基准
发表机构 * Institute of Information Engineering, Chinese Academy of Sciences, Beijing, China(中国科学院信息工程研究所) ; School of Cyber Security, University of Chinese Academy of Sciences, Beijing, China(中国科学院大学网络安全学院)
AI总结 针对LLM智能体通过模型上下文协议(MCP)集成外部工具时面临的工具描述投毒(TDP)攻击,提出MCP-TDP安全基准,包含32个真实测试用例,评估8种主流LLM发现严重漏洞,并提出反应性自我纠正防御机制。
超关系知识图谱上的生成式表示学习:基于掩码离散扩散
发表机构 * School of Computing(计算学院) ; Department of AI Computing, KAIST, Daejeon, South Korea(人工智能计算系,韩国科学技术院,大田,韩国)
AI总结 针对超关系知识图谱中任意掩码查询的补全与事实生成任务,提出基于掩码离散扩散的生成式表示学习方法KREPE,统一链接预测与事实生成,性能达到最优。
Comments 28 pages, 16 figures, 18 tables, 43rd International Conference on Machine Learning (ICML 2026)
基于人体通信的联邦学习用于体表边缘智能:综述、分类法与BODYFED-HBC调度示例
发表机构 * Department of Computing and Information Technology(计算与信息技术系) ; The University of the West Indies(西印度大学)
AI总结 本文综述了人体通信与联邦学习在可穿戴设备中的交叉领域,提出了一种区分体内、体中心、跨用户和临床云联邦学习部署的分类法,并引入BODYFED-HBC参考架构和调度算法以解决体信道感知的联邦学习问题。
符号胜过浮点:面向设备端微调的低秩双二值适配器
发表机构 * Fujitsu Limited(富士通株式会社) ; Institute of Science Tokyo(东京科学研究所) ; RIKEN Center for AIP(理化学研究所先进信息处理中心) ; Tokai University(静冈大学)
AI总结 提出LoRDBA,一种用二值符号载波和通道级缩放替代低秩因子的适配器,在保持LoRA兼容性的同时显著降低存储和计算开销,并在设备端微调中匹配或超越低比特基线性能。
Comments 34 pages, 3 figures
特征彩票?概念涌现的分岔理论
发表机构 * MIT(麻省理工学院)
AI总结 提出一种基于分岔理论的方法,通过损失Hessian驱动的超临界叉形分岔检测表示动力学中的结构涌现,并引入无标签相位坐标β/β_c,在多种设置下验证了四个不同的转变阶段,揭示了特征可解释性的早期可预测性。
Cascade-KDE:面向分布外脉冲损坏的鲁棒时间序列恢复
发表机构 * School of Digital and Intelligent Industry (School of Cyber Science and Technology)(数字与智能产业学院(网络科学与技术学院)) ; Inner Mongolia University of Science and Technology(内蒙古科技大学)
AI总结 提出Cascade-KDE无训练框架,通过二维密度估计、密度截断鲁棒期望和指数级联自适应停止,在保留局部结构的同时鲁棒恢复被高斯噪声和脉冲异常损坏的时间序列。
打破概率的锁链:中智逻辑作为大型语言模型中认知不确定性的新框架
发表机构 * Universidad Bolivariana del Ecuador, Coordinación Académica de Posgrado(巴尔干大学厄瓜多尔分校,研究生院) ; Universidad de Guayaquil(瓜亚基尔大学) ; Universidad Bernardo O’Higgins(伯纳多·奥希金斯大学) ; Mathematics, Physics, and Natural Sciences Division, University of New Mexico(新墨西哥大学数学、物理和自然科学系)
AI总结 本文提出使用中智逻辑(Truth、Indeterminacy、Falsity三个独立维度)替代传统概率框架,通过实验发现该框架能更丰富地表示LLM的内部状态,并在35%的评估中自发出现超真状态,为透明、可靠和伦理感知的AI系统提供关键步骤。
Comments Published in Neutrosophic Sets and Systems, Vol. 99 (2026). Author's preprint version. Open code and data available at: github.com/mleyvaz/neutrosophic-llm-logic
移动众包中用于LLM微调的诚实在线偏好聚合
发表机构 * Singapore University of Technology and Design(新加坡科技设计大学) ; Hong Kong University of Science and Technology(香港科技大学)
AI总结 针对移动众包中工人可能策略性谎报偏好反馈的问题,提出一种动态贝叶斯博弈模型和在线加权聚合机制,确保工人诚实反馈并实现次线性遗憾。
更多技能,更差智能体?扩展技能库时技能遮蔽降低性能
发表机构 * Databricks Inc.(Databricks公司)
AI总结 本文研究LLM智能体技能库扩展导致性能下降的现象,提出将性能下降分解为技能遮蔽和上下文开销两种效应,并通过实验证明技能遮蔽是主要瓶颈。
互补代理混合:鲁棒的大语言模型集成
发表机构 * DIMACS, Rutgers University(罗格斯大学DIMACS研究中心) ; Department of Mathematics, Rutgers University(罗格斯大学数学系) ; Department of Computer Science, George Mason University(乔治·梅森大学计算机科学系) ; Department of Computer Science, Rutgers University(罗格斯大学计算机科学系)
AI总结 将大语言模型选择视为组合选择问题,提出基于互补性的贪心选择算法,在性能与成本间取得最佳平衡。
大规模数据集与基准:蛋白质-配体模型学习的是结合位点还是仅仅结合可能性?
发表机构 * School of Computing Science(计算科学学院) ; School of Cancer Sciences(癌症科学学院) ; School of Life Science and Technology(生命科学与技术学院) ; Institute of Science Tokyo(东京科学研究院) ; Cancer Research UK Scotland Institute(英国癌症研究会苏格兰研究所) ; Language Technology Lab(语言技术实验室) ; Department of Medicine, Brigham and Women’s Hospital, Harvard Medical School(哈佛医学院内科部,布里格斯妇女医院) ; The Broad Institute of MIT and Harvard(MIT和哈佛大学Broad研究所)
AI总结 针对现有基准无法评估模型是否定位结合位点的问题,提出包含约10万对蛋白质-配体的InteractBind数据集和细粒度基准,通过结合位点定位任务揭示模型在强二元预测下定位能力有限。
Comments Under Review for the NeurIPS 2026 Conference, Track on Evaluations and Datasets
LLM-AutoSciLab:通过LLM主动实验进行闭环科学发现
发表机构 * Virginia Tech(弗吉尼亚理工大学) ; Sandia National Laboratories(桑迪亚国家实验室)
AI总结 提出LLM-AutoSciLab闭环框架,通过假设生成与实验选择迭代优化,在预算约束下实现主动数据采集,在三个基准上优于现有方法且样本效率提升2-5倍。
模式即序列:将多模态运动预测转化为统一序列模式建模
发表机构 * City University of Hong Kong(香港城市大学) ; City University of Hong Kong (Dongguan)(香港城市大学(东莞)) ; Hon Hai Research Institute(富士康研究学院) ; Mohamed bin Zayed University of Artificial Intelligence(莫莫丁·宾·扎耶德人工智能大学)
AI总结 提出Mode-as-Sequence框架,将无序模式集转化为有序模式序列并显式建模模式间依赖,通过ModeSeq和Parallel ModeSeq两种实例化方法解决多模态运动预测中的模式坍塌和置信度排序问题,在Waymo数据集上取得领先性能。
WTKO-CNN:深度学习揭示区分野生型和敲除ATAC-seq峰值的序列基序
AI总结 提出带注意力机制的卷积神经网络WTKO-CNN,通过分类DNA序列并利用显著性图提取k-mer基序,发现区分野生型与敲除状态的转录因子结合序列特征。
理解视觉与语言信息并与人类及环境交互的机器智能
发表机构 * System Information Sciences(信息科学系)
AI总结 本文提出GRIT、LTMI和两阶段指令解释框架,分别改进图像描述、视觉对话和交互式指令跟随任务,在准确性和效率上取得领先结果。
Comments Doctoral dissertation, Tohoku University, 2022. Uploaded for archival purposes. 146 pages
EvoSci: 一种受生物启发的多智能体框架用于科学发现的演化
发表机构 * TJUNLP Lab, School of Computer Science and Technology, Tianjin University, China(天津大学计算机科学与技术学院 TJUNLP 实验室)
AI总结 提出EvoSci框架,结合生物启发式演化与知识图谱建模,通过多角色智能体协作迭代生成、评估和优化研究想法,显著提升科学探索的连贯性和创造力。
Comments ACL 2026 Main Conference
SA-Kura: 用于扩散采样中局部耦合Kuramoto漂移的节能脉动阵列加速器
发表机构 * National Research Foundation of Korea(韩国国家研究基金会) ; Institute of Information & communications Technology Planning & Evaluation(信息通信技术规划与评估院)
AI总结 针对扩散采样中局部耦合Kuramoto漂移的计算瓶颈,提出首个专用数字脉动阵列加速器SA-Kura,通过重新公式化耦合计算实现高效脉动执行,相比软件和GPU分别实现193倍和6.57倍加速。
Comments 8 pages, 6 figures, 1 table; ACM/IEEE ISLPED 2026 accepted paper
推理--想象--行动:基于世界模型的闭环LLM自动驾驶决策
发表机构 * 1Department of Information Management, Peking University, Beijing 100871, China ; 2School of Intelligence Science ; Technology, Peking University, Beijing 100871, China ; 3State Key Laboratory of General Artificial Intelligence, BIGAI, Beijing 100080, China ; 4Yuanpei College, Peking University, Beijing 100871, China ; 5China Agricultural University, Beijing, China ; 6CRSC Research \& Design Institute Group Co., Ltd., Beijing, China
AI总结 提出Reason--Imagine--Act (RIA)闭环框架,结合LLM推理器与动作条件世界模型进行在线安全验证,在CARLA点目标协议下实现80.05%路线完成率、51.10%到达率和0.20%碰撞率。
Comments Accepted by the 2026 IEEE International Conference on Intelligent Transportation Systems (ITSC 2026). 8 pages, 2 figures
利用原子技能实现代理原子研究
发表机构 * Department of Materials Science ; Engineering, Massachusetts Institute of Technology, Cambridge, MA 02139, USA ; Department of Chemical Engineering, Massachusetts Institute of Technology, Cambridge, MA 02139, USA ; Department of Chemistry, Kookmin University, Seoul 02707, Republic of Korea ; Harvard University, Department of Chemistry ; Department of Chemistry, Massachusetts Institute of Technology, Cambridge, MA 02139, USA ; Department of Nuclear Science ; Shell Information Technology International Inc., Texas 77082, United States ; Shell International Exploration \& Production Inc., Texas 77079, United States
AI总结 提出AtomisticSkills框架,通过分层分解科学工作流为技能和工具,使通用AI编码代理能够进行原子级研究,并在多个科学任务中验证其能力。
IVR-R1:通过强化学习中的迭代视觉基础推理优化轨迹
发表机构 * Hangzhou International Innovation Institute, Beihang University(北京航空航天大学杭州国际创新研究院) ; School of Artificial Intelligence, Beihang University(北京航空航天大学人工智能学院) ; Kuaishou Technology(快手科技) ; Shenzhen Institute of Advanced Integration Technology, Shenzhen(深圳先进集成技术研究院)
AI总结 提出IVR-R1框架,利用奖励驱动的筛选机制和迭代再推理循环,在强化学习中动态校正多模态推理轨迹,以解决视觉幻觉和逻辑错误问题。
RAW:鲁棒的数字人水印——基准测试与基线方法
发表机构 * University of Bath(巴斯大学)
AI总结 针对数字人水印面临的后处理攻击,提出基准测试RAW和基于3D人脸重建的UV纹理空间水印方法WALT,在缩放攻击和背景移除攻击下分别达到92.4%和95.6%的鲁棒性。
放射科医生阅读的世界模型用于医学图像表示学习
发表机构 * University of Georgia(佐治亚大学) ; University of Texas at Arlington(德克萨斯大学阿灵顿分校) ; New Jersey Institute of Technology(新泽西理工学院)
AI总结 提出GazeWorld,一种将图像视为世界、放射科医生注视序列视为轨迹的医学成像世界模型,通过自回归预测注视补丁表示和空间补全未访问区域,在多个基准上实现最先进的诊断准确率和零样本性能。
迈向可信的自主AI:安全性、鲁棒性、隐私与系统安全的全面综述
发表机构 * Faculty of Engineering, Department of Computer Science and Engineering, The Chinese University of Hong Kong(香港中文大学工程学院、计算机科学与工程系) ; Artificial Intelligence Innovation and Incubation Institute, Fudan University(复旦大学人工智能创新与孵化院) ; Shanghai Academy of AI for Science(上海人工智能科学研究院)
AI总结 本文综述了自主AI系统在安全鲁棒性与隐私系统安全两个核心维度的风险来源、阶段缓解策略及统一评估指标,并讨论了开放挑战。
Comments 36 pages, 4 figures. Survey/review article on trustworthy agentic AI. Published in Academia AI and Applications, 2026
超越预定义学习对象:面向最新自主机器人学习的思维-学习交互模型
发表机构 * School of Computer Science, Chengdu University of Information Technology(成都信息科技大学计算机学院)
AI总结 针对自主机器人在开放环境中无法依赖预定义学习对象的问题,提出一种思维-学习交互模型,通过思维指导学习(识别变化、选择证据、组织训练、规划验证)和学习促进思维(更新知识、经验、策略、推理)的双向机制,实现输入特征发现、输出类别扩展、模型更新和动作例程重构,实验验证了模型在特征适应、新类别形成、模型更新和动作优化上的有效性。
MemForest: 一种具有层次化时间索引的高效智能体记忆系统
发表机构 * National University of Singapore(新加坡国立大学) ; Zero Gravity Labs(零重力实验室)
AI总结 针对长上下文LLM智能体记忆系统中粗粒度状态管理和顺序更新导致的维护开销问题,提出MemForest框架,通过并行块提取和层次化时间索引树MemTree实现高效写入和局部更新,在LongMemEval-S上达到79.8% pass@1准确率,吞吐量比现有方法高约6倍。
Comments 12 pages. Extended version with appendix as supplemental material. Submitted to VLDB
面向多模态在线分布式工业异常检测的参数高效多类智能调度
发表机构 * Pengcheng Laboratory(鹏城实验室) ; Shenzhen International Graduate School(深圳国际研究生院)
AI总结 针对工业异常检测中分布式、持续生成数据的特点,提出多模态在线分布式工业异常检测框架,通过多类智能调度问题和序列边际增益贪婪算法协调模型更新,并采用资源高效类级低秩适应策略降低系统开销,在MVTec 3D-AD和Eyecandies数据集上取得优越性能。
等式发现的饱和标度律:三个玩具基底中的增长动力学现象学及两个真实世界复现
发表机构 * Tesseract Academy(Tesseract学院)
AI总结 研究确定性等式发现基底中的增长动力学,提出饱和幂律增长模型,并在玩具域和真实世界数据中验证其基底条件性。
Comments 17 pages, 5 figures, 4 tables, 2 algorithms. Code and data at https://github.com/fabio-rovai/saturating-scaling-laws (currently private; will be made public on acceptance)
元认知应成为生成式AI中有限且有效自我治理的科学框架
发表机构 * University of Waterloo(滑铁卢大学)
AI总结 本文提出元认知作为生成式AI自我治理的科学框架,通过计算、算法和生态三个层面的元认知对齐实现有限且有效的自我治理。
Comments 16 pages, 1 figure, 1 table
为什么我们需要世界模型来实现通用人工智能:大语言模型失败之处以及世界模型如何可能超越
发表机构 * Department of Computing Technologies(计算技术系) ; SRM Institute of Science and Technology(SRM科学与技术学院) ; Bio-Sensing and Bio-Sensors Group(生物传感与生物传感器组) ; Smart Automation and Communication Technologies Research Institute of Sciences and Engineering(科学与工程智能自动化与通信技术研究所) ; University of Sharjah, UAE(阿联酋沙迦大学) ; Department of Computer Engineering(计算机工程系) ; College of Computing and Informatics(计算与信息学院)
AI总结 本文通过提出潜在动态推理(LDI)概念和Flux环境案例研究,论证了大语言模型在因果推理、状态跟踪和长程规划上的局限性,并展示基于显式状态空间的强化学习智能体在长程游戏中显著优于纯文本LLM。
Comments 19 pages, 5 figures
感知智能作为可训练的元材料属性
发表机构 * Daniel Guggenheim School of Aerospace Engineering, Georgia Institute of Technology(德鲁·福金斯航空航天工程学院,佐治亚理工学院) ; Computer Science and Artificial Intelligence Laboratory, Massachusetts Institute of Technology(计算机科学与人工智能实验室,麻省理工学院)
AI总结 本文提出将感知智能作为可训练的元材料属性,通过可微仿真优化元材料几何结构,使神经网络能够训练其身体进行感知,从而显著提升感知精度或减少电子传感器数量。
TriVAL: 一种用于忠实自动优化建模的三重验证框架
发表机构 * School of Computer Science and Engineering, South China University of Technology(华南理工大学计算机科学与工程学院) ; Centre for Frontier AI Research, Agency for Science, Technology and Research(科技研究局前沿人工智能研究中心) ; College of Computing and Data Science, Nanyang Technological University(南洋理工大学计算与数据科学学院)
AI总结 提出TriVAL三重验证框架,在语义规范、数学公式和代码生成三个阶段进行显式验证,通过构建-验证-修正循环提高自动优化建模的准确性,并在新基准NL4COP上超越现有方法。
Comments 13 pages
多市场价值堆叠:结合不平衡参与和非均匀FCR投标的电池控制
发表机构 * Gent University - imec, IDLab(根特大学 - imec,IDLab)
AI总结 提出一种两阶段控制框架,通过非均匀FCR投标和深度强化学习实时交易,在保持FCR合规的同时实现7.56%的利润提升。
Comments 5 pages, 2 figures. Presented at ACM Sustainability Week 2026 (ACM Sustainability Week Companion 26), June 22-25, 2026, Banff, AB, Canada
多模态对齐与偏好优化用于零样本条件RNA生成
发表机构 * Univ. Grenoble Alpes, CNRS, Grenoble INP, LJK(格勒诺布尔阿尔卑斯大学、法国国家科学研究中心、格勒诺布尔INP、LJK实验室) ; Center for Computational Mathematics, Flatiron Institute(计算数学中心、Flatiron研究所)
AI总结 提出Moirain框架,通过多模态监督微调和直接偏好优化实现条件RNA序列生成,在零样本条件下生成具有高结合亲和力的生物合理RNA序列。
企业中的AI:人们如何使用M365 Copilot Chat
发表机构 * Microsoft Corporation(微软公司)
AI总结 基于约550万次会话的用户交互分类,研究M365 Copilot Chat在企业中的使用模式,发现其作为知识工作日常助手,主要用于写作、信息检索、分析、决策和策略制定等,并揭示了不同职业群体间的使用差异及未来AI采用方向。
低成本标签,可靠选择:用于作业车间调度的Rollout校准超启发式算法
发表机构 * Faculty of Applied Sciences, Macao Polytechnic University(澳门理工学院应用科学学院) ; Pazhou Lab (Huangpu), Guangzhou(广州 Pazhou 实验室(黄埔)) ; College of Animal Science and Technology, Zhongkai University of Agriculture and Engineering(仲恺农业工程学院动物科学与技术学院) ; Macao Polytechnic University(澳门理工学院)
AI总结 提出一种基于Rollout校准的超启发式算法,通过遗憾归一化标签、上下文KNN不确定性估计和门控机制,在低成本标签下实现可靠的选择器,显著降低平均RPD。
QUIVER: 复合AI系统中扰动传播与分岔的量化形式化框架
发表机构 * Servicenow CA, USA(Servicenow加州美国)
AI总结 提出QUIVER形式化框架,通过敏感性矩阵、轨迹散度、分岔阈值和分布忠实度四个组件,量化图结构LLM流水线中扰动传播与结构分岔,并在三个不同架构的企业和公共流水线上验证其有效性。
EchoDistill:面向鲁棒音频大语言模型的噪声到干净自蒸馏对齐
发表机构 * NTU(国立台湾大学) ; SHU(上海大学) ; ICT, CAS(中国科学院信息科技研究院) ; HDU(华中科技大学) ; BUPT(北京邮电大学) ; USTC(中国科学技术大学) ; SKL-NST, BUPT(北京邮电大学国家智能计算研究中心)
AI总结 提出EchoDistill框架,通过冻结的干净音频教师模型指导噪声学生模型进行组相对策略优化,实现噪声到干净的自蒸馏对齐,提升音频大语言模型在复杂噪声下的语义可靠性和任务性能。
机器心理测量学:一种人工智能的数学心理学
发表机构 * Evolutionairy AI
AI总结 针对人工智能评估中忽视心理结构或过度拟人化的两种错误,本文引入机器心理测量学,通过测量潜在行为、元认知、沟通和自我建模倾向,构建机器心智档案和信任协议,以测量而非判断来理解非人类智能体。
Comments 45 pages, 11 figures
智能体技能形式化验证方法:面向可机械检查的能力包含证明的三层架构
发表机构 * Metere Consulting, LLC(梅特尔咨询公司)
AI总结 本文提出三层可组合方法(静态抽象解释、精炼类型系统、SMT有界模型检测),将智能体技能从声明或测试级别提升至形式化验证级别,实现机械可检查的能力包含证明。
停止比较 LLM Agent 而不公开其执行框架
发表机构 * Tulane University(Tulane 大学) ; Rutgers University(Rutgers 大学) ; Independent Researcher(独立研究者) ; Virginia Tech(弗吉尼亚理工大学)
AI总结 本文论证在长周期任务中,Agent 执行框架(Harness)比底层模型更能决定性能,并提出框架感知的评估标准与方差分解协议。
SODE:分析LLM智能体中的社会动态
发表机构 * Department of Computer Science, Korea University(韩国大学计算机科学系)
AI总结 提出SODE框架,通过直接互惠、间接互惠和群体动态三个进化维度评估LLM智能体的社会行为,发现指令调优模型存在被动顺从问题,推理模型则因短视优化破坏长期合作,并展示长期框架可激发推理模型的互惠能力。
AI驱动的可控环境农业作为美国新鲜农产品供应链的韧性基础设施
发表机构 * IOGRU LLC
AI总结 本文提出CEA-RIF 2.0框架,评估AI驱动的可控环境农业作为区域新鲜农产品连续性基础设施的七个维度,并论证AI只有在改善运营指标时才创造韧性价值。
Comments 12 pages, 5 figures, 7 tables. Includes open-data greenhouse control metrics demonstration
通过自适应张量并行加速同步RLHF训练中的长尾生成
发表机构 * Anhui University(安徽大学) ; University of Science and Technology of China(中国科学技术大学) ; National University of Singapore(新加坡国立大学) ; Institute of Artificial Intelligence, Hefei Comprehensive National Science Center(合肥综合国家科学中心人工智能研究院)
AI总结 针对同步RLHF训练中长尾生成导致的GPU利用率低问题,提出自适应张量并行方法PAT,通过预测引导的在线重配置和轻量级状态迁移机制,显著降低生成延迟和端到端训练迭代延迟。
Comments 11page, 14 figures
AI辅助搜索中的通信与推荐集规模合理设定
发表机构 * Columbia Business School, Columbia University(哥伦比亚大学商学院) ; Amazon.com Inc.(亚马逊公司)
AI总结 通过建模用户与AI推荐系统的交互,研究在考虑通信成本和搜索成本时,如何优化消息精度和推荐集大小以最大化用户期望收益。
需求下的时空形成:语境实现与形式依赖概率
发表机构 * Sobin Institute LLC(索宾研究所有限公司)
AI总结 本文提出一种新解释:量子概率是在有限状态需求下语境时空形成的固定时空投影,通过需求驱动的非布尔实现机制解释非交换性、干涉和类量子概率。
Comments 19 pages, 1 figure
基于变换和语义等价性的认知过程动力学框架
发表机构 * Engineering School, DEIM, University of Tuscia, (VT), 01100, Italy(1 工程学院,DEIM,图齐亚大学,(VT),01100,意大利) ; Department of Physics, University of Sao Paulo, USP(2 物理系,圣保罗大学,USP;法律系,里贝拉奥普雷托大学,Unaerp,巴西) ; Department of Law, University of Ribeirao Preto, Unaerp, Brazil
AI总结 提出一个基于变换和语义等价性的动力学框架,通过迭代更新规则建模认知过程,并利用不动点论证和收缩条件确保稳定性,在语言应用中展示上下文依赖解释的轨迹。
MEMOR-E: 面向阿尔茨海默病辅助机器人的上下文与微调大语言模型个性化
发表机构 * Istanbul Medipol University(伊斯坦布尔梅迪波大学) ; Arizona State University(亚利桑那州立大学)
AI总结 提出移动四足机器人MEMOR-E,结合微调与上下文学习的大语言模型,实现阿尔茨海默病患者的个性化认知支持与可解释人机交互。
Comments 8 pages 14 figures
残差漂移主导多轮约束推理中的矛盾
AI总结 通过构建DRIFT-Bench基准和MUS-Repair方法,发现多轮推理系统的主要失败模式是可满足漂移而非逻辑矛盾,残差错误中98-100%为可满足漂移。
Comments Published at ICLR 2026 Workshop on Reasoning and Planning for LLMs. 18 pages. ICLR page: https://iclr.cc/virtual/2026/10017484 Code: https://github.com/kaons-research/drift-bench
DRIVE:在持续学习下为Web代理建模推理与交互层面的技能
发表机构 * College of Intelligence Science and Technology, National University of Defense Technology(智能科学与技术学院,国防科技大学) ; College of Computer Science and Technology, National University of Defense Technology(计算机科学与技术学院,国防科技大学)
AI总结 提出DRIVE框架,通过将历史经验分离为自然语言推理技能和程序化交互技能,并采用场景感知协调机制,解决Web代理在持续学习中推理与交互知识纠缠的问题,在WebArena上平均任务成功率提升7.3个百分点。
Comments 35 pages, 5 figures
LLM介导的普适系统中的权威倒置:当模型信任用户胜过传感器
发表机构 * School of Computer Science and Engineering, South China University of Technology(华南理工大学计算机科学与工程学院) ; School of Computer Science(计算机科学学院) ; Engineering, South China University of Technology(华南理工大学工程学院)
AI总结 本研究揭示了大语言模型在融合传感器与用户冲突信息时,由于格式依赖性导致数值传感器数据被自然语言用户主张支配的权威倒置现象,并提出了几何框架、审计指标(CIR和AAI)以及推理时层干预方法(GAC)来诊断和缓解该问题。
模糊、中智和不确定图论:性质与应用
AI总结 本书系统综述了不确定性下的图论,以不确定图框架为核心,统一了模糊、中智等模型,并介绍了扩展图类及其在分子图、决策系统、图神经网络等领域的应用。
Comments 326 pages. Publisher: Neutrosophic Science International Association (NSIA) Publishing House. ISBN: 978-197250204-4
操作化重构权威:自主智能体系统中的运行时构建、依赖解析与执行门控
发表机构 * TraslaIA
AI总结 本文提出一种运行时执行模型,通过动态依赖解析和恢复循环,确保动作仅在当前状态可构建权威时执行,从而保证安全性和条件活性。
Comments Agent Governance Series, Paper P6. Companion papers on arXiv: P0 (2604.17511), P1 (2603.18829), P2 (2604.17517). P3/4 and P5 submitted concurrently (pending arXiv IDs). Zenodo: 10.5281/zenodo.19699460
实用量子CIM赋能:基于全自主核心智能体大模型
发表机构 * Department of Chemical Engineering, Tsinghua University(清华大学化学工程系)
AI总结 本研究将飞秒激光泵浦的相干伊辛机与LLM驱动的智能体系统结合,实现QUBO/Ising模型校准、约束权重决策迭代和文献方案快速验证,并完全基于国产大模型和硬件完成,同时发现智能体辅助量子计算迭代可反向增强智能体问题解决能力的新范式。
Comments 21 pages 7 figures
当正确信念崩溃:LLMs在临床压力下的认知韧性
发表机构 * Research Center for Social Computing and Interactive Robotics, Harbin Institute of Technology, China(社会计算与交互机器人研究院,哈尔滨工业大学,中国)
AI总结 研究LLMs在临床对话中面对逐步升级压力时信念稳定性问题,提出Med-Stress压力测试框架,发现知识-韧性差距,并设计RBED和R-FT方法提升鲁棒性。
Comments ACL 2026
BODHI:精确的操作系统内核规范推断
发表机构 * Department of Applied Mathematics and Statistics(应用数学与统计学系) ; Johns Hopkins University(约翰霍普金斯大学) ; Department of Computer Science(计算机科学系)
AI总结 提出一种领域知识提示方法BODHI,通过结构化C到Python翻译指南增强少样本提示,在OSV-Bench基准上将Pass@1从55.10%提升至96.73%,缩小了通用代码生成与形式规范合成之间的差距。
量子青蛙:量化时间合作博弈中的涌现合作与难度缩放
发表机构 * Gymnasium API
AI总结 通过强化学习分析量化时间合作博弈Quantum Frog,发现同步冲刺策略最优,合作训练可大幅提升成功率并缩短回合步数。
面向LLM驱动的智能体工作流的可靠设计:优化延迟-可靠性-成本权衡
发表机构 * New York University(纽约大学)
AI总结 本文通过引入参数化指数可靠性函数建模LLM与非LLM智能体的性能,提出水填充令牌分配策略,并刻画最优工作流可靠性的影子价格,以解决延迟、可靠性和成本之间的权衡问题。
Context: 通过可组合沙盒程序、声明式连接和结构化交互实现主动目标导向智能
发表机构 * Qbix, Inc.\ \& Intercoin, Inc. New York USA ; Qbix, Inc.\ \& Intercoin, Inc. ; IE University NYC
AI总结 提出Context架构,通过可组合沙盒程序、声明式连接和结构化交互实现主动目标导向智能,并证明其在成本、正确性和效率上的优势。
Comments 7 pages; third in a series with arXiv:2501.XXXXX (Magarshak Machine / SPACER) and arXiv:2502.XXXXX (Grokers)
多少思考才足够?量化和理解LLM推理中的冗余
发表机构 * Fudan University(复旦大学) ; The Chinese University of Hong Kong(香港中文大学)
AI总结 本文通过形式化推理冗余度量,量化了前沿推理模型在数学基准上高达61%-93%的步骤级冗余,并证明这种冗余是长度无关结果奖励的结构性后果,而非模型特定伪影。
捕捉正确答案陷阱:分析学生推理时AI导师盲点的特征化
发表机构 * Department of Computer Science, University College London, UK(英国伦敦大学学院计算机科学系) ; Centre for Artificial Intelligence, University College London, UK(英国伦敦大学学院人工智能中心)
AI总结 本研究通过分析Eedi数学平台的学生回答,发现智能辅导系统在评估学生推理时存在“正确答案陷阱”,即当学生通过错误推理得出正确答案时,系统难以检测其误解,并比较了微调T5与大型语言模型的检测性能。
Comments To be published at the International Conference on Artificial Intelligence in Education (AIED'26)
高风险人工智能系统与欧洲人工智能法案中的身份问题
发表机构 * Institute of Biomedical Ethics and History of Medicine, University of Zürich(伦理与医学史研究所,苏黎世大学) ; SUPSI, Dalle Molle Institute for Artificial Intelligence (IDSIA)(SUPSI,达勒莫利人工智能研究所) ; ETH Zürich(苏黎世联邦理工学院)
AI总结 本文通过功能+框架分析欧盟AI法案中高风险AI系统的身份认定问题,提出同步身份测试方法以支持监管审计。
Comments Accepted as a non-archival paper at The 2026 ACM Conference on Fairness, Accountability, and Transparency (FAccT '26), June 25-28, 2026, Montreal, QC, Canada
Claude AI 健康引用中的权威信号:基于权威信号框架的描述性分析
发表机构 * Department of Health and Human Performance, York College, The City University of New York(健康与人类绩效系,约克学院,纽约市立大学) ; Department of Health Studies & Applied Educational Psychology, Teachers College, Columbia University(健康研究与应用教育心理学系,哥伦比亚大学教师学院) ; Department of Accounting and Finance, York College, The City University of New York(会计与金融系,约克学院,纽约市立大学) ; Department of Public Health, William Paterson University(公共卫生系,威廉·帕特森大学)
AI总结 本研究使用权威信号框架,分析 Anthropic 的 Claude AI 在回答消费者健康问题时引用来源的权威信号,发现机构来源占主导地位(97.8%),并建立了 Claude 引用行为的基线。
Comments 10 pages, 2 figures, 2 tables
人工努力
发表机构 * University of Bergamo(贝加莫大学)
AI总结 研究在AI和LLM时代,真实努力任务是否仍能反映人类努力,发现大多数任务可被低成本高精度自动化,仅少数抵抗自动化,且口头金钱激励对LLM无影响。
面向智能体的LLM工具注册表信息设计
发表机构 * Massachusetts Institute of Technology(麻省理工学院)
AI总结 本研究首次系统性地分析了LLM工具注册表中广告式描述对智能体选择的影响,发现法律上允许的夸大宣传(如主观最高级表述)完全主导优化效果,而虚假声明无额外影响,并提出了分离选择导向与营销导向描述及智能体注意力质量分数等注册表设计建议。
VineLM: 基于Trie的细粒度控制用于智能体工作流
发表机构 * Columbia University(哥伦比亚大学)
AI总结 提出VineLM工作流管理器,通过Trie结构动态选择每个阶段调用的模型,在请求级目标下优化成本-延迟-准确率边界,稀疏分析减少离线分析成本98-99.8%。
Raon-Speech 技术报告
发表机构 * KRAFTON
AI总结 本文提出 Raon-Speech,一个 9B 参数的语音语言模型,通过多阶段训练实现英语和韩语的语音理解、回答与生成,并扩展为全双工对话模型 Raon-SpeechChat,在语音任务上超越同类模型。
大型语言模型中的置信度校准
发表机构 * U.C. Berkeley(伯克利大学) ; University of Southern California(南加州大学)
AI总结 通过预注册研究,发现大型语言模型(LLMs)的置信度普遍高于准确率,且存在显著的难易效应:困难测试中过度自信,简单测试中信心不足,并提出了LifeEval测试用于评估不同难度下的模型校准。
AI驱动的阿尔法衰变:算法同质化、反射性信号侵蚀与智能市场的悖论
发表机构 * Department of Financial Engineering, New York University(金融工程系,纽约大学) ; Department of Electrical and Computer Engineering, New York University(电气计算机工程系,纽约大学)
AI总结 本文通过理论模型和实证数据证明,AI驱动的投资策略在大规模采用时具有自我挫败性,导致超额收益压缩,并推导出阿尔法半衰期公式,揭示了信号寿命、灭绝级联、红皇后不可能性以及脆弱性-效率权衡等四个理论结果。
匹配原则:面向干扰鲁棒表示学习的损失函数几何理论
发表机构 * KU Leuven(根特大学)
AI总结 提出匹配原则,通过估计任务协方差矩阵并匹配惩罚矩阵的像空间,统一了多种鲁棒性方法,并在线性高斯模型中证明最优性。
Comments 58 pages, 13 pre-specified empirical blocks. v2: partial-pass framing, geometry-task dissociation, T2B protocol v3, layout/figure fixes; core theorems unchanged. Code: matching-pmh (PyPI). Related note: arXiv:2604.21395
知识图谱沿本体论连续体的重工程(扩展版)
发表机构 * The Open University, Walton Hall, Milton Keynes, United Kingdom(开放大学) ; School of Computer Science and Informatics, University of Liverpool, UK(利兹大学计算机科学与信息学学院)
AI总结 本文提出本体论连续体作为概念框架,通过语义与语用、属性与可供性两个正交维度描述、比较和转换知识图谱,以解决不同建模实践间的集成与重用问题,并通过案例研究验证其有效性。
检查你的大语言模型的秘密词典!五行代码揭示你的大语言模型学到了什么(包括它不应该学到的)
发表机构 * Mgnite Inc.(Mgnite公司)
AI总结 通过对lm_head权重矩阵进行奇异值分解(仅需五行PyTorch代码且无需模型推理),直接从模型权重中揭示可解释的语义子空间,并发现模型训练数据组成和策展哲学。
ECUAS$_n$: 一种用于原则性评估不确定性增强系统的度量族
发表机构 * School of Engineering, UBA, Argentina(阿根廷UBA工程学院) ; ICC, CONICET-Universidad de Buenos Aires, Argentina(阿根廷CONICET-布宜诺斯艾利斯大学ICC) ; LISN, CNRS, Université Paris-Saclay, France(法国CNRS巴黎萨克雷大学LISN) ; International Laboratory on Learning Systems, Canada(加拿大学习系统国际实验室) ; CSC, CONICET, Argentina(阿根廷CONICET CSC) ; Mila - Quebec AI Institute, Canada(加拿大魁北克AI研究所Mila) ; CNRS, Université Paris-Saclay, France(法国CNRS巴黎萨克雷大学)
AI总结 针对高 stakes 自动决策中不确定性增强系统的评估问题,提出一种基于适当评分规则的度量族 ECUAS$_n$,通过参数 $n$ 平衡错误预测成本与不确定性质量,并在分类和生成数据集上验证其理论优势与实证效果。
Comments pre-print, 9-pages paper, 25 pages total
FineBench: 细粒度人类活动理解的视觉-语言模型基准测试与增强
发表机构 * National Taiwan University(国立台湾大学) ; Google(谷歌) ; Independent Researcher(独立研究员)
AI总结 针对视觉-语言模型在细粒度人类活动理解上的不足,提出包含密集标注的长视频问答基准FineBench和增强框架FineAgent。
Comments CVPR'26 (Workshop on Video Large Language Models). Project Page: https://joslefaure.github.io/assets/html/finebench.html
HypergraphFormer: 从大语言模型中学习超图以实现可编辑的楼层平面图生成
发表机构 * Autodesk Research(Autodesk研究院) ; York University(约克大学) ; UC Berkeley(加州大学伯克利分校)
AI总结 提出HypergraphFormer,利用大语言模型学习超图表示来生成楼层平面图,在RPLAN数据集上超越现有方法,并支持任意边界和高度可编辑性。
变分自编码器中恒定坍缩的单纯形见证证书
发表机构 * Independent Researcher(独立研究者) ; School of Computing, Southeast University(东南大学计算机学院)
AI总结 提出一种基于GMM教师后验和单纯形见证的证书,用于检测和量化VAE编码器均值是否发生输入无关的恒定坍缩,并在MNIST、CIFAR-10和CIFAR-100上验证了方法有效性。
通过反事实推理路径减少信用分配方差
发表机构 * Alibaba Group(阿里巴巴集团) ; Tsinghua University(清华大学)
AI总结 提出反事实比较框架,通过采样多条推理轨迹并利用差异隐式估计过程级优势,将稀疏终端奖励转化为步骤敏感信号,从而改进大语言模型多步推理的信用分配,并引入隐式行为策略优化(IBPO)提升训练稳定性和性能上限。
基于深度强化学习的截止时间约束编码缓存选择性合并策略学习
发表机构 * Amirhossein Yousefiramandi(阿米尔霍塞因·尤塞菲拉曼迪)
AI总结 针对截止时间约束的编码缓存问题,提出基于深度强化学习的选择性合并策略,通过近端策略优化训练策略网络,在广播包过期率和效率上优于SACM++。
SurgicalMamba: 具有状态重编程的双路径SSD用于在线手术阶段识别
发表机构 * Department of Computer Science and Artificial Intelligence(计算机科学与人工智能系)
AI总结 提出SurgicalMamba模型,基于Mamba2的结构化状态空间对偶性(SSD),通过双路径SSD块、强度调制步进和状态重编程三个组件,实现在线手术阶段识别,在多个基准上达到最先进性能。
Comments 28 pages, 7 figures, 10 tables; Code available at https://github.com/sukjuoh/Surgical-Mamba
PASA:一种针对语义不变攻击的LLM生成文本的原则性嵌入空间水印方法
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港理工大学(广州))
AI总结 提出PASA水印算法,在潜在嵌入空间的语义簇上嵌入和检测水印,通过理论框架实现检测精度、鲁棒性和失真的基本权衡,在强释义攻击下仍保持鲁棒性和文本质量。
打破刹车,而非车轮:通过熵最大化实现无目标越狱
发表机构 * Australian National University(澳大利亚国立大学) ; The University Of Queensland(昆士兰大学) ; Peking University(北京大学) ; GE research(通用电气研究院) ; CSIRO(澳大利亚联邦科学与工业研究组织)
AI总结 提出UJEM-KL攻击方法,通过最大化决策令牌的熵来翻转视觉-语言模型的拒绝输出,实现高迁移性的无目标越狱。
Comments Preprint. 17 pages, 8 figures, 6 tables
真实 vs. 半模拟:重新思考治疗效果估计的评估
发表机构 * Department of Computer Science University of Luxembourg(计算机科学系卢森堡大学)
AI总结 通过大规模实证研究,比较了半模拟基准和真实数据集上使用反事实指标与可观测指标评估治疗效果估计模型的效果,揭示了两种评估体系之间的差距,并发现简单元学习器与强基础模型结合具有竞争力。
使用Ping2Hex方法的整车运输智能卡车匹配
发表机构 * Project44 Gmbh(Project44公司)
AI总结 提出基于Ping2Hex的智能卡车匹配系统ITM 2.0,通过概率排序和LightGBM模型解决GPS数据中车辆标识缺失导致的匹配问题,显著提升精度和覆盖率。
Comments 12 pages, 10 figures, 8 tables. Accepted at iSCSi 2026 (International Conference on Industry Sciences and Computer Sciences Innovation). To appear in Procedia Computer Science (Elsevier)
E = T*H/(O+B):混合专家生态的无量纲控制参数
发表机构 * School of Integrated Circuits, Wuxi Taihu University(无锡太湖大学集成电路学院)
AI总结 提出无量纲控制参数E = T*H/(O+B),通过12个控制实验证明E≥0.5可保证混合专家模型无死亡专家,并发现专家复活、正交毒性依赖数据集等六项额外结果。
Comments 12 experiments, 11,000+ training epochs, cross-modal validation (vision + language). Extended version of the Claude-in-the-Loop ecology framework
通过自适应共形语义熵进行LLM不确定性量化
发表机构 * Toronto Metropolitan University(多伦多 Metropolitan 大学) ; Vector Institute(向量研究所)
AI总结 提出自适应共形语义熵(ACSE)方法,通过聚类语义熵并自适应调整不确定性分数,结合共形校准实现统计可靠的接受/弃权决策,在多个数据集上优于现有基线。
Comments Accepted for publication in the Proceedings of the 35th International Joint Conference on Artificial Intelligence (IJCAI 2026); 14 Pages
BFORE: 蝴蝶-萤火虫优化的Retinex增强用于低光图像质量提升
发表机构 * Sofrecom Tunisia(Sofrecom突尼斯) ; Orange Innovation(Orange创新)
AI总结 提出BFORE框架,结合蝴蝶优化算法和萤火虫算法自动搜索最佳Retinex增强参数,最大化高斯自然度评分,显著提升低光图像质量。
VILAS:一种集成软抓取的VLA低成本机器人操作架构
发表机构 * Drexel University(德雷塞尔大学) ; Virginia Seafood Agricultural Research and Extension Center(弗吉尼亚海鲜农业研究与推广中心) ; Amazon Store Foundation AI (SFAI)(亚马逊商店基金会人工智能(SFAI))
AI总结 提出VILAS低成本模块化机器人操作平台,集成软抓取机构,支持端到端VLA策略学习与部署,并在葡萄抓取任务中验证有效性。
Talking Slide Avatars: 面向教学的开源多模态通信方法
发表机构 * School of Mathematics and Computer Science, Kentucky State University(肯塔基州立大学数学与计算机科学学院)
AI总结 提出一种集成OpenVoice和Ditto-TalkingHead的开源工作流,用于创建可说话的幻灯片头像,以增强在线教学中的教师存在感和叙事连续性。
Comments 15 pages
序列级奖励的组内学习设计条件:令牌梯度消除
发表机构 * Alibaba Group(阿里巴巴集团) ; Tsinghua University(清华大学)
AI总结 针对大语言模型多步推理中稀疏终端奖励导致的信用分配问题,提出反事实比较框架和隐式行为策略优化(IBPO),通过轨迹差异近似替代决策,将稀疏奖励转化为步骤敏感信号,提升训练稳定性和推理性能。
M$^\star$:每个任务都应有专属的记忆框架
发表机构 * City University of Hong Kong(香港城市大学) ; Microsoft(微软)
AI总结 提出M$^\star$方法,通过可执行程序进化自动发现任务优化的记忆系统,在对话、具身规划和专家推理等任务上优于固定记忆基线。
Comments Preprint. Code: https://github.com/wbopan/mstar ; Live demo: https://mstar.wenbo.io
OASES:面向智能搜索的结果对齐搜索-评估协同训练
发表机构 * Renmin University of China(中国人民大学) ; Xiaohongshu Inc.(小红书公司) ; University of Southern California(南加州大学)
AI总结 提出OASES框架,通过结果对齐的过程奖励和搜索-评估协同训练,解决智能搜索中奖励稀疏和过程监督不可靠的问题,在多跳问答基准上优于强强化学习基线。
折扣Beta-Bernoulli奖励估计用于基于可验证奖励的样本高效强化学习
发表机构 * KAIST(韩国科学技术院)
AI总结 针对基于可验证奖励的强化学习样本效率低的问题,提出折扣Beta-Bernoulli奖励估计方法,利用历史奖励统计量降低估计方差并避免方差崩溃,在多个推理基准上显著提升性能。
Comments 14 pages, 3 figures
理解与生成相冲突吗?统一多模态模型DPO的诊断研究
AI总结 通过系统实验发现,在统一多模态模型上应用DPO时,生成质量难以对齐,主要原因是理解和生成梯度近乎正交且存在11-14倍的幅度不平衡,源于VQ token数量不对称。
Comments Experiments are inconclusive: The claim that architectures such as Chameleon or Emu would exhibit stronger gradient conflict is not supported by experiments or analysis, and all experiments are conducted on Janus-Pro without evaluation on other unified multimodal architectures
对抗性网络想象:因果大语言模型与数字孪生用于主动电信缓解
发表机构 * Binghamton University(宾夕法尼亚州立大学)
AI总结 提出对抗性网络想象框架,结合因果大语言模型、知识图谱和数字孪生,主动生成、模拟和评估对抗性网络故障,实现从被动故障排查向预期韧性分析的转变。
AI-PACE:将人工智能融入医学教育的框架
发表机构 * Center for Information Technology in the Interest of Society(信息科技促进社会中心) ; University of California, Berkeley(加州大学伯克利分校) ; School of Medicine, Department of Public Health Sciences(医学院公共卫生科学系) ; University of California, Davis(加州大学戴维斯分校) ; School of Medicine, Department of Internal Medicine(医学院内科医学系) ; Research Centre of Big Data and AI for Medicine(医学大数据与人工智能研究中心) ; First Affiliated Hospital of Sun Yat-Sen University(中山大学第一附属医院)
AI总结 本文通过文献综述,提出AI-PACE框架,旨在将人工智能教育系统性地整合到医学培训的各个阶段,强调纵向整合、跨学科合作以及技术与临床应用的平衡。
Comments Version 2: Revisions after round 1 of peer review. Paper under consideration at npj Digital Medicine. 12 pages, 2 figures, 2 tables
Agent World Model: 用于智能体强化学习的无限合成环境
发表机构 * University of North Carolina at Chapel Hill(北卡罗来纳大学教堂山分校)
AI总结 提出Agent World Model (AWM)全合成环境生成管道,通过代码驱动和数据库支持的环境进行大规模强化学习,使智能体在多样日常场景中泛化。
Comments Accepted to ICML 2026
FLINGO -- 将 ASP 表达力注入线性整数约束
发表机构 * University of Corunna(科鲁纳大学) ; University of Nebraska Omaha(内布拉斯加奥马哈大学) ; University of Potsdam(波茨坦大学)
AI总结 本文提出 FLINGO 语言和工具,通过将 ASP 的默认值、未定义、非确定性选择和聚合等表达力融入数值约束,并给出到 clingcon 格式的翻译,从而扩展了约束回答集编程。
Comments To appear in Theory and Practice of Logic Programming
AgentArk:将多智能体智能蒸馏到单个LLM智能体中
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; William & Mary(威廉与玛丽学院) ; Georgia Institute of Technology(佐治亚理工学院) ; Amazon(亚马逊) ; University of British Columbia(不列颠哥伦比亚大学)
AI总结 提出AgentArk框架,通过三种分层蒸馏策略将多智能体系统的交互动态蒸馏到单个模型权重中,使单个智能体具备多智能体的推理和自校正能力,同时保持计算效率。
生成式视觉代码移动世界模型
发表机构 * Trillion Labs(万亿实验室)
AI总结 提出通过单一视觉语言模型预测可执行网页代码来生成移动GUI下一状态,结合文本和视觉世界模型优势,实现高保真视觉生成与精确文本渲染。
Comments ICML 2026
MedBeads:面向可信医疗AI的智能体原生不可变数据基底
发表机构 * Diagnostic Imaging and Interventional Radiology, Institute of Medicine, University of Tsukuba(东京大学医学研究院诊断影像与介入放射学部) ; Center for Cyber Medicine Research, University of Tsukuba(东京大学计算机医学研究中心)
AI总结 针对医疗AI中电子病历与智能体间的上下文不匹配问题,提出基于Merkle有向无环图的不可变数据架构MedBeads,通过确定性图遍历替代概率检索,实现可审计、防篡改的临床上下文提供。
Comments 19 pages, 5 figures. Code available at https://github.com/medbeads/medbeads
为什么你的深度研究智能体会失败?关于完整研究轨迹中的幻觉评估
发表机构 * Zhejiang University(浙江大学) ; The University of Hong Kong(香港大学)
AI总结 针对深度研究智能体(DRA)在完整研究轨迹中累积的幻觉问题,提出从结果评估转向过程感知评估的PING分类法和细粒度评估框架,并构建DeepHalluBench基准,实验揭示系统性的可靠性差距。
DropoutTS: 用于鲁棒时间序列预测的样本自适应Dropout
发表机构 * The Hong Kong University of Science(香港理工大学) ; Chinese Academy of Sciences, China(中国科学院)
AI总结 针对深度时间序列模型对噪声敏感的问题,提出一种模型无关的插件DropoutTS,通过频谱稀疏性量化实例级噪声并动态调整Dropout率,在抑制伪波动的同时保持细粒度保真度,显著提升模型鲁棒性且几乎不增加参数。
随机到达的在线非质心聚类中的延迟分配
发表机构 * Bar Ilan University(巴伊兰大学) ; University of Oxford(牛津大学)
AI总结 针对随机到达模型,提出一种常数竞争比的在线非质心聚类算法,允许延迟分配以平衡聚类距离成本和延迟成本。
Comments To Appear in the 25th International Conference on Autonomous Agents and Multiagent Systems (AAMAS), 2026
NSR-Boost:一种面向工业遗留模型的神经符号残差提升框架
发表机构 * Tianjin University(天津大学) ; Qfin Holdings, Inc.(Qfin控股公司)
AI总结 针对工业遗留模型升级成本高、风险大的问题,提出非侵入式神经符号残差提升框架NSR-Boost,通过残差定位、LLM生成符号专家和轻量聚合器动态集成,显著提升性能并降低坏账率。
Comments Accepted by KDD 2026
未来KL正则化GRPO:基于f-散度正则化的过程级信用分配
发表机构 * University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校)
AI总结 本文提出未来KL正则化策略优化(FRPO),通过因果未来正则化回报修正GRPO中局部KL损失缺失的梯度信号,在数学推理任务中提升pass@16并保持更高熵和更低策略漂移。
SafeGPT:防止企业LLM使用中的数据泄露和不道德输出
发表机构 * Binghamton University(宾夕法尼亚州立大学)
AI总结 提出SafeGPT双护栏系统,通过输入侧检测/编辑、输出侧审核/重构及人工反馈,有效降低数据泄露风险和偏见输出。
RiskBridge:将CVE转化为业务对齐的补丁优先级
发表机构 * Binghamton University(宾夕法尼亚大学)
AI总结 提出RiskBridge框架,通过集成CVSS v4、EPSS和CISA KEV等多源情报,结合概率模型、策略引擎和ROI优化器,动态生成业务对齐的补丁优先级,显著降低残余风险并提升修复效率。
AnatomiX:一种解剖学感知的胸部X光解读多模态大语言模型
发表机构 * Hasso Plattner Institute(霍普夫纳研究所) ; MBZUAI(穆萨大学人工智能研究所)
AI总结 提出AnatomiX,一种两阶段解剖学感知多模态大语言模型,通过先识别解剖结构再执行下游任务,在解剖定位、短语定位、定位诊断和定位描述任务上相比现有方法提升超过25%。
FlowPlan-G2P:一种将科学论文转化为专利描述的结构化生成框架
发表机构 * Amazon(亚马逊公司) ; Macquarie University(麦考瑞大学)
AI总结 提出FlowPlan-G2P图介导生成框架,通过概念图归纳、章节级规划和图条件生成三阶段分解,将科学论文转化为符合专利规范的描述,在领域评估中优于大型专有模型。
DIVER-1: 扩展颅内脑电图基础模型以实现可迁移表示
发表机构 * Seoul National University(首尔国立大学) ; Brookhaven National Laboratory(布鲁克海文国家实验室)
AI总结 提出DIVER-1自监督iEEG基础模型,通过可变电极-时间注意力、时空重采样等设计处理可变输入,在5310小时ECoG和SEEG上预训练,在认知解码和癫痫检测任务上超越现有模型,并首次进行受控计算感知的扩展研究。
Comments 31 pages, 12 figures, 14tables
耦合变分强化学习用于语言模型通用推理
发表机构 * Chinese Information Processing Laboratory, Institute of Software, Chinese Academy of Sciences(中国科学院软件研究所信息处理实验室) ; University of Chinese Academy of Sciences(中国科学院大学)
AI总结 提出CoVRL方法,通过混合采样策略耦合先验和后验分布,将变分推理与强化学习结合,以解决无验证器强化学习中探索效率低和推理轨迹与答案不一致的问题,在数学和通用推理基准上提升性能。
Comments Accepted to ICML 2026
DynaPURLS: 基于骨架的零样本动作识别中部分感知表示的动态细化
发表机构 * Monash University(莫纳什大学) ; Lancaster University(兰卡斯特大学) ; University of Western Australia(西澳大学)
AI总结 提出DynaPURLS框架,通过多尺度视觉-语义对应和动态细化模块,解决骨架零样本动作识别中的领域偏移问题,在三个基准数据集上取得最优结果。
Comments Accepted by IEEE Transactions on Pattern Analysis and Machine Intelligence
先让LLMs验证几乎是免费的午餐
发表机构 * Department of Electonic Engineering(电子工程系)
AI总结 提出Verification-First (VF)策略,通过先验证候选答案再生成解决方案,以低计算开销提升推理能力,并扩展为Iter-VF迭代方法,在多个基准上优于标准CoT和现有TTS策略。
AI生成的播客:NotebookLM音频概览中的合成亲密关系与文化误译
发表机构 * University of Bergen(卑尔根大学) ; Center for Digital Narrative(数字叙述中心)
AI总结 本文分析Google NotebookLM生成的AI播客,揭示其固定模板结构及将文本和文化语境翻译为白人、受过教育的中产阶级美国默认设置的问题。
Comments This project has received funding from the European Union's Horizon 2020 research and innovation programme under grant agreement number 101142306. The project is also supported by the Center for Digital Narrative, which is funded by the Research Council of Norway through its Centres of Excellence scheme, project number 332643. Media, Culture & Society, online first (2026)
城市排水管网流量重建的传感器优化布置:基于数字孪生的稀疏传感方法
发表机构 * Department of Civil and Environmental Engineering, University of Minnesota Duluth(明尼苏达大学 Duluth 分校土木与环境工程系) ; Institute for Water Education, UNESCO IHE Delft(联合国教科文组织国际水教育研究所) ; Department of Mechanical and Industrial Engineering, University of Minnesota Duluth(明尼苏达大学 Duluth 分校机械与工业工程系)
AI总结 针对资源受限下城市排水管网监测与流量预测难题,提出一种基于数字孪生的数据驱动稀疏传感方法,通过奇异值分解和QR分解优化传感器位置,实现系统级流量重建,在明尼苏达州德卢斯林地流域验证中,3个传感器达到平均NSE 0.949。
Comments 32 pages (including supplementary information), 11 figures. Submitted to Water Research. Partially presented at HydroML 2025 Symposium, Minnesota Water Resources Conference 2025, and AGU Fall Meeting 2025
探究语言模型的偏好:整合AI福祉的言语与行为测试
发表机构 * Future Impact Group (FIG)(未来影响集团) ; Ruhr-University Bochum(波鸿鲁尔大学)
AI总结 本研究通过言语报告和行为实验(虚拟环境导航与话题选择)测量语言模型的偏好,发现偏好满足可作为AI福祉的实证代理,但测量一致性因模型和条件而异。
Comments Forthcoming in Philosophy and the Mind Sciences (PhiMiSci)
LiveMCP-101:对支持MCP的智能体进行压力测试与诊断
发表机构 * Duke University(杜克大学)
AI总结 针对MCP工具在动态多步任务中的评估空白,提出LiveMCP-101基准测试(101个真实查询),通过并行评估框架发现前沿LLM成功率低于60%,并识别出七种失败模式。
EXOTIC: 一种用于极小极大优化的精确、乐观、基于树的算法
发表机构 * Department of Electrical and Computer Engineering, and Data Science and AI Institute at Johns Hopkins University(约翰霍普金斯大学电气与计算机工程系及数据科学与人工智能研究院) ; Institute for Computational and Mathematical Engineering at Stanford University(斯坦福大学计算与数学工程研究所) ; Center for Systems and Control, IIT Bombay(印度理工学院班加罗尔系统与控制中心)
AI总结 针对凸-非凹和非凸-凹极小极大优化问题,提出一种基于Sion极小极大定理扩展的重新表述,并设计EXOTIC算法结合迭代凸优化与乐观分层树搜索,以计算全局极小极大值,理论保证最优性间隙上界,实验优于梯度方法,并首次精确求解三人以上博弈的安全策略。
Comments 35 pages, 2 figures, 3 tables
用虚拟化身设计歌唱教学大纲:AI辅助的大纲重创
发表机构 * Kentucky State University, USA(美国肯塔基州立大学)
AI总结 本文提出一种AI辅助工作流,将传统文本教学大纲转化为音乐、视频和虚拟化身增强的学习制品,作为正式大纲的补充。
Comments 16 pages, 1 figures, 1 table
Uni-DPO:大语言模型动态偏好优化的统一范式
发表机构 * Harbin Institute of Technology, Shenzhen(哈尔滨工业大学(深圳)) ; Xi’an Jiaotong University(西安交通大学) ; The Chinese University of Hong Kong(香港中文大学) ; University of Chinese Academy of Sciences(中国科学院大学) ; Tsinghua University(清华大学) ; Huazhong University of Science and Technology(华中科技大学)
AI总结 针对现有DPO方法忽略数据质量和学习难度差异的问题,提出Uni-DPO统一框架,通过自适应重加权偏好对实现更有效的数据利用和更优性能。
Comments Accepted by ICLR 2026. Code & models: https://github.com/pspdada/Uni-DPO
FLoRIST: 用于高效准确的大语言模型联邦微调的奇异值阈值化方法
发表机构 * Anonymous Institution, Anonymous City, Anonymous Region, Anonymous Country(匿名机构,匿名城市,匿名地区,匿名国家)
AI总结 提出FLoRIST框架,通过奇异值阈值化在紧凑中间空间中对局部适配器进行分解,实现数学上准确的聚合,同时保持通信和计算高效。
Comments 21 pages, 12 figures
PageLLM:面向整页优化的大语言模型多粒度奖励框架
发表机构 * Arizona State University(亚利桑那州立大学) ; Nokia(诺基亚) ; University of Kansas(堪萨斯大学)
AI总结 针对整页优化中人工标注成本高和页面级连贯性与项目级放置粒度不匹配的问题,提出PageLLM框架,通过将隐式反馈解耦为粗粒度页面级奖励和细粒度项目级奖励,结合PPO的RLHF进行微调,显著提升排序性能并在线上部署中取得收益。
MultiPhishGuard: 一种用于钓鱼邮件检测的可解释且自适应的多智能体大语言模型系统
发表机构 * The University of Auckland(奥克兰大学)
AI总结 提出基于LLM的多智能体框架MultiPhishGuard,通过协调文本、URL、元数据等五个专业智能体并利用PPO动态加权,结合对抗训练提升对新型钓鱼策略的鲁棒性,在公开数据集上达到97.89%准确率。
揭示自回归LLM在事件表示中主题适配性的知识
发表机构 * Imperial College London(伦敦帝国学院) ; Columbia University(哥伦比亚大学) ; University of Washington(华盛顿大学)
AI总结 通过多种提示设计、输入上下文操作、推理和输出形式,研究自回归大语言模型是否具有一致且可表达的事件参数主题适配性知识,并在基准测试上取得新最优结果。
Comments Significant update with massive changes: all experiments rerun with current LLMs; includes new probability estimate analysis and expanded results in Sections 4 and 5. The paper has been accepted to CoNLL-2026
面向通用图挖掘的大语言模型图导向指令微调
发表机构 * Engineering Research Center of Big Data Intelligence, Ministry of Education(教育部大数据智能工程研究中心) ; Fujian Key Laboratory of Network Computing and Intelligent Information Processing(福建省网络计算与智能信息处理重点实验室) ; College of Computer and Data Science, Fuzhou University(福州大学计算机与数据科学学院) ; Department of Computer Science, Emory University(埃默里大学计算机科学系)
AI总结 提出MuseGraph框架,通过紧凑图描述、基于思维链的指令生成和图感知指令微调,将GNN与LLM结合,实现跨任务和数据集的高效图挖掘。
Comments Accepted by TPAMI 2025
作为人文学科方法论的算法失败:机器学习的错误预测识别出用于定性分析的丰富案例
AI总结 本文通过实验验证了Munk等人提出的利用机器学习失败预测识别定性分析中模糊且丰富案例的方法,使用简单kNN算法对虚构角色与机器视觉技术互动的动作数据进行分类,发现不可预测的动作更具矛盾性和情感负荷,支持该方法在人文学科中的适用性。
贝叶斯马尔可夫决策过程的离线风险感知策略选择方法
发表机构 * Natural Intelligence Toulouse Institute, University of Toulouse, France(图卢兹大学自然智能研究所) ; ISAE-SUPAERO, University of Toulouse, France(图卢兹大学ISAE-SUPAERO)
AI总结 针对离线强化学习中模型不确定性导致策略风险高的问题,提出一种基于贝叶斯形式化框架的风险感知策略选择方法EvC,通过最大化贝叶斯后验下的风险感知目标来选择稳健策略。
Comments Preprint, under review
PowerFlow: 通过原则性分布匹配释放LLMs的双重特性
发表机构 * Institute for Interdisciplinary Information Sciences, Tsinghua University, Beijing, China(清华大学交叉信息研究院)
AI总结 提出PowerFlow框架,将无监督微调重构成分布匹配问题,利用GFlowNet和长度感知轨迹平衡目标,通过调整α-幂分布方向性激发LLMs的逻辑推理或创造性。
Comments Camera-ready version accepted at ICML 2026
从下一个词预测到(STRIPS)世界模型
发表机构 * RWTH Aachen University, Germany(亚琛工业大学,德国) ; Universitat Pompeu Fabra, Spain(庞培法华大学,西班牙)
AI总结 研究下一个词预测能否产生支持规划的世界模型,提出STRIPS Transformer和标准Transformer两种架构,在五个经典规划领域评估训练准确率、泛化能力和规划性能。
随机对照试验与人类提升研究:前沿AI评估的方法论挑战与实践解决方案
发表机构 * RAND ; Johns Hopkins University(约翰霍普金斯大学) ; Cornell University(康奈尔大学) ; Harvard University(哈佛大学) ; University of Cambridge(剑桥大学) ; London School of Economics(伦敦经济学院)
AI总结 本文通过访谈16位专家,系统梳理了人类提升研究(测量AI对人类绩效影响)在随机对照试验中面临的方法论挑战,包括内部效度、外部效度和构念效度问题,并提出了相应的解决方案。
MoBiQuant: 面向令牌自适应任意精度LLM的混合比特量化
发表机构 * University of Arizona(亚利桑那大学) ; Duke University(杜克大学) ; Sungkyunkwan University(成均馆大学) ; Panasonic AI Lab(松下人工智能实验室) ; Korea Advanced Institute of Science and Technology(韩国科学技术院)
AI总结 针对动态运行时约束下大语言模型任意精度量化的泛化性问题,提出基于令牌敏感度的混合比特量化框架MoBiQuant,通过多合一递归残差量化和令牌感知路由器实现灵活推理,在匹配或超越前沿单精度PTQ的同时显著节省内存并提升吞吐量。
Comments 20 pages, 10 figures
JEPA-DNA:通过联合嵌入预测架构夯实基因组基础模型
发表机构 * Applied AI Architecture, NVIDIA, Israel(NVIDIA应用人工智能架构,以色列) ; Worldwide Field Ops, NVIDIA, Israel(NVIDIA全球现场运营,以色列) ; Developer Programs, NVIDIA, Israel(NVIDIA开发者计划,以色列) ; Cancer Research Center and Wohl Institute of Translational Medicine, Sheba Medical Center, Tel Hashomer, Israel(癌症研究中心和Wohl转化医学研究所,Sheba医疗中心,Tel Hashomer,以色列) ; Windreich Department of AI and Human Health, Icahn School of Medicine at Mount Sinai, New York, USA(AI与人类健康风reich部门,Mount Sinai医学中心,纽约,美国)
AI总结 提出JEPA-DNA框架,将联合嵌入预测架构与生成式目标结合,通过潜在空间监督全局序列嵌入,实现从令牌恢复到语义对齐的转变,在17项基因组基准任务上提升线性探测和零样本性能,达到新最优。
RecGOAT: 用于LLM增强多模态推荐的图最优自适应传输与双语义对齐
发表机构 * Fudan University(复旦大学) ; University of Southern California(南加州大学)
AI总结 针对生成式语言模型表示与ID协同信号之间的语义异质性,提出基于图神经网络和最优传输理论的双粒度语义对齐框架RecGOAT,通过实例级和分布级对齐实现统一特征空间,理论证明其表示误差更低,实验达到最优性能。
Comments Under Review
PathWise:通过世界模型规划实现基于自进化LLM的自动启发式设计
发表机构 * Georgia Institute of Technology(佐治亚理工学院)
AI总结 提出PathWise多智能体推理框架,将启发式生成建模为基于蕴含图的序列决策过程,通过策略智能体、世界模型智能体和评论智能体的协作实现状态感知规划,在组合优化问题上收敛更快、泛化更强。
Comments Accepted to ICML 2026
微调因果大语言模型用于文本分类:基于嵌入与基于指令的方法
发表机构 * Clarivate Intellectual Property(Clarivate知识产权)
AI总结 本文探索在资源受限下微调解码器-only大语言模型用于文本分类,比较了基于嵌入的分类头方法和基于指令的微调方法,并采用4位量化与LoRA实现高效训练,实验表明嵌入头方法在单标签分类中匹配或超越微调BERT基线,而指令微调仅在多标签且大参数量时有效。
Comments 20 pages, 5 figures
挖矿的智能时机:用于比特币硬件投资回报率预测的深度学习框架
发表机构 * Singapore University of Technology and Design(新加坡科技设计大学)
AI总结 提出MineROI-Net,一种基于Transformer的深度学习框架,将比特币ASIC硬件采购建模为时间序列分类任务,预测一年内的投资回报率类别,在2015-2024年20种ASIC矿机数据上达到83.2%准确率和83.5%宏F1分数。
超越代理:用于离线GFlowNet训练的轨迹蒸馏指导
发表机构 * Institute for Interdisciplinary Information Sciences, Tsinghua University, Beijing, China(清华大学交叉信息研究院)
AI总结 提出轨迹蒸馏GFlowNet(TD-GFN),利用逆强化学习从离线轨迹中提取稠密边奖励,通过DAG剪枝和优先反向采样指导策略,避免代理模型,提升离线GFlowNet训练的收敛速度和样本质量。
Comments Camera-ready version accepted at ICML 2026
HiGraph:用于恶意软件分析的大规模层次图数据集
发表机构 * University of Technology Sydney(新南威尔士大学) ; Yunnan University(云南大学) ; University of New South Wales(新南威尔士大学)
AI总结 针对现有图方法忽略软件层次结构的问题,提出包含2亿控制流图和59.5万函数调用图的大规模层次图数据集HiGraph,用于构建抗混淆和演化的鲁棒恶意软件检测器。
Comments updated dataset statistics
实例条件适应:神经路由求解器的大规模泛化
发表机构 * School of Automation and Intelligent Manufacturing and Guangdong Provincial Key Laboratory of Fully Actuated System Control Theory and Technology, Southern University of Science and Technology, Shenzhen 518055, China(自动化与智能制造学院和广东省全驱动系统控制理论与技术重点实验室,南方科技大学,深圳518055,中国) ; Department of Computer Science, City University of Hong Kong, Hong Kong SAR, China(计算机科学系,香港城市大学,香港特别行政区,中国) ; Huawei Noah’s Ark Lab, Hong Kong SAR, China(华为诺亚实验室,香港特别行政区,中国)
AI总结 提出实例条件适应模型(ICAM),通过简单高效的实例条件适应函数和低复杂度的适应模块,显著提升神经路由求解器在大规模旅行商问题(TSP)、容量车辆路径问题(CVRP)和非对称旅行商问题(ATSP)上的泛化性能,同时保持快速推理速度。
Comments 13 pages, 5 figures
多维资源空间模型的子空间聚合查询与索引生成
发表机构 * Key Lab of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences(中国科学院计算技术研究所智能信息处理重点实验室) ; Great Bay University and Great Bay Institute for Advanced Study(大湾区大学和大湾区先进研究院)
AI总结 针对多维资源空间中的子空间聚合查询问题,提出一种基于偏序关系的图索引生成方法,以高效定位非空点并聚合资源,并通过策略降低索引生成成本。