Ridge Regression from Poisson Resetting: A Renewal Perspective on Spectral Regularization
泊松重置的岭回归:谱正则化的更新视角
发表机构 * manu.edu.mk
AI总结 通过非平衡统计物理中的随机重置与统计学习中的岭正则化建立联系,证明线性梯度流下以速率r重置到原点产生的稳态均值即为岭估计,并推广到一般更新重置律以生成替代谱滤波器。
泊松重置的岭回归:谱正则化的更新视角
发表机构 * manu.edu.mk
AI总结 通过非平衡统计物理中的随机重置与统计学习中的岭正则化建立联系,证明线性梯度流下以速率r重置到原点产生的稳态均值即为岭估计,并推广到一般更新重置律以生成替代谱滤波器。
HEART-Bench: 大语言模型智能体是否表现出类似人类的心理学?
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Imperial College London(伦敦帝国理工学院) ; Quwan Group(启元集团) ; University of Washington(华盛顿大学) ; South China Normal University(华南师范大学)
AI总结 提出HEART-Bench基准,通过构建基于大五人格和自传体记忆的虚拟角色,在DIAMONDS情境框架下评估LLM智能体能否展现一致的人类心理特征。
Comments GitHub: https://github.com/peng-weihan/HEART-BENCH
基于评论家引导的样本高效扩散强化学习
发表机构 * ShanghaiTech University(上海科技大学)
AI总结 针对扩散策略在强化学习中探索与利用不平衡的问题,提出评论家引导的扩散策略优化(CGPO),通过无训练引导技术平衡探索与利用,在MuJoCo和Franka机器人任务上取得最优性能。
Comments accepted by ICML2026
我是谁?面向辅导对话中学生模拟的历史感知档案
发表机构 * University of Massachusetts Amherst(马萨诸塞大学阿默斯特分校) ; Eedi
AI总结 提出历史条件的学生模拟任务,通过强化学习训练档案生成器和模拟器,利用学生历史信息准确预测对话轮次,在数学学习平台数据集上显著优于基线。
面向文本到图像扩散Transformer的鲁棒且可泛化的安全引导
发表机构 * Huzhou Normal University(湖州师范学院) ; Alibaba Group(阿里巴巴集团) ; University of Science and Technology of China(中国科学技术大学) ; Zhejiang Normal University(浙江师范大学) ; Zhejiang University of Technology(浙江工业大学)
AI总结 提出SafeDIG框架,通过位置感知稀疏特征迁移实现扩散Transformer的安全引导,在保持源域安全性和图像质量的同时,有效降低目标域和整体不安全生成率。
掩码扩散建模用于异常检测
发表机构 * University of Minnesota(明尼苏达大学) ; Ohio State University(俄亥俄州立大学)
AI总结 提出基于掩码扩散模型的MaskDiff-AD方法,通过重建随机掩码坐标的难度构建异常分数,在分类、混合类型和离散序列数据上实现高效异常检测。
GenEraser:通过平衡文本-掩码引导和解耦定位器-保持器实现可泛化的视频对象移除
发表机构 * Tsinghua University(清华大学) ; Pengcheng National Laboratory(鹏城实验室) ; Huawei(华为) ; Southeast University(东南大学) ; Harbin Institute of Technology(哈尔滨工业大学)
AI总结 提出GenEraser框架,通过多条件混合专家、可学习深度CFG融合机制和解耦专家架构,解决视频对象移除中目标与物理效应同时消除的泛化难题,在ROSE和VOR-Eval上分别提升2.16 dB和1.44 dB。
学会选择:一种基于赋权与语义通信的自适应方法选择多智能体系统
发表机构 * Faculty of Science, Technology and Medicine(科学、技术与医学学院) ; University of Luxembourg(卢森堡大学) ; Johns Hopkins University(约翰霍普金斯大学) ; Luxembourg Institute of Science and Technology(卢森堡科学与技术研究院)
AI总结 提出一种结合上下文赌博机、结构化智能体间通信和语义检查点的多智能体框架,通过保持动作-结果因果一致性来提升科学计算工作流中自适应决策的收敛性、鲁棒性和泛化能力。
对齐引导的分数匹配用于扩散模型中的文本到图像对齐
发表机构 * Graduate School of AI, KAIST, South Korea(韩国高级人工智能研究生院)
AI总结 提出一种轻量级、无奖励的后训练方法,通过将对比对齐引导直接整合到扩散模型的分数匹配目标中,以解决文本-图像对齐中的过度惩罚和计数错误问题。
Comments ICML 2026, Project page: https://jaayeon.github.io/AGSM
大型音频语言模型中的音频越狱:分类、攻防分析与成本感知评估
发表机构 * National Taiwan University(台湾大学)
AI总结 本文提出了大型音频语言模型中音频越狱攻击与防御的统一分类法和受控实证评估,揭示了声学最佳N攻击暴露了最坏情况下的音频空间漏洞,叙事框架是一种有效的低延迟语义威胁,而现有防御在鲁棒性与良性可用性之间存在权衡。
Comments Submitted to ACL ARR 2026 May
RAISE:将RAG设计视为架构搜索问题
发表机构 * City University of Hong Kong(香港城市大学) ; Baidu Inc.(百度公司)
AI总结 本文提出将检索增强生成(RAG)系统的设计选择形式化为架构搜索问题,并构建RAISE框架和基准,通过标准化搜索空间和预算评估13种优化算法在7个数据集上的表现,发现优化性能高度依赖任务。
DocRetriever:面向多模态文档检索的即插即用框架与综合基准
发表机构 * Zhejiang University(浙江大学) ; Huawei Technologies Co., Ltd(华为技术有限公司)
AI总结 提出DocRetriever即插即用框架,通过布局感知的稀疏嵌入和推理增强的重排序器解决多模态文档检索中语义模糊和泛化瓶颈问题,并构建MultiDocR基准实现更严格评估。
Comments Accepted at KDD 2026 Research Track
给它空间!编码器中位置和语义表示的显式解缠
发表机构 * Sorbonne Université, CNRS, ISIR(索邦大学、国家科学研究中心、信息研究所) ; Orange Innovation(Orange创新)
AI总结 通过将位置和语义信号分离为三个独立流,研究Transformer中位置编码的机制,发现解缠方法能保留宏观结构并提升语言表示性能。
Comments 8 page + 10 pages of bibliography and appendix
测试时训练用于监督因果学习
发表机构 * Peking University(北京大学) ; Shanghai Jiao Tong University(上海交通大学) ; Microsoft(微软) ; Sony Research(索尼研究)
AI总结 针对监督因果学习在分布外泛化中的不足,提出测试时训练框架TTT-SCL,通过动态生成与测试实例对齐的训练集,显著提升因果发现性能。
从GPS点到出行模式:基于LLM的灵活语义轨迹生成
发表机构 * University of Electronic Science and Technology of China(电子科技大学) ; King Abdullah University of Science and Technology(国王阿卜杜勒·阿齐兹大学)
AI总结 提出HTP方法,通过层次化生成出行模式再生成GPS点,利用LLM和RQ-VAE实现灵活、语义丰富的轨迹生成,在质量上平均提升29.78%。
Comments This paper is accepted by KDD2026 second round
VisualThink-VLA:用于高效低延迟视觉-语言-动作策略的视觉中间推理
发表机构 * Zhejiang University(浙江大学) ; Cornell University(康奈尔大学) ; National University of Singapore(新加坡国立大学) ; Xi'an University of Electronic Science and Technology(西安电子科技大学)
AI总结 提出VisualThink-VLA框架,通过视觉中间推理和选择性路由机制,在保持高精度的同时将推理延迟从数秒降至亚秒级。
EarlyTom: 早期令牌压缩实现快速视频理解
发表机构 * Zhejiang University(浙江大学) ; Westlake University(西湖大学) ; Alibaba Cloud Computing(阿里云计算)
AI总结 针对视频大语言模型中视觉编码阶段效率低下的问题,提出EarlyTom无训练令牌压缩框架,通过在视觉编码器内部进行早期压缩,显著降低首令牌延迟并提升吞吐量。
Comments Accepted by CVPR 2026. 16 pages, 8 figures, 8 tables. Project page: https://viridisgreen.github.io/EarlyTom
KairosAgent:融合语义推理的智能体时间序列预测
发表机构 * School of Information Science and Technology, ShanghaiTech University(信息科学与技术学院,上海科技大学) ; Ant Group(蚂蚁集团)
AI总结 提出KairosAgent框架,通过结合基于LLM的推理器和基于TSFM的预测器,并引入强化学习范式,实现跨模态时间序列的零样本预测。
FRUC:来自未标定协作驾驶视图的前馈动态场景重建
发表机构 * Hong Kong JC STEM Lab of Smart City City University of Hong Kong(香港JC STEM实验室,城市大学)
AI总结 提出FRUC框架,基于前馈3D高斯泼溅和视觉几何Transformer,从未标定的多车协作视图实现动态场景的一次性、免标定重建,通过自中心因果遮挡场和零初始化残差去噪实现非破坏性几何补充。
通过跨语言分词器手术和离线蒸馏使多语言嵌入模型适应土耳其语
发表机构 * Yıldız Technical University(Yıldız技术大学) ; Istanbul Bilgi University(伊斯坦布尔比尔格大学)
AI总结 提出一种高效的三阶段适应流程,通过跨语言分词器优化、教师模型克隆和离线蒸馏,构建了土耳其语句子嵌入模型embeddingmagibu-200m,在STSbTR上超越教师模型,并在TR-MTEB上以更少参数达到竞争性能。
Comments 14 pages, 2 figures, 4 tables, Appendix included
加速受限解码:通过词元空间压缩
发表机构 * Department of Language Science and Technology(语言科学与技术系) ; Saarland Informatics Campus(萨尔兰州信息学校区) ; Saarland University(萨尔兰大学)
AI总结 提出CFGzip离线压缩词元搜索空间,大幅降低上下文无关文法约束解码的开销,实现高达两个数量级的延迟减少和7.5倍的总生成速度提升。
Comments 13 pages; 5 figures; under review at EMNLP 2026
通过隐式正则化提高归因的对抗鲁棒性
发表机构 * Department of Computer Science, KTH Royal Institute of Technology, Stockholm, Sweden(瑞典皇家理工学院计算机科学系) ; Science for Life Laboratory, Stockholm, Sweden(瑞典斯德哥尔摩科学生命实验室) ; Department of Computer Science, Brown University, USA(美国布朗大学计算机科学系)
AI总结 本文发现标准随机梯度下降的学习动态可以隐式地提高归因的对抗鲁棒性,并证明在softmax归一化下注意力归因的鲁棒性提升受限,而基于核的注意力可恢复鲁棒性。
Comments 39 pages, 22 figures, to be published in International Conference on Machine Learning 2026
基因对齐的患者表示改善血液学诊断
发表机构 * Institute of AI for Health, Helmholtz Munich, Germany International School of Medicine, Istanbul Medipol University, T\"urkiye Munich Leukemia Laboratory, Germany Department of Medicine III, Ludwig-Maximilian-University Hospital, Germany Department of Physics, University of Munich, Germany Munich Center for Machine Learning (MCML), Germany DKTK, German Cancer Consortium, Germany
AI总结 提出一种两阶段框架,通过自监督视觉预训练和监督对比学习对齐白细胞图像与染色体畸变及体细胞突变,提升血液学诊断性能。
Comments Accepted for publication at the 29th International Conference on Medical Image Computing and Computer Assisted Intervention - MICCAI 2026
一种全卷积方法用于X射线光子相关光谱中结构动力学数据的去噪
发表机构 * Amazon(亚马逊) ; GE Aerospace Research(通用电气航空航天研究)
AI总结 提出全卷积去噪自编码器(FC-DAE),用于去噪X射线光子相关光谱中的双时间强度-强度相关函数,支持任意输入尺寸,在低信噪比条件下恢复复杂动力学特征并保持结构保真度。
连续变量的因果干预:以上下文学习中转向向量的动词偏向为例
发表机构 * Yale University(耶鲁大学)
AI总结 提出一种对连续变量进行因果干预的方法,通过定位低维方向并编辑向量实现反事实目标值,应用于动词偏向特征,证明其在语言模型中的因果表示,并探讨与上下文学习的关系。
Compass: 通过专家引导的LLM代理导航全球海洋铅数据整合
发表机构 * School of Information Science ; Electronic Engineering,\ Jiao Tong University Shanghai China ; School of Artificial Intelligence,\ Jiao Tong University Shanghai China ; State Key Laboratory of Estuarine ; Coastal Research,\ China Normal University Shanghai China ; School of Oceanography,\ Jiao Tong University Shanghai China ; Institute of Geographical Science ; Natural Resources Research,\ Academy of Sciences Beijing China ; Electronic Engineering,\ Jiao Tong University ; School of Artificial Intelligence,\ Jiao Tong University ; Coastal Research,\ China Normal University ; School of Oceanography,\ Jiao Tong University ; Natural Resources Research,\ Academy of Sciences
AI总结 针对海洋铅数据分散于非结构化论文中的问题,提出专家引导的LLM代理框架Compass,结合知识树分解任务,从23万篇论文中提取3751条铅记录,构建最大海洋铅数据库,准确率达92%。
线性时态回答集编程的元编程
发表机构 * University of Potsdam, Germany(波恩大学)
AI总结 提出一种统一的元编程框架,通过扩展clingo的理论语法并引入转换管道保护嵌套模态,实现了对多种线性时态逻辑(TEL、MEL、DEL)的语义操作化,并开发了metasp系统。
大规模形式化数学
发表机构 * FAIR at Meta(Meta的FAIR) ; New York University(纽约大学) ; Korea Institute for Advanced Study(韩国高级研究院)
AI总结 提出多智能体系统AutoformBot,利用LLM和形式化验证工具,自动将非正式教材翻译为Lean 4可验证代码,构建了包含超过45,000个声明和50万行代码的Atlas形式化库。
SwInception -- 局部注意力与卷积的结合
发表机构 * Chalmers University of technology(查尔姆斯理工大学) ; Zenseact(Zenseact公司)
AI总结 提出SwInception架构,通过在Swin Transformer的前馈层引入Inception块增强归纳偏置,并改进解码器以更少参数捕捉细节,在多个医学数据集上提升分割性能。
Comments International Conference on Pattern Recognition and Artificial Intelligence, 2024
网格感知的对极匹配用于篮球多视角多人3D姿态估计
发表机构 * RIKEN Center for Advanced Intelligence Project(RIKEN先进情报项目中心)
AI总结 提出一种无训练框架MAEM,通过单目3D人体网格恢复模型和两阶段对极匹配策略,解决团队运动场景中多视角多人3D姿态估计的遮挡和外观相似问题。