Breaking the Reversal Curse in Autoregressive Language Models via Identity Bridge
通过身份桥打破自回归语言模型中的逆转诅咒
发表机构 * UC Berkeley(加州大学伯克利分校)
AI总结 提出一种名为“身份桥”的简单数据正则化方法(形式为“A→A”),通过理论分析和实验证明该方法能有效缓解自回归语言模型中的逆转诅咒,使模型从事实记忆转向规则学习。
通过身份桥打破自回归语言模型中的逆转诅咒
发表机构 * UC Berkeley(加州大学伯克利分校)
AI总结 提出一种名为“身份桥”的简单数据正则化方法(形式为“A→A”),通过理论分析和实验证明该方法能有效缓解自回归语言模型中的逆转诅咒,使模型从事实记忆转向规则学习。
结构使语言模型能够有效自我定位错误
发表机构 * Meta AI ; Columbia University(哥伦比亚大学) ; Meta Superintelligence Labs(Meta超智能实验室) ; Tel Aviv University(特拉维夫大学)
AI总结 本文提出结构化推理方法,通过将推理分解为离散语义步骤,使语言模型能更可靠地定位错误,并基于此设计了迭代纠正采样框架Thought-ICS,实现20-40%的自我纠正提升。
深度时间序列模型的可解释性需要语义对齐
发表机构 * University of Padua(帕多瓦大学)
AI总结 本文提出深度时间序列模型的可解释性应追求语义对齐,即预测应基于对用户有意义的变量,并受时空机制约束,同时需保持时间演化下的语义一致性,为此提供了形式化定义和模型设计蓝图。
Comments Accepted at ICML 2026
多任务强化学习的概率性能保证
发表机构 * ETH Zurich(苏黎世联邦理工学院)
AI总结 提出一种结合每任务有限 rollout 置信下界与任务级泛化的新泛化界,为未见任务提供高置信度性能保证。
零样本离策略学习
发表机构 * Arip Asadulaev(阿里普·阿萨杜拉耶夫) ; Maksim Bobrin(马克西姆·博布林) ; Salem Lahlou(萨勒姆·拉洛) ; Dmitry Dylov(德米特里·达里夫) ; Fakhri Karray(法赫里·卡里) ; Martin Takac(马尔 tin 塔卡)
AI总结 本文通过发现后继度量与平稳密度比的理论联系,提出一种零样本离策略学习算法,能够实时推断最优重要性采样比率并进行平稳分布修正,实现无需额外训练即可适应新任务。
LRAgent: 面向多LoRA LLM代理的高效KV缓存共享
发表机构 * KAIST(韩国科学技术院)
AI总结 针对多LoRA代理系统中每个代理独立存储相同长轨迹的KV缓存导致内存和计算开销大的问题,提出LRAgent框架,通过将缓存分解为共享基座部分和适配器依赖部分,并利用共享A的多LoRA架构和Flash-LoRA-Attention内核,实现高效共享,在保持精度的同时显著降低开销。
Comments 25 pages, 10 figures, 22 tables
CURP: 基于码本的连续用户表示用于大语言模型的个性化生成
发表机构 * School of Data Science, Fudan University(复旦大学数据科学学院) ; Shanghai Innovation Institute(上海创新研究院) ; School of Computer Science, Fudan University(复旦大学计算机科学学院)
AI总结 提出CURP框架,通过双向用户编码器和离散原型码本提取多维用户特征,实现少量可训练参数的即插即用个性化生成,在变体生成任务上优于强基线。
AblationBench:评估实证AI研究中消融实验的自动规划
发表机构 * Google Research(谷歌研究)
AI总结 提出AblationBench基准套件,包含作者消融和审稿人消融两个任务,用于评估语言模型在AI研究中规划消融实验的能力,实验表明当前最佳模型仅能识别45%的原始消融,低于人类水平。
Comments AI4Science Workshop, ICML 2026; Project page: https://ablation-bench.github.io/
PolarMem: 一种无需训练的可验证视觉语言模型极化隐式图记忆
发表机构 * ICT, CAS(中国科学院信息科技研究院) ; UCAS(中国科学院大学) ; CUPB(中国政法大学) ; USTC(中国科学技术大学) ; CityU-DG(城市大学-数据科学) ; HKU(香港大学) ; ZJU(浙江大学)
AI总结 提出PolarMem,一种无需训练的极化隐式图记忆框架,通过语义一致性验证和自适应分布划分将视觉语言模型感知信号转化为HAS、NOT_HAS和Uncertain记忆状态,并采用词典逻辑感知检索协议优先保证逻辑一致性,从而提升检索密集型任务性能并减少矛盾。
Med-Scout: 通过几何感知的强化学习后训练治愈多模态大语言模型在医学感知中的几何盲点
发表机构 * HKUSTGZ-ML4Health-Lab(香港科技大学-ML4Health实验室)
AI总结 提出Med-Scout框架,利用无标注医学图像中的内在几何逻辑,通过强化学习和三种代理任务(层次尺度定位、拓扑拼图重建、异常一致性检测)来缓解多模态大语言模型的几何盲点,并在新基准Med-Scout-Bench上提升超过40%的几何感知性能,同时泛化到更广泛的医学理解任务。
Comments 29 pages, 14 figures. Accepted at ICML 2026
自模仿扩散策略用于高效鲁棒的视觉导航
发表机构 * Uni-Ubi Technology Co., Ltd.(Uni-Ubi技术有限公司) ; College of Control Science and Engineering, Zhejiang University(浙江大学控制科学与工程学院)
AI总结 提出自模仿扩散策略(SIDP),通过奖励引导的自模仿机制和课程学习范式,减少对大量采样和后过滤的依赖,实现高效鲁棒的视觉导航。
Comments Preprint
重新审视掩码扩散语言模型训练中的位置监督
发表机构 * Tohoku University(东大大学) ; RIKEN(理化学研究所) ; NII LLMC(国家信息研究所LLMC)
AI总结 针对掩码扩散语言模型对位置偏移敏感的问题,提出基于连接主义时序分类(CTC)的目标函数,通过引入松弛令牌和更新折叠映射来吸收位置不确定性,从而在开放生成基准上取得一致提升。
Comments preprint, WIP
MulFeRL:在多轮循环中利用语言反馈增强强化学习
发表机构 * Department of Computer Science and Technology, Tsinghua University, Beijing, China(清华大学计算机科学与技术系,北京,中国) ; Quancheng Laboratory(千晨实验室)
AI总结 针对强化学习中标量奖励稀疏且缺乏信息的问题,提出MulFeRL框架,通过多轮语言反馈引导失败样本的再生、进度信用分配和结构化反馈注入,提升模型推理性能。
Quartet II: 通过改进的无偏梯度估计实现 NVFP4 中准确的 LLM 预训练
发表机构 * University of Waterloo(多伦多大学)
AI总结 提出一种用于微缩放格式的无偏量化方法 MS-EDEN,其量化误差比随机舍入低 2 倍以上,并集成到全 NVFP4 线性层量化方案 Quartet II 中,在 LLM 预训练中实现更准确的梯度估计和加速。
GUDA: 基于反事实的扩散模型分组训练数据归因方法
发表机构 * University of Tokyo(东京大学) ; Toyota Central Research Laboratory(丰田中央研究所) ; University of California, Berkeley(加州大学伯克利分校) ; Massachusetts Institute of Technology(麻省理工学院) ; National Institute of Advanced Industrial Science and Technology(国家工业科学与技术研究院)
AI总结 提出GUDA方法,利用机器遗忘近似反事实模型,通过似然评分规则(ELBO)量化组别影响,实现高效的分组训练数据归因。
Comments Accepted at ICML 2026. Code is available at https://github.com/sony/guda
知识驱动的异质部分观测核状态重建
发表机构 * Supplementary Materials for MAAT Report GitHub Issue(MAAT报告补充材料GitHub问题) ; arXiv:2601.22328v2 [cs.LG] 30 May 2026(arXiv:2601.22328v2 [cs.LG] 2026年5月30日)
AI总结 提出MAAT框架,利用再生核希尔伯特空间和异质观测算子及先验知识,从部分、噪声、异质观测中重建平滑且物理一致的动态系统状态,显著降低轨迹和导数重建误差。
Comments Accepted at ICML 2026 SD4H Workshop
SurrogateSHAP:文本到图像(T2I)模型的无训练贡献者归因
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 针对文本到图像扩散模型中数据贡献者公平估值的高计算成本问题,提出基于预训练模型推理的无重训练框架SurrogateSHAP,利用梯度提升树近似效用函数并解析计算Shapley值,在多个任务上以更低开销超越现有方法。
ADRA-Bank:面向学术深度研究智能体的模块化基准
发表机构 * The Chinese University of Hong Kong, Hong Kong SAR, China(香港中文大学) ; Hong Kong Polytechnic University, Hong Kong SAR, China(香港理工大学) ; National University of Singapore, Singapore, Singapore(新加坡国立大学) ; Huawei Technologies, Hong Kong SAR, China(华为技术有限公司) ; Independent(独立)
AI总结 针对现有基准侧重检索而忽视规划与推理、且缺乏学术领域覆盖的问题,提出ADRA-Bank模块化基准,包含10个学术领域的200个人工标注实例,并设计ADRA-Eval评估范式,通过端到端和隔离评估两种模式测试规划、检索和推理能力,揭示智能体在跨源检索和跨领域一致性上的不足,并指出提升高层规划能力是释放基础LLM推理潜力的关键。
Softplus注意力与重加权提升大语言模型的长度外推能力
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出一种两阶段注意力机制,用Softplus和l1归一化替代Softmax,并引入基于不变熵的动态缩放因子和重加权机制,以提升数值稳定性、缓解注意力下沉现象,并显著改善长度外推性能。
Comments Accepted by ICML 2026
何时预测性逆动力学优于行为克隆?
发表机构 * University of Cambridge(剑桥大学) ; Universitygrow
AI总结 本文通过理论分析解释了预测性逆动力学模型(PIDM)为何在行为克隆(BC)失败时表现更优,归因于偏差-方差权衡,并实验验证了PIDM在样本效率上的显著优势。
Comments To be published in proceedings of the International Conference on Machine Learning (ICML), 2026
KromHC: 基于Kronecker积残差矩阵的流形约束超连接
发表机构 * University of Technology Sydney(悉尼科技大学)
AI总结 针对超连接中的训练不稳定和参数爆炸问题,提出KromHC方法,利用Kronecker积分解小规模双随机矩阵来参数化残差矩阵,在保证精确双随机性的同时将参数复杂度降至O(n^2C)。
APB-V: 通过序列并行感知的近似注意力加速长视频理解
发表机构 * NLP Group, DCST, IAI, BNRIST, Tsinghua University, Beijing, China(清华大学北京校区自然语言处理组、国防科技大学、人工智能研究院、北京理工大学、清华大学) ; Department of CS&T, Central South University, Changsha, China(中南大学计算机与技术系,长沙,中国) ; BUPT, Beijing, China(北京邮电大学,北京,中国) ; Pattern Recognition Center, WeChat AI, Tencent Inc.(腾讯公司微信人工智能研究院)
AI总结 提出APB-V,一种序列并行框架,通过分布式近似注意力在多GPU上加速长视频推理,显著提升速度且不损失性能。
Comments ACL 2026 main
拔掉看似有知觉的机器的插头是理性选择——一种形而上学视角
发表机构 * Erik J. Bekkers ; Anna Ciaunica
AI总结 本文通过引入生物唯心主义框架,批判计算功能主义,论证人工智能只是功能模仿而非有意识主体,从而解决拔掉有情感AI的插头是否道德的悖论。
Comments Accepted at ICML in the position paper track
结构化语义信息有助于为上下文学习检索更好的示例,应用于少样本关系抽取
发表机构 * University of Arizona(亚利桑那大学)
AI总结 提出基于句法-语义结构相似性的示例选择策略,结合大语言模型生成示例,构建混合系统提升少样本关系抽取性能。
ASKD-Whisper: 自适应自知识蒸馏用于高效低延迟自动语音识别
发表机构 * OKESTRO Co., Ltd(OKESTRO公司) ; Sejong University(世宗大学)
AI总结 提出自适应自知识蒸馏(ASKD)动态课程框架,通过逐步减少对教师模型的依赖并引入自知识蒸馏阶段,在压缩Whisper模型时实现5倍推理加速和1.07%词错误率降低。
Comments Title and content have been updated
基于视觉线索检测手语翻译中的幻觉:是依据视觉信息还是猜测?
发表机构 * German Research Center for Artificial Intelligence (DFKI GmbH)(德国人工智能研究中心(DFKI GmbH)) ; Saarland Informatics Campus(萨尔兰州信息学校园) ; Barcelona Supercomputing Center (BSC-CNS)(巴塞罗那超级计算中心(BSC-CNS))
AI总结 针对手语翻译中模型依赖语言先验而非视觉输入导致幻觉的问题,提出一种基于特征敏感性和反事实信号的令牌级可靠性度量,用于量化视觉信息利用程度,并在两个基准上验证其预测幻觉率、跨数据集泛化及与文本信号结合提升风险评估的效果。
Comments Published at ICLR2026 Code available at \url{https://github.com/yhamidullah/hallucination-slt}
用于高效时间序列预测的字节对编码
发表机构 * GitHub ; arXiv
AI总结 提出基于频繁模式的字节对编码方法,通过自适应压缩时间序列为令牌,显著提升预测性能与效率。
Comments 32 pages in total, 22 figures
多目标强化学习用于高速公路卡车战术决策
发表机构 * Department of Computer Science and Engineering, Chalmers University of Technology and University of Gothenburg(计算机科学与工程系,查尔姆斯理工大学和哥德堡大学) ; Department of Mechanics and Maritime Sciences, Chalmers University of Technology(机械与海洋科学系,查尔姆斯理工大学)
AI总结 提出基于近端策略优化的多目标强化学习框架,学习一组帕累托最优策略以平衡安全性、能源效率和时间效率,实现无需重新训练的灵活决策。
超越刚性:非刚性视频编辑基准测试
发表机构 * Harbin Institute of Technology, Shenzhen, China(哈尔滨工业大学(深圳))
AI总结 提出NRVBench诊断基准,通过物理感知评估框架揭示传统指标在非刚性视频编辑中的不足,并引入VM-Edit基线分析稳定性-可塑性权衡。
群体分布鲁棒优化神经元的鲁棒学习
发表机构 * University of Wisconsin-Madison(威斯康星大学麦迪逊分校) ; Microsoft Research, Cambridge(微软研究院,剑桥)
AI总结 针对任意标签噪声和群体级分布偏移,提出一种计算高效的原对偶算法,学习一个单神经元,使其在最小化最坏情况群体加权损失时达到常数因子竞争比。