Fair Decisions from Calibrated Scores: Achieving Optimal Classification While Satisfying Sufficiency
基于校准分数的公平决策:在满足充分性的同时实现最优分类
AI总结 本文针对充分性公平约束下的二元分类问题,提出了一种基于分组校准分数的后处理算法,能够实现最优随机分类,并给出了可行正预测值与错误遗漏率对的几何刻画。
Comments Accepted to ICML 2026
基于校准分数的公平决策:在满足充分性的同时实现最优分类
AI总结 本文针对充分性公平约束下的二元分类问题,提出了一种基于分组校准分数的后处理算法,能够实现最优随机分类,并给出了可行正预测值与错误遗漏率对的几何刻画。
Comments Accepted to ICML 2026
PAC-Bayesian 强化学习训练可泛化策略
AI总结 提出一种新的 PAC-Bayesian 泛化界,通过链的混合时间显式考虑数据中的马尔可夫依赖性,并基于此设计 PB-SAC 算法以优化该界指导探索,在连续控制任务中提供有意义的置信度证书且保持竞争性能。
Comments Accepted to the 43rd International Conference on Machine Learning (ICML 2026). Camera-ready version
无参数动态遗憾:时变移动成本、延迟反馈和记忆
AI总结 本文提出一种新算法,在具有时变移动成本的在线凸优化中,首次实现了比较器自适应的动态遗憾界,并应用于延迟反馈和时变记忆问题。
Comments 28 pages; v2: ICML 2026
SALAAD: 基于ADMM的稀疏低秩适配用于大语言模型推理
AI总结 提出SALAAD框架,通过增广拉格朗日方法在训练中诱导稀疏低秩结构,实现模型容量灵活控制,降低部署内存且无需重训。
使用Transformer进行上下文无关语言识别
AI总结 本文证明循环Transformer通过O(log N)层和O(N^6)填充符号可识别所有上下文无关语言,并针对无歧义子类将填充需求降至O(N^3)。
超树预测
AI总结 提出超树框架,通过梯度提升树学习目标时间序列模型(如ARIMA或指数平滑)的参数,结合决策树与经典预测模型,并引入混合架构解决高维参数估计的缩放限制。
Comments Gradient Boosted Trees, Hyper Models, Hybrid Models, Time Series Forecasting, Time-Varying Parameters
停止翻转:面向快速可撤销扩散解码的上下文保持验证
AI总结 针对并行扩散解码中因激进并行导致的翻转振荡问题,提出COVER方法,通过KV缓存覆盖和稳定性感知评分实现单次前向传递中的留一验证与稳定草稿,减少不必要修订并加速解码。
我们在追逐幽灵吗?量化不可归因的极化,并将其余归因于标注者群体
AI总结 针对标注者群体间系统性意见差异难以捕捉的问题,提出一种新的极化归因度量方法,能避免固有极化和群体效应抵消,并验证了性别和种族对极化模式的解释力。
Comments 19 pages, 7 tables, 9 figures
理解Grokking:岭回归中可证明的Grokking现象
AI总结 本文在经典岭回归设置中研究grokking现象,证明使用带权重衰减的梯度下降学习过参数化线性回归模型时,存在过拟合、泛化延迟和最终泛化误差任意小的三个阶段,并首次给出泛化延迟(grokking时间)的严格定量界,同时通过实验表明该界也适用于非线性神经网络。
表格基础模型的端到端压缩
AI总结 提出TACO,一种端到端表格压缩模型,在潜在空间压缩训练数据,以解决表格Transformer在推理时间和内存上的二次复杂度问题,在TabArena基准上实现高达94倍加速和97%内存节省,且性能无明显下降。
Comments Accepted as Spotlight at ICML 2026
应用于偏微分方程的扩散模型的软约束去噪器
AI总结 提出在扩散模型的去噪器中引入基于偏微分方程的软归纳偏置,以在提高约束遵从性的同时保持对模型错误指定的适应性。
Comments 22 pages including appendix, 8 figures including appendix, preprint
强化学习智能体的理性度量与理论
AI总结 本文提出一套理性度量及其理论,用于评估强化学习智能体在部署中的行为理性,并分解理性风险差距为环境变化和算法泛化能力两部分。
RETENTION: 基于内容可寻址存储器的资源高效树集成模型加速
AI总结 提出RETENTION框架,通过迭代剪枝算法和树映射方案,显著减少内容可寻址存储器容量需求,实现资源高效的树集成模型加速。
Comments Under review by IEEE Transactions on Computer-Aided Design of Integrated Circuits & Systems
监督学习作为有损压缩:通过有限块长分析刻画泛化与样本复杂度
AI总结 本文通过将学习问题置于有损压缩框架中并应用有限块长分析,从信息论角度推导了固定随机学习算法及其最优采样策略的样本复杂度和泛化误差下界,显式分离了过拟合程度与归纳偏置-任务不匹配项。
Comments 40 pages, 1 figure
表格语言模型中的泛化错觉
AI总结 通过系统评估Tabula-8B在165个数据集上的表现,发现其声称的泛化能力主要源于评估伪影(如数据污染和格式熟悉度),而非真正的表格推理。
MultiPriv: 视觉语言模型中个体级隐私推理的基准测试
AI总结 针对视觉语言模型通过层次化链式推理关联多模态数据识别个体的隐私风险,提出首个系统评估个体级隐私推理的基准MultiPriv,包含隐私感知与推理框架、双语多模态数据集和九项挑战任务,对50多个开源和商业模型评估发现60%的模型能以高达80%的准确率进行个体级隐私推理。
序列群组合:深度学习机制的一扇窗口
AI总结 通过序列群组合任务,研究神经网络如何学习结构化运算,揭示群结构、编码统计和序列长度对学习的影响,并证明深度架构能显著改善宽度需求。
Comments Accepted at ICML 2026
基于二次模型近似的方差缩减模型预测路径积分
AI总结 提出一种混合方差缩减MPPI框架,通过将目标函数分解为已知近似模型与残差项,并采用二次近似推导闭式先验,以降低方差并提高样本效率,在多个任务中实现更快收敛和更优性能。
Comments Accepted to Robotics: Science and Systems (RSS) 2026, Sydney, Australia
SERA:软验证的高效仓库智能体
AI总结 提出SERA方法,通过软验证生成(SVG)高效训练编码智能体,使其快速适应私有代码库,在开源模型中取得领先性能且成本极低。
Comments 21 main pages, 6 pages appendix
作为统计估计的机械可解释性:方差分析
AI总结 本文从统计估计角度审视机械可解释性中的电路发现,揭示因果中介分析中单输入得分的固有方差导致电路不稳定,并系统分解方差来源,倡导更严谨的实践。
TIC-VLA:一种用于动态环境中机器人导航的思考控制视觉-语言-动作模型
AI总结 提出TIC-VLA模型,通过显式建模推理延迟并引入延迟语义-控制接口,结合异步训练流程,解决动态环境中视觉-语言-动作模型的推理与实时控制异步问题,在仿真和真实机器人上优于先前模型。
Comments International Conference on Machine Learning (ICML) 2026
LangMap:一个用于分层开放词汇目标导航的人工验证基准
AI总结 针对现有基准在分层语义目标导航中的不足,提出LangMap基准,通过人工验证的语义标注和对比注释协议,支持场景、房间、区域和实例四个层级的目标导航任务,并引入PlaNaVid基线方法。
面向长程可解释性:高效且忠实的多Token归因用于推理大语言模型
AI总结 提出FlashTrace方法,通过跨跨度聚合和递归归因机制,在长上下文推理中实现高效且忠实的多Token归因,速度提升超130倍。
Comments Accepted as an Oral paper at ICML 2026. Code available at https://github.com/wbopan/flashtrace
普通Transformer竟是惊人的链接预测器
AI总结 提出PENCIL,一种仅编码器的普通Transformer,通过采样局部子图的注意力机制替代手工先验,在保持标准Transformer可扩展性的同时,隐式泛化多种启发式方法,实现高效且参数经济的链接预测。
Comments ICML'26
自底向上策略优化:你的语言模型策略内部隐藏着内部策略
AI总结 本文通过分解Transformer残差流中的内部层策略和内部模块策略,提出自底向上策略优化(BuPO)方法,通过早期优化内部层来重建LLM的推理基础,在复杂推理基准上验证了有效性。
Comments Preprint. Our code is available at https://github.com/Trae1ounG/BuPO
Shapley 值的一个奇估计器
AI总结 本文证明 Shapley 值仅依赖于集合函数的奇分量,并基于此提出 OddSHAP 估计器,通过在奇子空间上进行多项式回归实现高效近似,在较大采样预算下达到最先进精度。
Comments Accepted to ICML 2026
深入Kronecker适配器:组件设计至关重要
AI总结 本文通过分析Kronecker适配器的组件维度和数量,提出组件设计的Kronecker适配器(CDKA),并给出参数预算感知的配置指南和训练稳定策略,实验证明其有效性。
高斯头OFL系列:基于客户端全局统计的一次性联邦学习
AI总结 提出高斯头OFL系列方法,通过客户端仅传输每类计数和一二阶矩,服务器利用闭式高斯头、FisherMix和Proto-Hyper三种组件构建模型,实现严格无数据的一次性联邦学习,在强非独立同分布下达到最先进鲁棒性和准确性。
Comments Accepted at the International Conference on Learning Representations (ICLR) 2026 - Final Version
通过项目反应理论诊断LLM作为评判者的可靠性
AI总结 提出基于项目反应理论(IRT)的两阶段诊断框架,通过内在一致性和人类对齐两个维度评估LLM作为评判者的可靠性,并提供可解释的诊断信号。
Comments Accepted ICML 2026
谁背书了它?测量语言模型中跨专业水平的权威偏差
AI总结 研究语言模型在推理任务中是否因背书来源的专业水平而产生系统性偏差,发现模型对高权威来源的错误背书更易受影响,导致准确率下降和错误答案置信度增加,但可通过机制干预减轻偏差。