Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning
平衡推理器:学习吸引子使推理可扩展
发表机构 * CMU(卡内基梅隆大学)
AI总结 本文提出平衡推理器(EqR),通过学习任务条件的吸引子来实现可扩展推理,该方法在测试时无需外部验证器或任务特定先验,通过增加深度和广度实现推理能力的提升,从而在Sudoku-Extreme上将准确率从2.6%提升至超过99%。
Comments ICML 2026
平衡推理器:学习吸引子使推理可扩展
发表机构 * CMU(卡内基梅隆大学)
AI总结 本文提出平衡推理器(EqR),通过学习任务条件的吸引子来实现可扩展推理,该方法在测试时无需外部验证器或任务特定先验,通过增加深度和广度实现推理能力的提升,从而在Sudoku-Extreme上将准确率从2.6%提升至超过99%。
Comments ICML 2026
量化超参数迁移与嵌入层学习率的重要性
发表机构 * Department of Physics, University of Maryland, College Park(马里兰大学物理系) ; Department of Computer Science, University of Maryland, College Park(马里兰大学计算机科学系) ; Joint Quantum Institute, University of Maryland, College Park(马里兰大学联合量子研究所) ; Meta Superintelligence Labs, Fundamental AI Research(Meta超智能实验室,基础人工智能研究)
AI总结 本文研究了超参数迁移的量化方法,通过三种指标评估超参数迁移的质量,发现Maximal Update(μP)参数化在训练中通过最大化嵌入层学习率提升了超参数迁移质量,而权重衰减虽改善了缩放定律拟合,但会降低外推鲁棒性。
Comments 10+28 pages, 5+17 figures
EvoStruct: 通过蛋白质语言模型适应桥接进化和结构先验以进行抗体CDR设计
发表机构 * Georgia State University, Atlanta, USA(佐治亚州立大学,亚特兰大,美国) ; Georgia Institute of Technology, Atlanta, USA(佐治亚理工学院,亚特兰大,美国)
AI总结 本文提出EvoStruct方法,通过蛋白质语言模型适应桥接进化和结构先验,解决抗体CDR设计中的词汇崩溃问题,提升了氨基酸恢复率和降低困惑度。
通过固定点迭代实现离散扩散图像生成器的一步蒸馏
发表机构 * Peking University(北京大学)
AI总结 本文提出了一种名为Fixed-Point Distillation (FPD)的端到端框架,通过部分破坏学生模型的一步草稿并用单个教师步骤进行细化,构建局部修正目标。该方法将离散标记提升为连续特征,并应用多带宽漂移损失,迭代累积这些修正。通过直通估计器将连续梯度回传到学生日志it,同时可选地引入无条件对抗目标以增强感知现实。在类别和文本条件生成上的评估验证了该框架的有效性,FPD在单步推理中实现了竞争性的视觉保真度和结构对齐,缩小了与多步教师之间的差距,同时优于现有离散蒸馏基线。
DeepWeb-Bench: 一个要求大规模跨源证据和长周期推导的深度研究基准
发表机构 * Peking University(北京大学)
AI总结 本文提出DeepWeb-Bench基准,通过要求大规模证据收集、跨源验证和长周期推导,评估前沿语言模型在深度研究任务中的能力,揭示检索并非瓶颈,强弱模型失败方式不同,且模型在不同领域表现出专业性。
Comments Work in Progress. 27 pages, 10 figures, 4 tables. Project page: https://sixiongxie1001-dot.github.io/deep-research-benchmark2.0
AiraXiv:一个面向人类和AI科学家的AI驱动的开放获取平台
发表机构 * Westlake University(西湖大学) ; Zhejiang University(浙江大学) ; Shanghai Innovation Institution(上海创新研究院) ; Zhongguancun Academy(中关村学院)
AI总结 本文提出AiraXiv平台,通过AI驱动的开放预印本、AI增强的分析与评审以及读者反馈,解决传统学术出版系统在AI时代面临的研究产出增长和可扩展性挑战。
WikiVQABench: 一个基于维基百科和维基数据的知识引导视觉问答基准
发表机构 * IBM Research San Jose(IBM桑 Jose研究实验室)
AI总结 本文提出WikiVQABench,一个结合维基百科图片、文章描述和维基数据结构化知识的知识引导视觉问答基准,通过大规模语言模型生成候选多选题,并由人工审核确保事实正确性和视觉-文本一致性,评估多种视觉-语言模型在知识密集型推理中的性能。
基于潜在动态的全身动画 avatar
发表机构 * Simon Fraser University(西蒙弗雷泽大学) ; Codec Avatars Lab, Meta(Meta编码化身实验室)
AI总结 本文提出了一种基于潜在动态的全身动画 avatar 方法,通过引入 transformer 解码器和动态残差潜在变量,实现了更精确的动态模拟,提高了动画质量。
Comments Supplementary video: https://youtu.be/xjnr3YM0yIE
关系预测任务是否需要固定模式图?关系深度学习中的全分辨率图结构学习
发表机构 * SKLCCSE, School of Computer Science and Engineering, Beihang University, Beijing, China(信息与电子学院,北京航空航天大学,北京,中国) ; Key Lab of Education Blockchain and Intelligent Technology, Ministry of Education, Guangxi Normal University, Guilin, China(教育区块链与智能技术重点实验室,教育部,广西师范大学,桂林,中国)
AI总结 本文提出了一种全分辨率且可优化的图结构学习框架FROG,用于关系深度学习,将关系结构学习建模为可学习的表角色建模问题,允许表作为节点和边在信息传递中发挥作用,并设计了基于角色的信息传递机制,以捕捉关系语义,同时通过功能依赖约束确保语义一致性,实验表明该方法在多个下游任务中优于现有方法。
Comments Accepted by the Forty-third International Conference on Machine Learning (ICML2026)
你只需要最小的RLVR训练:通过秩-1轨迹来扩展LLMs
发表机构 * University of Virginia(弗吉尼亚大学) ; Washington University in St. Louis(华盛顿大学圣路易斯分校)
AI总结 本文研究了通过秩-1轨迹扩展LLMs的方法,发现RLVR参数轨迹具有极低的秩和高度可预测性,并提出RELEX方法,通过简单的线性回归在无需训练模型的情况下实现高效的超量扩展。
Comments preprint. Code: https://github.com/weizhepei/RELEX
DelTA: 一种用于可验证奖励强化学习的判别性token信用分配
发表机构 * Gaoling School of Artificial Intelligence, Renmin University of China(中国人民大学人工智能学院 Gallagher 学院) ; Ant International(蚂蚁国际)
AI总结 本文提出DelTA方法,通过估计token系数来增强特定侧的token梯度方向,从而改进可验证奖励强化学习中的token概率更新,提升了模型在数学基准测试中的性能。
StreamGVE: 无需训练的视频编辑通过少步流式视频生成
发表机构 * The University of British Columbia(不列颠哥伦比亚大学) ; ETH Zürich(苏黎世联邦理工学院) ; McMaster University(麦马斯特大学) ; Vector Institute(向量研究所) ; Canada CIFAR AI Chair(加拿大 CIFAR 人工智能主席)
AI总结 本文提出StreamGVE,一种基于噪声到数据视角的视频编辑方法,通过引入双分支快速采样和自注意力桥接以及交叉注意力接地/增强,实现了高效的视频编辑,能够在少步设置中优于现有方法。
Comments Project Page: https://dsl-lab.github.io/StreamGVE/
利用大语言模型进行语法适应:关于元模型-语法共演的研究
发表机构 * Universität Rostock(罗斯托克大学) ; Chalmers University of Technology and University of Gothenburg(皇家理工学院和哥德堡大学) ; Radboud University(拉德堡德大学)
AI总结 本文研究了如何利用大语言模型自动适应语法,通过学习先前版本的语法适应来实现自动适应,同时探讨了在复杂语法场景下的优势与局限性。
Mem-$π$: 通过学习何时以及生成什么来实现自适应记忆
发表机构 * ServiceNow AI Research(ServiceNow AI研究院) ; Mila -- Quebec AI Institute(魁北克AI研究所) ; McGill University(麦吉尔大学) ; CIFAR AI Chair(CIFAR人工智能主席)
AI总结 Mem-$π$ 通过学习在何时以及生成什么来实现自适应记忆,利用专门的语言或视觉-语言模型生成上下文特定的指导,从而在多种代理任务中优于基于检索和先前RL优化的记忆基线。
Comments Work in progress
一种基于激活函数的加权最小二乘GNSS定位机器学习框架
发表机构 * Department of Electrical and Computer Engineering, McGill University(麦吉尔大学电气与计算机工程系)
AI总结 本文提出了一种基于激活函数的加权最小二乘GNSS定位机器学习框架,通过使用信号质量指标作为训练特征,利用集成学习算法识别低质量信号,并通过激活函数将机器学习预测的分数转换为适当的权重以提高定位精度。
HITL-D: 有人参与的扩散辅助共享控制
发表机构 * Department of Computing Science, University of Alberta(阿尔伯塔大学计算机科学系)
AI总结 本文提出HITL-D框架,通过结合扩散策略和人类控制,提升多步骤、插入和精细操作任务的用户表现,减少 joystick 控制轴数量,降低认知负荷,并在多任务用户研究中显著提高任务完成速度和用户满意度。
Comments Accepted for presentation at ICRA 2026
注意仿真到现实的差距并像科学家一样思考
发表机构 * Amazon SCOT(亚马逊SCOT团队) ; Yale University(耶鲁大学) ; Duke University(杜克大学)
AI总结 本文研究了在仿真和现实之间如何补充实验以减少价值差距,提出了Fisher-SEP方法,并通过两个案例研究展示了其应用。
通过可解释的评分标准嵌入缓解标签偏差
发表机构 * Harvard Kennedy School(哈佛肯尼迪学校) ; Harvard University(哈佛大学)
AI总结 本文提出通过可解释的评分标准嵌入来缓解标签偏差问题,通过理论和实验证明该方法在合理条件下能减少标签偏差并提升群体质量评估。
ProtoPathway: 为多模态癌症生存预测设计的生物结构化原型-路径融合
发表机构 * Queen Mary University of London(伦敦女王学院) ; Imperial College London(帝国理工学院伦敦分校)
AI总结 本文提出ProtoPathway框架,通过统一全切片成像和转录组学,利用编码器生成生物基础的表示,以提升癌症生存预测的生物可解释性和计算效率。
Comments Currently under peer review
TempGlitch: 评估视觉-语言模型在游戏视频中检测时间故障的能力
发表机构 * University of Alberta(阿尔伯塔大学) ; Sony Interactive Entertainment(索尼互动娱乐)
AI总结 本文提出TempGlitch基准测试,用于评估视觉-语言模型在游戏视频中检测时间故障的能力,发现现有模型在处理时间故障时表现不佳,且更密集的帧采样和更大的模型尺寸并不能有效解决这些问题。
torchtune: 一种基于PyTorch的后训练库
发表机构 * PyTorch ; Meta ; Stanford(斯坦福) ; Meta-FAIR
AI总结 本文介绍了torchtune,一种基于PyTorch的后训练库,旨在简化大语言模型的后训练生命周期,提供高效的微调、实验和部署流程,通过模块化和可扩展性提升性能和灵活性。
Comments 14 pages
ReMATF: 基于循环的运动自适应多尺度湍流抑制用于动态场景
发表机构 * Visual Information Laboratory, School of Computer Science, University of Bristol(布里斯托尔大学计算机科学学院视觉信息实验室)
AI总结 本文提出ReMATF,一种轻量级循环框架,通过仅使用两帧恢复视频,同时保持空间细节和时间稳定性,有效抑制湍流并提升视频质量。
高斯sheaf神经网络
发表机构 * Getulio Vargas Foundation(盖图利奥·瓦格斯基金会) ; MBZUAI(穆斯林人工智能研究所)
AI总结 本文提出高斯sheaf神经网络(GSNNs),通过将高斯分布的均值和协方差矩阵作为节点特征,解决传统GNN在处理概率分布特征时的不足,提出新的拉普拉斯算子并进行实验验证。
通过辅助条件分支进行乐器文生成
发表机构 * Department of Artificial Intelligence(人工智能系) ; Yonsei University(延世大学) ; MAAP ; KRAFTON ; Seoul, Republic of Korea(韩国首尔)
AI总结 本文研究了在无外部预训练的情况下,通过控制数据和预训练来隔离有效设计选择的问题,发现去除辅助分支的模型在多个评估指标上表现较差,而增加DiT深度只能小幅恢复性能,表明辅助分支可能在训练时起到架构锚定作用。
Comments ICME 2026 Grand Challenge on Academic Text-to-Music Generation
roto 2.0:机器人触觉奥林匹克
发表机构 * University of Edinburgh(爱丁堡大学)
AI总结 本文提出roto 2.0,一个基于触觉的强化学习基准,旨在通过四种不同的机器人形态(16-DOF到24-DOF)标准化触觉强化学习,专注于端到端的'盲'操作,仅使用本体感觉和触觉传感,不使用状态信息或蒸馏。研究展示了显著的性能提升,盲控代理在10秒内完成13次保定球旋转,比当前最先进的速度快了一个数量级。通过开源环境和经过充分调优的基线,降低了进入门槛,使研究人员能够优先考虑基本算法挑战而非繁琐的强化学习调优。
Comments Accepted to 7th ViTac Workshop, ICRA 2026
多项式时间鲁棒多类线性分类下的高斯边缘分布
发表机构 * University of Wisconsin-Madison(威斯康星大学麦迪逊分校)
AI总结 研究在高斯分布下多类线性分类器的无偏学习任务,提出了一种多项式时间鲁棒学习算法,解决了多类分类中误差保证的问题,特别是在k≥3的情况下。
PALS: 为混合专家模型的功率感知LLM服务
发表机构 * Boston University(波士顿大学) ; Harvard University School of Engineering(哈佛大学工程与应用科学学院) ; Harvard University(哈佛大学)
AI总结 本文提出PALS,一种功率感知的LLM服务运行时,通过将GPU功率上限作为可控制的参数与软件参数如批大小联合优化,提升能效并减少在功率限制下的服务质量违规。
Comments 13 pages, 10 figures
自适应信号复苏:用于稀疏视觉网络的通道级后剪枝修复
发表机构 * Department of Mathematical and Statistical Sciences, Marquette University(马歇尔大学数学与统计科学系) ; The University of Texas at Austin(德克萨斯大学奥斯汀分校) ; Cornell Ann S. Bowers College of Computing and Information Science, Cornell University(康奈尔大学安·S·博尔斯计算与信息科学学院)
AI总结 本文提出了一种无需训练的通道级修复方法ASR,用于解决高稀疏度下因后剪枝修复粒度不匹配导致的精度下降问题,通过估计每个输出通道的方差匹配修正并结合数据驱动的收缩规则,提升稀疏视觉网络的性能。
HiRes: 反应条件推荐的可检查先例记忆
发表机构 * Mstack AI
AI总结 HiRes通过结合图编码器、变换感知交叉注意力、多流反应融合和k-NN检索层,实现了反应条件推荐的高准确率和可解释性,其在催化剂、溶剂和试剂的Top-1准确率分别达到0.929、0.534和0.530,优于现有方法。
FedCritic: 一种基于联邦批评学习的多小区OFDMA资源分配方法用于6G
发表机构 * School of Electrical Engineering and Computer Science, University of Ottawa(奥克塔维亚大学电气工程与计算机科学学院)
AI总结 本文研究了6G超密集网络中因频率重用加剧的小区间干扰问题,提出FedCritic框架,通过轻量级基于干扰图的参数平均实现去中心化执行,从而在不依赖中央协调器的情况下稳定估计价值函数,提升信号干扰噪声比(SINR)和小区边缘速率,提高网络总和速率和公平性。
Comments Submitted to IEEE for possible publication