Stable Audio 3
稳定音频3
AI总结 稳定音频3提出了一种快速的潜在扩散模型家族,用于可变长度音频生成和编辑,通过高效的潜在空间生成和对抗训练提升了生成质量和效率。
Comments Training code: https://github.com/Stability-AI/stable-audio-tools Inference and weights: http://github.com/Stability-AI/stable-audio-3
稳定音频3
AI总结 稳定音频3提出了一种快速的潜在扩散模型家族,用于可变长度音频生成和编辑,通过高效的潜在空间生成和对抗训练提升了生成质量和效率。
Comments Training code: https://github.com/Stability-AI/stable-audio-tools Inference and weights: http://github.com/Stability-AI/stable-audio-3
通过潜在光学感知实现低延迟的注视跟踪
AI总结 本文提出了一种实时注视跟踪系统,通过全被动光学编码器直接获取任务相关的潜在特征,利用微透镜阵列和共设计的二进制铬掩膜进行空间复用光学编码,产生足够估计注视方向的紧凑测量集,从而减少计算开销并提高延迟性能。
检索增强生成的预测预取
AI总结 本文提出了一种先进的异步检索框架,通过预测检索触发时机和所需信息,以减少延迟并提高生成效率,同时保持回答质量。
Comments Accepted by Forty-third International Conference on Machine Learning ICML 2026
SAFE-SVD:面向物理基础模型的敏感性感知保真度压缩SVD
AI总结 本文提出了一种新的压缩物理基础模型的方法,通过在压缩过程中显式建模损失感知的层敏感性,以保持准确性和物理保真度,实验表明在多个模型和数据集上实现了显著的压缩增益。
学习平衡:用于基于参考的遥感图像超分辨率的解耦孪生扩散变换器
AI总结 本文提出DS-DiT解耦孪生扩散变换器,通过在注意力层面解耦低分辨率和参考信息交互,解决参考基于超分辨率中参考信息依赖过重和利用不足的问题,提升生成质量。
AutoVecCoder: 教授大语言模型生成显式向量化代码
AI总结 本文提出AutoVecCoder框架,通过VecPrompt和VecRL组件,使大语言模型能够自动进行显式向量化,从而在SimdBench的SSE和AVX子集上达到最先进的性能,超越传统自动向量化的方法。
释放大语言模型于贝叶斯优化:用于科学发现的偏好引导框架
AI总结 本文提出了一种基于大语言模型的贝叶斯优化框架LGBO,通过在优化循环中持续整合大语言模型的语义推理,提高了科学发现中的优化效率和收敛速度。
Comments Published as a conference paper at ICLR 2026. 10 pages main paper, 21 pages appendix, 26 figures
生成导航器:一种基于状态的图像生成代理框架
AI总结 本文提出了一种基于状态的图像生成代理框架Generation Navigator,通过将图像生成问题重新表述为状态条件下的动作生成问题,解决了传统方法中在强化学习训练中因信用分配问题导致的不足,通过PRE-GRPO算法提升了生成质量与推理准确性。
函数图变换器在函数空间之间近似算子
AI总结 本文研究了通过变换器近似函数空间之间非线性算子的问题,提出了一种基于图度量的函数图变换器,能够以单值函数形式输出,并证明其在广义非线性算子近似中的通用性。
弥合对SFT在LLM中效果的矛盾观点:一种交互视角
AI总结 本文从交互视角探讨了SFT在LLM中的效果不一致问题,发现SFT主要去除噪声交互但难以获得可靠新交互,且去噪阶段短暂,继续微调易引入过拟合交互。
通过基于一致性的强化学习增强大语言模型的代码推理能力
AI总结 本文提出CodeThinker框架,通过一致性驱动的强化学习方法提升大语言模型的代码推理能力,实验表明其在多个基准测试中表现优异,显著提升了代码生成和数学推理任务的准确性。
Comments Under review
一种更像单词的图像标记化方法用于大规模语言模型
AI总结 本文提出了一种解耦视觉标记化方法(DiVT),通过将图像块嵌入聚类为语义单元,使每个标记对应于独特的视觉概念,从而提升多模态模型的性能和效率。
机器零件计数
AI总结 本文研究了机器零件计数问题,提出了一种基于FamNet的改进方法,通过引入额外损失项进行训练,并在给定数据集上评估了传统图像处理流程、实例分割和密度图估计等基线方法的性能,最终实现了1.96的MAE指标。
SkyNative: 一种面向遥感视觉证据推理的原生多模态框架
AI总结 本文提出SkyNative,一种原生多模态框架,通过去除预训练视觉骨干,直接在语言模型token空间中表示图像为原始patch tokens,以提升遥感图像的细粒度空间推理能力。
通过镜像反学习和噪声一致偏斜训练数据归因
AI总结 本文提出了一种基于镜像反学习和噪声一致偏斜的方法,用于提升扩散模型的训练数据归因的可靠性与鲁棒性,通过在不同数据集上显著优于现有方法,展示了其在生成实例间影响实例重叠和扩散损失比较任务中的潜力。
Comments 21 pages, 5 figures, 9 tables (includes appendix)
通用对抗触发器
AI总结 本文提出了一种结合词性过滤和困惑度损失函数的新技术,生成更接近自然短语的合理触发器,以提高对抗攻击的检测难度并促进鲁棒模型的发展。
AtlasVA: 无教师视觉技能记忆用于无需教师的VLM代理
AI总结 本研究提出AtlasVA,一种无需教师的视觉技能记忆框架,通过空间热图、视觉示例和符号文本技能三层结构,统一感知、记忆和优化,实现在无需外部LLM监督下的强化学习性能提升。
在扩散大型语言模型中进行提示压缩:在LLDA上评估LLMLingua-2
AI总结 本文研究了提示压缩在扩散大型语言模型中的有效性,通过在LLDA上评估LLMLingua-2,发现提示压缩在数学推理任务中效果不佳,而摘要任务相对稳健,表明为扩散模型设计的提示压缩方法并不适用于所有场景。
InfoFlow: 多层Transformer分析的框架
AI总结 该研究通过分析多层Transformer的近似能力,揭示了其与单层Transformer的根本差异,并提出InfoFlow框架以提升多层Transformer的近似效率。
Comments 36 pages
迁移学习用于定制化的赛车环境
AI总结 本文研究了迁移学习在深度强化学习中的应用,旨在通过在单一赛道上训练智能体,实现零样本迁移或进一步微调以在其他定制化赛车环境中获得更快的圈速,并比较了基于模型和非基于模型方法的性能。
基于学习的自适应控制用于变形组织手术机器人暴露任务
AI总结 本文提出了一种基于学习的自适应控制框架,用于解决手术中因覆盖组织的不规则几何形状、非线性生物力学特性及有限视野导致的自动组织牵开挑战,通过在线优化控制输入和深度变形估计模型实现零样本适应。
Comments Accepted to Robotics: Science and Systems (RSS) 2026. 12 pages, 9 figures
通过单个对齐使领域转移变得可识别
AI总结 本文提出了一种新的方法,通过结构稀疏性条件和单个配对锚样本实现领域转移的可识别性,减少了对监督信号的依赖,并提出了高效的雅可比稀疏性正则化器以支持高维学习。
SurgLQA: 可扩展的长时程外科视频问答
AI总结 本文提出SurgLQA框架,通过融合时间一致性巩固和时间接地多策略扩展方法,解决长时程外科视频问答中的长程动态建模问题,提升手术流程中的推理能力。
Comments MICCAI 2026 Early Accept
WorldArena 2.0: 扩展模态、功能和平台的具身世界模型基准测试
AI总结 本文提出WorldArena 2.0,扩展了具身世界模型的评估,涵盖模态、功能和平台三个维度,提供全面的测试平台以评估具身世界模型的进展。
行星探测中自然语言到一阶逻辑翻译的试点基准
AI总结 本文提出一个试点基准,用于在行星探测领域将自然语言转换为一阶逻辑,通过NASA PDS的实测文档构建数据集,并手动标注FOL表示,以支持语言理解和形式推理的交叉研究。
一个模型翻译它们所有:面向异构协作感知的通用任意到任意翻译
AI总结 本文提出UniTrans,一种通用任意到任意特征模态翻译模型,通过预训练一组翻译专家参数并学习其组合系数来实现零样本翻译,从而在OPV2V-H和DAIR-V2X数据集上实现了优于现有方法的性能。
Comments 19 pages, accepted at the 43rd International Conference on Machine Learning (ICML 2026)
超越欧几里得原型:基于谱分解和测地匹配的少样本医学图像分割
AI总结 本文提出Spectral-Geodesic Prototype Network (SGP-Net),通过谱原型银行和测地匹配器解决少样本医学图像分割中的原型纠缠和拓扑盲匹配问题,实现对形状、纹理和边界线索的解耦编码。
代理分块与贝叶斯去分块:人工智能生成的模糊认知图的模型:特克西德斯陷阱模型
AI总结 本文提出了一种基于代理分块和贝叶斯去分块的方法,用于生成和更新人工智能生成的模糊认知图,通过在文本中生成重叠的文本分块,并利用稀疏因果分块矩阵进行混合,从而构建出代表性的循环模糊认知图知识图谱,以预测特克西德斯陷阱模型中的冲突结果。
Comments 15 pages, 6 figures
LAST-RAG:文献锚定的随机轨迹检索增强生成用于知识条件退化模型选择
AI总结 本文提出LAST-RAG方法,通过结合观测健康指标轨迹和领域特定上下文,利用理论和机械证据从本地证据库中检索,以改进退化模型选择,将模型选择从纯统计拟合问题转变为结合观测数据和领域知识的决策问题。
DuIVRS-2: 基于大语言模型的大型兴趣点属性采集交互语音响应系统
AI总结 本文提出DuIVRS-2,一种基于大语言模型的端到端框架,用于大规模兴趣点属性采集,通过有限状态机引导的数据增强策略、选择生成方案与思维链机制,提高了输出稳定性并有效消除幻觉,最终在生产环境中实现了83.9%的任务成功率。
Comments Accepted to ACL 2026 Industry Track. 14 pages, including appendix