CIG: Exploration via Conditional Information Gain
CIG: 通过条件信息增益进行探索
AI总结 该研究提出了一种条件信息增益(CIG)奖励机制,用于强化学习中的探索问题,通过可追溯的log-determinant目标和Ensemble Disagreement核来生成因果每步奖励,从而在高维状态空间中实现有效的探索。
Comments 28 pages, 10 figures, 3 tables
CIG: 通过条件信息增益进行探索
AI总结 该研究提出了一种条件信息增益(CIG)奖励机制,用于强化学习中的探索问题,通过可追溯的log-determinant目标和Ensemble Disagreement核来生成因果每步奖励,从而在高维状态空间中实现有效的探索。
Comments 28 pages, 10 figures, 3 tables
Terminal-World: 通过智能体技能扩展终端智能体环境
AI总结 本文提出Terminal-World,一种自动化流程,利用智能体技能作为核心合成原语,共同编码任务目标、执行时机和方法,从而生成任务指令、环境和教师轨迹。通过构建5,723个训练环境,训练出Terminal-World-8B/14B/32B模型,在六个基准测试中均优于终端智能体基线,其中Terminal-World-32B在Terminal-Bench 2.0上以仅1.2%的训练数据超越Nemotron-Terminal-32B。
Comments Work in Progress
为通用智能体构建的治理机制
AI总结 本文提出了一种模块化的政策-as-code层,用于在不微调模型的情况下,通过与通用大语言模型智能体结合,实现可预测、可审计且符合合规要求的行为,在复合工作流中无需为每个领域重新构建智能体。
CAdam: 3D高斯密度细化中的上下文自适应矩估计
AI总结 本文提出CAdam方法,通过将密度细化问题转化为统计信号验证问题,解决生成式蒸馏中密度估计的瓶颈,从而在保持视觉质量的同时显著减少高斯点数量。
Comments Accepted to SIGGRAPH 2026 Conference Papers. 12 pages, 8 figures
具有运行时认证的误差受限量化注意
AI总结 本文提出了一种分层的KV缓存架构,通过在GPU内存中存储INT8键和INT4值,同时在系统RAM中保留FP16原始数据,实现了运行时认证的注意机制,通过误差分解得到每头每步的误差界,以驱动自适应精度选择和多阶段回退流程,确保在需要时能恢复到精确的密集注意输出。
Comments 32 pages, 1 figure
LOSCAR-SGD:局部SGD与通信-计算重叠及延迟校正的稀疏模型平均
AI总结 本文研究了在异构计算环境下结合通信压缩、局部训练和通信-计算重叠的局部SGD方法,提出LOSCAR-SGD通过仅通信稀疏模型坐标并持续优化来提高分布式学习效率,首次给出了这种组合方法的理论保证。
多步似然比校正用于可验证奖励的强化学习
AI总结 本文提出了一种多步前向轨迹政策优化(NFPO)算法,通过引入N步前向轨迹来改进PPO的近似目标,从而在可验证奖励的强化学习中实现更精确的策略改进。
DISC: 通过策略生成解耦指令与状态条件控制
AI总结 DISC通过策略生成解耦指令与状态条件控制,解决了任务状态耦合导致的观察泄漏问题,并在多个基准测试中表现出色,证明了语言生成的策略参数驱动行为。
SEABAD:一种用于被动声学监测的热带鸟类活动检测数据集
AI总结 本文提出SEABAD数据集,用于解决热带地区鸟类活动检测中物种丰富和声学复杂性带来的挑战,通过平衡的鸟类存在和不存在样本以及标准化音频格式,支持高效的声学监测和低功耗推理。
Comments 14 pages, 4 figures
SmoCap: 一种统一的尺度-姿态规范化方法,结合代理映射信任区域QP
AI总结 SmoCap通过在稀疏控制子空间中联合估计形态和姿态,解决阶段式工作流导致的形态-姿态补偿问题,实现了统一的尺度-姿态规范化框架,提高了运动规范化的实用性。
Comments 11 pages, 6 figures, 4 tables
无需激活的图像识别回骨:在MetaFormer风格视觉模型中的多项式替代方案
AI总结 本文提出无需激活函数的多项式替代方法,用于在MetaFormer风格的视觉模型中实现图像识别,展示了多项式模块在多个数据集上的优越性能。
Comments Accepted to ICML 2026
USV: 向理解用户生成的短视频迈进
AI总结 本文提出了USV数据集,用于高层面的视频语义理解,通过用户生成的短视频进行主题识别和视频-文本检索任务,提出了MMF-Net和VTCL两种有效基线方法。
ArchSIBench: 评估视觉-语言模型的建筑空间智能
AI总结 本文提出ArchSIBench,一个基于建筑学、认知科学和心理学视角的建筑空间智能评估基准,通过17个细粒度子任务和3000个问题-答案对,评估多种VLMs在建筑空间感知、推理、导航、转换和配置方面的性能,发现大多数模型在空间转换和配置推理上仍与有建筑训练的人类评估者存在差距。
Comments 51 pages
DPO与RLHF的条件等价性:隐含假设、失败模式与可证明对齐
AI总结 本文研究了DPO与RLHF的等价性问题,指出其等价性依赖于一个隐含假设,当该假设不成立时,DPO会优化相对优势而非绝对对齐,从而导致路径性收敛。作者提出CPO方法,通过引入约束实现可证明对齐,并通过几何解释揭示DPO的margin ranking机制。
Comments 49 pages
MemGym: 一种长时间跨度的记忆环境用于LLM智能体
AI总结 本文提出MemGym,一种用于评估LLM智能体记忆能力的基准测试环境,通过统一现有智能体 gym 和内部记忆基础管道,提供一个记忆推理接口。MemGym 包含五个评估赛道,涵盖四个智能体领域,能够独立评估记忆性能,排除推理、检索和工具使用能力的干扰。
HyDAR-Pano3D: 一种用于全景到3D重建的混合解耦解剖恢复框架
AI总结 本文提出HyDAR-Pano3D框架,通过解耦解剖恢复问题来解决全景影像到CBCT重建中的模糊问题,实验表明其在PSNR、SSIM和Dice评分上均优于基线方法,能够有效恢复临床相关的解剖结构。
Comments 10 pages
马尔可夫电路追踪用于Transformer状态动态
AI总结 本研究提出马尔可夫电路追踪(MCT)方法,用于评估Transformer激活是否包含粗粒度的状态转移结构,通过合成的隐马尔可夫模型任务验证了残差激活中包含部分贝叶斯信念信息,并展示了状态抽象在不同状态下恢复粗粒度转移信号的效果。
TERDNet: 用于场景变化检测的Transformer编码器-递归解码器网络
AI总结 本文提出TERDNet,一种用于场景变化检测的Transformer编码器-递归解码器网络,通过多级特征提取、特征融合模块、递归解码器和上采样模块,提升了场景变化检测的精度和鲁棒性。
Comments 8 pages, 4 figures. Accepted to the IEEE International Conference on Robotics and Automation (ICRA) 2026
VSCD: 基于视频的非对齐场景变化检测
AI总结 本研究提出VSCD,一种用于非对齐场景中视频基变化检测的方法,通过查询帧生成像素级变化掩码,利用多参考模型和局部补丁对应来对齐参考特征,并融合候选变化特征以生成高分辨率掩码,实现了优于现有图像和视频基基线的性能。
Comments 18 pages, 7 figures. Accepted to the 43rd International Conference on Machine Learning (ICML 2026)
AIR: 一种用于自监督前馈2D高斯点散射的 amortized 图像重建框架
AI总结 本文提出了一种自监督前馈框架AIR,通过将迭代高斯拟合 amortized 到单次网络传递中,消除了每张图像测试时的优化需求。该框架采用分阶段残差架构,逐步从重建残差中预测额外的高斯原始体,并结合显式的阶段控制机制,仅在欠重建区域激活新的原始体。通过预测-优化-蒸馏训练策略,稳定了多阶段预测,最终实现了更高效的图像重建。
Comments preprint version
OSGNet with MLLM Reranking @ Ego4D Episodic Memory Challenge 2026
AI总结 本文提出一种基于多模态大语言模型(MLLM)的重排序框架,用于解决Ego4D事件记忆挑战2026中的自然语言查询和目标步 tracks,通过结合现有定位模型OSGNet的候选片段和MLLM的视频-语言推理能力,提升时间片段的定位精度。
Comments Champion solution for the Natural Language Queries and GoalStep tracks of the Ego4D Challenge at the CVPR EgoVis Workshop 2026
在消费级硬件上实现GraphRAG:对本地LLMs在医疗EHR模式检索中的基准测试
AI总结 本文研究了在消费级硬件上使用本地LLMs进行医疗EHR模式检索的GraphRAG方法,评估了四种不同模型在索引效率、知识图构建、查询延迟、回答质量和幻觉方面的表现,发现模型参数大小和检索模式对结果有显著影响。
Comments 9 pages, 1 figure, 5 tables
PulseCol: 周期性刷新的列稀疏注意力用于加速扩散语言模型
AI总结 本文提出PulseCol,一种周期性刷新的列稀疏注意力方法,通过更细粒度的稀疏化策略提升扩散语言模型的计算效率和加速性能,同时保持模型质量。
Demo-JEPA: 一种用于单次跨体态模仿的联合嵌入预测架构
AI总结 本文提出Demo-JEPA,一种跨体态模仿框架,通过解耦示范意图与体态特定的执行,利用共享预测表示空间将源视觉示范转换为目标兼容的未来潜在轨迹,使目标代理通过规划实现这些子目标,从而在异构体态间实现灵活的模仿。
对LLM注释的注释指南进行细化和重用
AI总结 本文提出了一种系统性的注释指南重用和细化方法,通过迭代审核框架来对LLM注释进行改进,并在生物医学NER任务中验证了指南整合的有效性、推理优化模型的优势以及在最小监督下的审核可行性。
Comments 14 pages, 7 figures. Accepted to the ACL 2026 Main Conference
基于超高清图像合成的空间图对齐
AI总结 本文提出空间图对齐(SGA)方法,通过利用视觉基础模型的表示先验,保留LDMs的生成能力,解决超高清图像合成中生成质量与结构完整性之间的冲突,实现高质量的文本到图像合成。
Comments Technical Report
通过中间结构预测分解主体驱动的图像生成
AI总结 该研究提出了一种两阶段框架,通过先预测Canny图再基于源外观和预测结构生成最终图像,以解决主体驱动文本到图像生成中高频率身份细节如logo、图案和文本的保留问题,并通过自动管道构建了10万对文本感知数据集,实验结果表明中间结构预测能有效提升高保真主体驱动生成的性能。
OlmoEarth v1.1: 一个更高效的OlmoEarth模型家族
AI总结 本文提出了一种改进的OlmoEarth模型家族,通过优化训练和推理过程,显著降低了计算成本,同时保持了模型的整体性能。
可调MAGMAX:面向持续学习的偏好感知模型融合
AI总结 本文提出了一种名为可调MAGMAX的模型融合框架,通过引入偏好向量控制任务特定性能,以适应不同的部署环境和用户偏好,从而在持续学习中实现更有效的模型融合。
Comments 17 pages, 4 figures. Accepted at ICPR 2026
Q-SpiRL:量子脉冲强化学习用于自适应机器人导航
AI总结 本文提出Q-SpiRL框架,结合量子增强的脉冲神经网络,实现了在动态环境中高效稳定的机器人导航,通过实验验证了其在任务完成、轨迹效率和运动平滑度之间的最佳平衡。
Comments 11 pages, 6 figures