IVGT: Implicit Visual Geometry Transformer for Neural Scene Representation
IVGT:隐式视觉几何变换器用于神经场景表示
AI总结 本文提出IVGT,一种隐式视觉几何变换器,通过无姿态多视角图像隐式建模连续且一致的几何结构,从而实现神经场景表示,支持在任意3D位置进行连续空间查询,以预测签名距离和颜色,并在多个任务中表现出色。
Comments Code: https://github.com/wzzheng/IVGT/
IVGT:隐式视觉几何变换器用于神经场景表示
AI总结 本文提出IVGT,一种隐式视觉几何变换器,通过无姿态多视角图像隐式建模连续且一致的几何结构,从而实现神经场景表示,支持在任意3D位置进行连续空间查询,以预测签名距离和颜色,并在多个任务中表现出色。
Comments Code: https://github.com/wzzheng/IVGT/
通过语义层面奖励校准大型语言模型
AI总结 本文提出了一种新的校准框架CSR,通过在语义空间中直接校准语言模型,避免了传统方法中因词汇化置信度导致的不一致问题,实验显示CSR在多个数据集上均能有效降低ECE并提高AUROC。
X-SYNTH:超越检索——从观察到的数字人类注意力中提取企业上下文
AI总结 本文提出X-SYNTH框架,通过分析数字人类注意力行为模式,解决企业上下文合成问题,其核心方法是基于行为模式的上下文合成,而非传统检索,从而显著提升有效线索率并降低误报率。
Comments 11 pages, 7 figures, 5 tables
DSSP:具有完整历史编码的扩散状态空间策略
AI总结 本文提出DSSP,一种基于扩散模型的状态空间策略,通过完整历史编码提升机器人操作任务中长周期任务的历史依赖性处理能力,实现了更高效的模型压缩和更小的模型规模。
代理是否准备好教学?一个多阶段基准用于现实世界教学工作流程
AI总结 本文提出EduAgentBench基准,用于评估教学代理的全面能力,发现当前模型在教学任务中的表现有限,但仍为开发未来教学代理提供了测量基础。
Comments Under review
非自回归生成的离散随机定位
AI总结 本文提出了一种连续状态框架,通过单位球体令牌嵌入实现离散随机定位,以提高离散序列生成的分布忠实度,并展示了在OpenWebText上改进MAUVE指标的效果。
Comments This work was intended as a replacement of arXiv:2602.16169 and any subsequent updates will appear there
DocAtlas: 跨80多种语言的多语言文档理解
AI总结 本文提出DocAtlas框架,通过构建高保真的OCR数据集和基准测试,覆盖82种语言和9个评估任务,利用双重管道生成精确的结构注解,展示了直接偏好优化在多语言适应中的有效性,提升了领域内和领域外的准确率。
Comments Under submission
Metis: 通过自进化元认知策略优化学习 jailbreak LLMs
AI总结 本文提出Metis框架,通过将jailbreaking重新表述为对抗性部分可观测马尔可夫决策过程中的推理时间策略优化,以提高对抗性测试的效率和效果,同时通过结构化反馈和透明推理轨迹提升可解释性,实验表明Metis在多种模型上均表现出更高的攻击成功率和更低的token成本。
Comments Accepted to the 43rd International Conference on Machine Learning (ICML 2026)
实例自适应在线多校准
AI总结 本文提出了一种高效的实例自适应在线多校准算法,通过动态调整预测值的二进制网格来平衡最坏情况和易处理情况,实现了在不同实例下的最优误差控制。
Comments We tightened the analysis and added a comparison to the concurrent work of Liu et al. (arXiv:2605.11490)
LLM Agents Already Know When to Call Tools -- Even Without Reasoning
AI总结 本文提出When2Tool基准,通过18个环境研究工具调用的必要性,发现模型已能识别何时需要调用工具,但生成时未能有效利用此知识,提出Probe&Prefill方法显著减少工具调用。
SplatWeaver: 学习分配高斯原语以实现可泛化的新型视角合成
AI总结 本文提出SplatWeaver框架,通过动态分配高斯原语实现可泛化的新型视角合成,解决传统方法中固定分配导致的资源浪费和表达不足问题。
Comments Project Page: https://yecongwan.github.io/SplatWeaver/
X-OmniClaw 技术报告:一种统一的移动代理用于多模态理解和交互
AI总结 本文提出X-OmniClaw,一种统一的移动代理,用于Android生态系统中的多模态理解和交互,通过统一的感知、记忆和行动架构,提升复杂移动任务的上下文感知能力,展示了其在多模态交互中的高效性和可靠性。
Comments 12 pages, 7 figures
SplAttN: 通过高斯软溅射和注意力在2D和3D之间架桥以实现点云补全
AI总结 本文提出SplAttN方法,通过高斯软溅射和注意力机制解决点云补全中2D和3D模态连接问题,改进了传统硬投影导致的跨模态熵塌陷问题,实现了更有效的跨模态连接学习。
Comments Accepted as a Spotlight paper at ICML 2026; camera-ready version
树到流及回归:统一决策树和扩散模型
AI总结 本文通过建立层次决策树与扩散过程之间的数学对应关系,统一了决策树和扩散模型,揭示了共同的优化原则'全局轨迹得分匹配',并提出了两种实用应用:treeflow在表格数据生成中表现优异,且计算速度更快;dsmtree将层次决策逻辑转移到神经网络中,在多个基准上与教师模型表现相近。
Comments 12 pages (main), 68 pages (inclusive of appendix), Accepted in the Forty-Third International Conference on Machine Learning (ICML) 2026
通过跨组重心对齐实现公平的数据集蒸馏
AI总结 本文研究了数据集蒸馏中因不同群体预测模式差异导致的公平性问题,提出通过跨组重心对齐方法来减少群体间的预测偏差,从而提升模型的公平性。
Comments Accepted by ICML 2026
OmniShotCut: 以-shot查询Transformer实现整体关系性shot边界检测
AI总结 本文提出OmniShotCut,通过shot查询基于的密集视频Transformer,将shot边界检测建模为结构化关系预测,同时估计shot内关系和shot间关系,以解决现有方法在边界不可解释、错过细微有害断点以及依赖噪声低多样性标注和过时基准的问题。
从大规模人类示范中学习人类意图先验以用于机器人操作
AI总结 本文提出MoT-HRA框架,通过大规模人类示范学习人类意图先验,用于机器人操作,通过构建HA-2.2M数据集和三个耦合专家提升动作合理性和鲁棒性。
Comments 13 pages, 5 figures
SceneSelect: 用于轨迹场景分类和专家调度的选择性学习
AI总结 本文提出SceneSelect,一种基于场景的选择性学习方法,通过动态路由输入到最合适的专家模型,提升轨迹预测的准确性和效率。
Comments This paper has been accepted by ICIC 2026
ViPS: 为自动绑定网格的视频感知姿态空间
AI总结 本文提出ViPS,一种通过视频扩散模型提取运动先验来发现自动绑定网格有效姿态分布的前馈框架,实现了对多样形状变化、逆向运动学和动画的关键帧生成的支持。
Comments Project page: https://honglin-c.github.io/vips/
流之真相:面向图像到视频生成的主动时间鉴伪
AI总结 本文提出了一种面向图像到视频生成的主动时间鉴伪方法,通过追踪像素在视频中的流动和变换,解决了传统空间鉴伪在时间维度上的不足。
TIP: on-policy distillation 中的 token 重要性
AI总结 本研究探讨了在 on-policy 知识蒸馏中哪些 token 对学习信号最有用,提出了一种基于学生熵和教师-学生分歧的双轴分类方法,并通过实验验证了在有限内存条件下使用少量 token 进行蒸馏的有效性。
通过合成任务进行元学习的黑盒优化
AI总结 本文提出了一种通过生成合成任务进行元学习的框架OptBias,用于解决小规模离线数据下的黑盒优化问题,通过学习可重用的优化偏差来提升小数据场景下的性能。
Comments Accepted for Publication at International Conference on Artificial Intelligence and Statistics (AISTATS)
链式思维如何分解复杂任务?
AI总结 本文研究了链式思维在复杂任务分解中的作用,发现通过将任务分解为多个小分类问题可以显著降低预测误差,并确定了分解深度的最优阈值。
鲁棒推理基准
AI总结 本研究提出鲁棒推理基准(RRB),通过13种确定性文本扰动评估8种前沿模型,发现Claude在面对变换提示时表现出异常拒绝行为,而开放权重模型在结构噪声下出现多种失败模式,如认知冲刷、分词崩溃和推理崩溃,导致平均准确率下降高达54%。研究进一步发现由模型自身推理链引起的注意力稀释问题,并提出Intra-Query Attention Dilution概念,表明中间推理步骤会污染标准密集注意力机制,未来架构需整合显式上下文重置以实现可靠推理。
揭示大型语言模型的推理过程
AI总结 本文通过分析Transformer层中注意力头和层的信息转换,揭示了大型语言模型在数学和符号推理任务中,中间层将token级信息转化为可重用的关联结构的核心机制。
并行八叉树映射:一种用于自主导航中路径规划增强的可扩展框架
AI总结 本文提出并行八叉树映射(POMP),一种高效的基于八叉树的映射技术,通过在固定占用网格分辨率下优化自由空间表示,提升路径规划效率和成功率,特别是在复杂环境中。
CellFluxRL: 通过强化学习实现生物约束的虚拟细胞建模
AI总结 本文提出CellFluxRL,通过强化学习约束虚拟细胞模型,使其在生物功能、结构有效性及形态正确性方面更符合生物学规律,从而提升虚拟细胞建模的生物意义。
面向科学成像的不确定性感知分布到分布流匹配
AI总结 本文提出了一种面向科学成像的不确定性感知分布到分布流匹配方法,通过引入贝叶斯随机流匹配和抗变异不确定性量化技术,提升模型在分布偏移下的泛化能力,并有效估计epistemic和aleatoric不确定性,从而检测不可靠的生成结果。
规则状态推断(RSI):一种用于规则治理领域合规监控的贝叶斯框架
AI总结 本文提出了一种名为规则状态推断(RSI)的贝叶斯框架,用于解决规则治理领域中合规监控的三大结构性挑战:部署时缺乏标记结果、非合规实体战略性缺失观察以及监管环境变化速度超过任何监督模型的重新训练速度。RSI通过将权威、形式化的规则集作为结构化的贝叶斯先验,利用变分推断和精确坐标上升更新来推断人口的潜在合规状态。
Comments 18 pages. Experimental validation forthcoming
MDM-Prime-v2:二进制编码和索引洗牌使扩散语言模型能够扩展
AI总结 本文提出MDM-Prime-v2,通过二进制编码和索引洗牌技术改进扩散语言模型,解决了子分词器功能形式与BPE分词器结合导致的交叉熵损失增加以及子分词器粒度超参数选择缺乏工具的问题,从而提升了模型在常识推理基准上的零样本准确率。