Self-Refining Video Sampling
自 refining 视频采样
AI总结 本文提出了一种自 refining 视频采样方法,通过预训练的视频生成器作为自身 refine 器,无需外部验证器或额外训练,在推理时实现迭代内部循环 refine,提高了运动一致性和物理对齐性。
Comments ICML 2026. Project page: https://agwmon.github.io/self-refine-video/
自 refining 视频采样
AI总结 本文提出了一种自 refining 视频采样方法,通过预训练的视频生成器作为自身 refine 器,无需外部验证器或额外训练,在推理时实现迭代内部循环 refine,提高了运动一致性和物理对齐性。
Comments ICML 2026. Project page: https://agwmon.github.io/self-refine-video/
iReasoner: 一种面向轨迹的内在推理监督方法,用于自演化的大多模态模型
AI总结 本文提出iReasoner,一种自演化框架,通过显式引导推理链和奖励内部一致性来提升大模型的隐式推理能力,在无监督设置下实现了多模态推理基准的性能提升。
Comments ACL 2026 (Findings)
注意生成细节:面向视频扩散模型的直接局部化细节偏好优化
AI总结 本文提出LocalDPO,一种新的后训练框架,通过从真实视频中构建局部偏好对,并在时空区域层面优化对齐,以提高视频生成的质量和人类偏好评分。
Comments Accepted by CVPR 2026
通过合成数据和语言特定预处理改进原住民语言机器翻译
AI总结 本研究通过合成数据生成和语言特定预处理方法,改进低资源原住民语言的神经机器翻译效果,实验显示合成数据增强对翻译质量有积极影响,但通用预处理在高度屈折语言中存在局限。
深度神经网络作为离散动力系统:对物理信息学习的启示
AI总结 本文探讨了深度神经网络与离散动力系统之间的类比,通过比较Burgers方程和Eikonal方程的数值/精确解与PINNs获得的解,展示了PINN学习在近似相同系统动力学时提供了一种不同的计算路径,同时指出PINNs的密集参数表示在高维情况下可能具有优势。
DrugRAG: 通过一种新颖的检索增强生成流水线提升药学LLM性能
AI总结 本研究评估了大型语言模型在药学执业资格问答任务中的性能,并开发了一种外部知识整合方法以提高准确性,通过DrugRAG流水线整合结构化药物知识,从而提升药学相关问答任务的LLM性能。
Comments 14 pages, 2 figures, 2 tables. The revised version includes McNemar's paired statistical analysis, Wilson confidence intervals, expanded methodological clarifications, a revised discussion of evidence retrieval, improved reproducibility details, and updated limitations
通过基于采样的权重空间投影进行约束策略优化
AI总结 该研究提出了一种基于采样的权重空间投影方法SCPO,用于在不离开安全操作范围的情况下优化策略,通过在参数空间中直接强制安全约束,确保在训练过程中保持安全性和可行性,同时在约束控制任务中实现闭环稳定性。
Comments Accepted for publication at IFAC World Congress 2026; fixed minor notation inconsistencies
End2Reg: 为无标记定位学习任务特定分割在脊柱手术中
AI总结 本文提出End2Reg,一种端到端深度学习框架,通过联合优化分割和定位,无需分割标签和手动步骤,从而提高脊柱手术中无标记导航的精度。
Comments Early Accepted MICCAI 2026. Code and interactive visualizations: https://lorenzopettinari.github.io/end-2-reg/
CHEM: 估计和理解深度学习在图像处理中的幻觉
AI总结 本文提出CHEM方法,用于量化和表征图像重建模型中的幻觉 artifacts,通过小波和shearlet表示定位幻觉区域,并利用 conformalized quantile regression 评估幻觉水平,同时分析U-shaped网络为何容易产生幻觉预测。
基于查询校准的分段准入用于无描述符的激光雷达回环闭合在重复环境中
AI总结 该研究提出了一种无描述符的稀疏回环准入策略,用于在重复环境中稳定图结构,通过校准查询级的分段假设并验证代表性配对来减少回环因素的误入,从而提高回环闭合的精度和稳定性。
Comments 8 pages, 3 figures
一种可微的代数复杂性度量:证明精确发现群结构
AI总结 本文提出了一种可微的代数复杂性度量,通过Cayley表完成问题,证明了通过超立方体操作符张量分解可以精确发现群结构,解决了Huh(2025)的核心开放猜想。
Comments 29 pages, 3 figures. All theoretical conjectures are formally proven as theorems and verified in Lean 4. v4: Minor typographical corrections
迈向认知扭曲一致检测:基于大语言模型的标注与数据集无关评估
AI总结 本文探讨了利用大语言模型作为一致且可靠的标注器进行认知扭曲检测的方法,并提出了一种数据集无关的评估框架,以公平比较不同数据集训练的模型,结果显示GPT-4能产生一致的标注,提升了模型在主观NLP任务中的表现。
通过稀疏可行假设采样和可靠的分批多阶段推理解决被绑架的机器人问题
AI总结 本文提出了一种被动的2D全局重定位框架,通过单个LiDAR扫描和占用网格地图在机器人静止时高效可靠地估计全局姿态,从而提高移动机器人的长期自主性。该框架将全局重定位问题转化为非凸问题,并通过多假设方案与分批多阶段推理和早期终止平衡完整性和效率。
Comments 14 pages, 8 figures. Accepted for publication in IEEE Transactions on Instrumentation and Measurement. DOI: 10.1109/TIM.2026.3694741
JanusCoder: 向代码智能的视觉-程序化界面迈进
AI总结 本文提出JanusCoder,一种面向代码智能的视觉-程序化界面,通过构建大规模多模态代码数据集和统一模型,实现从文本指令、视觉输入或两者结合生成代码,展示了其在文本和视觉编程任务中的优越性能。
Comments ICLR 2026 Camera Ready Version, with code and data available
基于流匹配的原理化强化学习从片段级策略优化中涌现
AI总结 本文提出了一种基于片段级策略优化的流匹配强化学习方法GCPO,通过将连续步骤聚合为相干片段并改变策略优化层级,有效缓解了优势归因不准确的问题,实验表明其在文本到图像生成任务中表现优于现有方法。
Comments ICML 2026
VLMs能否解锁语义异常检测?一个结构化推理的框架
AI总结 本文提出SAVANT框架,通过结构化推理方法提升VLM在语义异常检测中的性能,实现对自动驾驶场景中罕见异常情况的更准确识别。
Comments 8 pages, 5 figures
FineVision: 你只需要开放数据
AI总结 本文提出FineVision,一个包含2400万样本的高质量数据集,通过半自动化流程整合了200多个来源,通过严格的数据清洗和人工审核确保数据质量,训练基于该数据集的模型在广泛评估中表现更优,推动数据驱动的视觉语言模型研究。
在LLM压缩中寻找免费午餐:重新审视剪枝后的重新训练
AI总结 本文研究了在剪枝后通过局部重建进行适应的方法,发现其在减少数据和计算成本的同时能有效提升模型性能,并揭示了在不同粒度下重建参数窗口对最终质量的影响,挑战了LLM剪枝后适应不可行的主流观点。
利用条件随机场对图像分割进行后处理
AI总结 本文研究了如何通过条件随机场提升图像分割结果的清晰度,分析了不同CRF类型在低质量卫星图像和高质量航拍照片上的表现,评估了不同方法的优缺点。
视觉象征性挑战:在手语形式-意义映射上评估视觉-语言模型
AI总结 本文提出一个新颖的视频基准测试,用于评估视觉-语言模型在手语形式-意义映射上的表现,通过心理语言学测量来评估三种任务:语音学手语形式预测、透明度和渐进象征性评分,并发现模型在语音形式预测上表现较好但整体仍低于人类表现。
通过单token数字嵌入提升语言模型的数值处理效率
AI总结 本文提出BitTokens,一种利用IEEE 754二进制浮点表示将数字编码为单token的方法,使语言模型能更高效地处理数值计算,从而提升其解决复杂问题的能力。
CardioBench: 心脏超声基础模型是否能超越实验室?
AI总结 本文提出CardioBench,一个用于评估心脏超声基础模型的基准,通过统一多个公开数据集,评估不同模型在零样本、探测和对齐协议下的性能,揭示通用模型在功能任务上表现优异,但细粒度区分任务上存在不足。
TimeRewarder: 通过帧间时间距离从被动视频中学习密集奖励
AI总结 本文提出TimeRewarder方法,通过帧间时间距离从被动视频中学习密集奖励,以提升强化学习在稀疏奖励任务中的性能,实验表明其在多个任务中显著提高了成功率和样本效率。
Comments ICML 2026 spotlight paper
有效模型剪枝:衡量模型组件的冗余性
AI总结 本文研究了模型剪枝中的基本问题,提出了一种基于有效样本大小的剪枝方法,通过分析重要性评分分布来确定可丢弃的组件数量,并在多种网络架构上验证了该方法的有效性。
Comments 18 pages, 4 figures. Accepted at ICML 2026 (Spotlight)
基于离散扩散策略的强化学习
AI总结 本文提出了一种新的框架,用于在复杂的组合动作空间中训练高效的离散扩散模型策略,通过高效的在线训练过程和策略镜像下降方法,实现了稳定的策略改进,并在多个挑战性组合基准上取得了最先进的性能。
Comments 22 pages, 10 figures. Haitong Ma and Ofir Nabati contributed equally to this paper
基于尖端-柄检测与匹配的盆腔种子植入近距离放射治疗多针定位
AI总结 本文提出了一种基于尖端-柄检测与匹配的新方法,用于解决术中CT图像中多针定位的难题,通过锚点自由网络和贪心匹配与合并方法,在100名患者的数据集上实现了更高的精度和F1分数,为复杂临床场景下的针定位提供了更鲁棒和准确的解决方案。
令牌去哪了?在高分辨率下的STEP中理解剪枝行为
AI总结 本文提出STEP框架,通过动态补丁合并和令牌剪枝提高效率,同时在高分辨率语义分割任务中实现显著的计算成本降低和吞吐量提升,同时保持较高的准确性。
生成推荐中的序列数据增强
AI总结 本文研究了生成推荐中数据增强的影响,提出了一种系统化的框架GenPAS,通过三种受偏步骤统一了多种增强策略,提升了模型的准确率、数据效率和参数效率。
通过场景自适应晶格向量量化改进3D高斯散射压缩
AI总结 本文提出了一种场景自适应晶格向量量化(SALVQ)方法,用于改进3D高斯散射(3DGS)的压缩性能,通过优化晶格基矢来提高适应性和R-D效率,同时减少计算开销和训练时间。
Comments Accepted by IEEE TIP. Code available at https://github.com/hxu160/SALVQ
通过鲁棒的2D跟踪和基于深度的后期聚合实现在线3D多摄像机感知
AI总结 本文提出了一种方法,通过利用深度信息将现有的在线2D多摄像机跟踪系统扩展到3D空间,通过点云空间重建目标并利用聚类和偏转细化恢复其3D框,同时引入了增强的在线数据关联机制,以局部ID一致性来分配跨帧的全局ID,该框架在2025年AI城市挑战赛的3D MTMC数据集上评估,取得了第三名的成绩。
Comments Accepted at ICCVW 2025