A Principled Self-Referenced Early Stopping Approach for Deep Image Prior
一种基于自引用的原则性早期停止方法用于深度图像先验
AI总结 针对深度图像先验(DIP)过拟合问题,提出一种基于构造伪自引用图像的过拟合检测框架,实现无需噪声水平估计的早期停止方法。
Comments 35 pages, 10 figures, 14 tables
一种基于自引用的原则性早期停止方法用于深度图像先验
AI总结 针对深度图像先验(DIP)过拟合问题,提出一种基于构造伪自引用图像的过拟合检测框架,实现无需噪声水平估计的早期停止方法。
Comments 35 pages, 10 figures, 14 tables
Eureka:面向企业AI云资源需求预测的智能特征工程
AI总结 提出Eureka框架,将特征工程视为智能体代码生成问题,通过专家代理、LLM特征工厂和自演化对齐引擎三阶段,自动生成可执行特征代码,在医疗、金融、社交等7个公开基准及阿里云GPU资源需求预测中显著提升性能。
Comments accepted at NeurIPS 2025 Workshop, DASFAA 2026 (International Conference on Database Systems for Advanced Applications)
VEOcc:面向具身场景理解的体素中心在线语义占用预测
AI总结 提出一种基于体素的递归感知-同化框架VEOcc,通过时空感知在线更新策略实现无需初始尺度估计的高效、鲁棒语义占用预测,在局部和具身场景中达到最先进性能。
微小大脑,巨大影响:仅用少量提示揭示LLM的关键神经元
AI总结 本研究通过跨任务激活强度分析,发现大型语言模型中存在一组极其稀疏的关键神经元,其移除会导致模型行为崩溃,并基于此提出仅更新关键神经元的微调方法,在少量参数修改下达到与全参数微调相当或更优的任务性能。
ConceptM$^3$oE:面向可解释计算病理学的概念引导多模态专家混合模型
AI总结 提出ConceptM$^3$oE框架,通过概念引导的多模态专家混合路径嵌入概念形成,并利用残差路径保持性能与可解释性,在脑肿瘤分类中优于基线并提升小样本性能。
HyperGuide: 用于大型语言模型高效多步推理的双曲引导
AI总结 针对多步推理中单次生成效率高但精度低、树搜索计算量大的问题,提出通过将推理进度蒸馏为双曲几何信号来引导逐步生成,利用双曲空间的距离和角度特性编码解接近度与分支区分,训练轻量头投影隐状态并微调适配器,在多个基准上取得一致提升。
纳米世界模型:未来视频预测的极简实现
AI总结 提出Nano World Models,一个基于扩散强迫的极简代码库,用于未来视频预测,支持可控研究世界模型的设计选择,并通过实验分析预测参数化、架构规模等因素对视频预测质量的影响。
Comments Project page: https://simchowitzlabpublic.github.io/nano-world-model/
OpenSkillEval:自动审计LLM智能体的开放技能生态系统
AI总结 提出自动评估框架OpenSkillEval,通过动态构建真实任务实例和收集社区技能,系统评估技能增强型智能体系统及技能本身,揭示技能可用性不保证有效使用、技能增强收益依赖模型和框架等关键发现。
PixIE: 提示驱动的像素空间低光照图像增强
AI总结 提出PixIE框架,利用视觉基础模型的语义提示,通过跨尺度去噪和DINO提示像素块进行像素空间低光照图像增强,在多个基准上提升PSNR和LPIPS。
SCOPE: 在可玩环境中模拟跨游戏操作以构建FPS世界模型
AI总结 提出SCOPE方法,通过在每个Transformer块中插入条件模块,将特征重塑为逐像素时间序列,以分离FPS游戏中局部作用域(scope)内的操作效果与全局生成,并引入跨游戏数据集CrossFPS,实现零样本迁移。
Comments Project page: https://z2tong.github.io/SCOPE/. Code is available at https://github.com/z2tong/SCOPE
构建保护隐私的移动设备联邦推荐系统
AI总结 提出一种两阶段联邦推荐系统流水线,通过分离非敏感偏好数据与设备内敏感上下文数据,在保护隐私的同时实现移动设备上的个性化推荐。
Comments Masters thesis, Université de Montréal, Department of Computer Science and Operations Research, 2024
扩散理论教程:从微分方程到扩散模型
AI总结 本教程从微分方程角度统一阐述扩散模型的数学基础,推导ODE和SDE表示,解释分数匹配和去噪目标,并涵盖DDPM、DDIM、流匹配和扩散语言模型。
Comments A detailed tutorial on Diffusion models and SDE
MPDocBench-Parse:面向实际的多页文档解析基准测试
AI总结 针对现有基准测试在真实场景中评估不足的问题,提出MPDocBench-Parse基准,包含433份多页文档(3246页),覆盖15种文档类型,设计全面的内容保真度和逻辑结构评估协议,实验表明现有模型在语义连续性、视觉内容解析和层次结构恢复方面存在明显局限。
CoRMA: 用于接触丰富元适应的对比RMA
AI总结 提出CoRMA框架,通过语义接触上下文和对比学习实现力主导装配任务的元适应,无需演示或梯度更新,在仿真和真实机器人上优于基线。
JMed48k:用于视觉语言模型评估的多专业日本医疗执照基准
AI总结 本文提出JMed48k,一个包含48,862道试题和20,142张图像的多专业日本医疗执照基准,通过评估21个模型并引入配对图像移除审计,发现专有和开源模型显著受益于图像,而医学专用模型对视觉证据利用有限。
TWINGS: 基于薄板样条翘曲对齐的稀疏视图高斯泼溅初始化
AI总结 提出TWINGS框架,利用薄板样条(TPS)对齐反投影点与三角化控制点,为3D高斯泼溅提供几何精确的初始化,从而在稀疏视图下提升场景重建的细节保留和颜色保真度。
Comments Accepted at CVPR 2026, Project page: https://sandokim.github.io/twings/
AttuneBench: 基于对话的LLM情商基准测试
AI总结 提出AttuneBench基准,基于200个真实多轮人机对话,评估LLM在情绪识别、行为分类、偏好预测和响应质量等方面的情商能力,发现这些能力相互独立且偏好对齐和响应质量更具区分性。
Comments v2: Updated def_18 and def_20 supplemental figures to cover all 11 evaluated models (previously 9). Removed redundant supplemental figures. Corrected select captions (color descriptions, chance baselines, figure-content mismatches). No changes to experimental results, numerical claims, or conclusions
HyperVision: 一种通道自适应的地基高光谱视觉预训练骨干网络
AI总结 针对地基高光谱传感器配置差异、标签稀缺与不一致、数据集规模有限等问题,提出首个地基高光谱预训练骨干HyperVision,采用通道自适应动态嵌入、多源伪标签和跨模态知识蒸馏,在三个下游任务上取得最优性能。
GHOST: 用于高效3D重建的几何层次化在线流式令牌驱逐
AI总结 提出GHOST框架,利用模型自身的3D几何输出在线驱逐冗余令牌,在保持重建质量的同时将KV缓存减半并实现1.75倍加速。
DualKV: 面向高效RL训练的共享提示Flash注意力机制,支持大规模展开和长上下文
AI总结 针对RL训练中共享提示重复计算问题,提出DualKV内核,通过融合CUDA前向/反向核和veRL数据流水线重排,消除提示复制,实现1.63-3.82倍策略更新加速。
NOVA:通过人工智能进行知识发现的基本限制
AI总结 本文提出NOVA框架,将“生成-验证-积累-再训练”循环建模为知识空间上的自适应采样过程,识别了知识覆盖有限域的条件及失败模式,并证明了发现成本与Zipf定律相关的标度律。
诊断和纠正多模态扩散Transformer中的概念遗漏
AI总结 本文通过线性探测发现文本嵌入中存在表征目标概念缺失的“遗漏信号”,并提出遗漏信号干预(OSI)方法放大该信号以主动催化缺失概念的生成,在FLUX.1-Dev和SD3.5-Medium上显著缓解了概念遗漏问题。
Comments Accepted to ICML 2026
EVA-Bench:一种用于评估语音代理的新型端到端框架
AI总结 提出EVA-Bench框架,通过机器人间音频对话模拟和复合指标(EVA-A和EVA-X)全面评估语音代理的准确性和体验质量。
Comments Work in progress
基于LLM生成启发式的层次任务网络规划
AI总结 研究利用大语言模型为层次任务网络规划生成搜索启发式,通过Pytrich规划器在六个基准领域评估,结果表明LLM生成的启发式在覆盖度上接近最优HTN规划器,并在83%的共享问题上显著减少搜索开销。
Comments 9 pages, 3 figures; submitted to NeurIPS 2026
SMolLM: 小型语言模型学习小型分子语法
AI总结 本文提出SMolLM,一个53K参数的小型权重共享Transformer,通过固定层次结构学习SMILES语法,在ZINC-250K数据集上以95%的有效性生成分子,优于参数多10倍的GPT模型。
Comments 19 pages, 5 figures, 11 tables
零样本逻辑规则归纳的基础模型
AI总结 提出神经规则归纳器(NRI),一种基于统计编码和并行槽解码的预训练模型,实现零样本逻辑规则归纳,无需重新训练即可泛化到新谓词。
Comments Camera-ready version accepted at IJCAI 2026, with full appendices
对比表示学习的统计一致性与泛化性
AI总结 本文提出统一的统计学习理论,证明对比损失与最优排序统计一致,并推导出随负样本数增加而改善的泛化界,解释了大负样本集的经验优势。
Comments Accepted by ICML 2026
基于流锚定噪声条件Q学习的离线强化学习:高效且表达力强的方法
AI总结 提出FAN算法,通过单次流策略迭代和单高斯噪声样本实现高效离线强化学习,在保持高性能的同时显著降低计算成本。
Comments ICML 2026
VLA-ATTC:基于相对动作评判模型的VLA模型自适应测试时计算
AI总结 提出VLA-ATTC框架,通过不确定性驱动的“认知离合器”和相对动作评判模型(RAC)实现自适应测试时计算,在LIBERO-LONG基准上将SOTA模型PI0.5的失败率降低50%以上。
Sentinel-VLA:一种具有主动状态监控的元认知VLA模型,用于动态推理和错误恢复
AI总结 提出Sentinel-VLA模型,通过主动哨兵模块监控执行状态,仅在必要时触发动态推理或错误恢复,结合自进化持续学习算法和正交持续适配器,在44个任务上提升成功率30%以上。