Implicit Hypothesis Testing and Divergence Preservation in Neural Network Representations
神经网络表示中的隐含假设检验与散度保持
AI总结 研究神经分类器的训练动态,通过二元假设检验重新形式化分类为类条件分布间的二元测试,证明泛化能力强的网络在训练过程中逐渐接近Neyman-Pearson最优决策规则,并定义信息平面评估收敛性。
神经网络表示中的隐含假设检验与散度保持
AI总结 研究神经分类器的训练动态,通过二元假设检验重新形式化分类为类条件分布间的二元测试,证明泛化能力强的网络在训练过程中逐渐接近Neyman-Pearson最优决策规则,并定义信息平面评估收敛性。
稀疏动作生成:通过实时剪枝加速扩散策略
AI总结 本文提出SAG方法,通过自适应剪枝和重用机制实现稀疏动作生成,提升实时视觉运动控制效率,实验显示生成速度提升4倍。
CLARE:通过自主适配器路由和扩展实现视觉-语言-动作模型的持续学习
AI总结 CLARE提出一种参数高效、无需示例的持续学习框架,通过自主扩展模型模块,实现机器人在新任务中保持旧知识,优于基于示例的方法。
Comments Accepted to IEEE Robotics and Automation Letters 2026. Project page: https://tum-lsy.github.io/clare. 11 pages, 9 figures
参考游戏作为模型不确定性与澄清请求对齐的测试平台
AI总结 本文通过参考游戏测试语言模型在不确定性识别与澄清请求表达上的能力,发现模型在简单任务中难以准确识别自身不确定性并转化为澄清行为。
Comments Accepted at GEM@ACL 2026, the 5th Generation, Evaluation & Metrics Workshop
AirNav: 一个大规模无人机视觉与语言导航数据集,包含自然且多样的指令
AI总结 本文提出AirNav数据集,包含137K自然多样指令的导航样本,评估了多种方法,提出AirVLN-R1模型在测试中取得51.82%的成功率,并通过实际无人机实验验证了仿真到现实的迁移能力。
Skyra:通过 grounded artifact reasoning 实现 AI 生成视频检测
AI总结 本文提出 Skyra,一种专门用于识别 AI 生成视频中人类可感知的视觉瑕疵的多模态大语言模型,通过这些瑕疵作为基础证据进行检测和解释,同时构建了首个大规模 AI 生成视频瑕疵数据集并提出两阶段训练策略。
Comments Camera Ready Version. Project Page: https://github.com/JoeLeelyf/Skyra
稳健的AI安全与对齐:一项西西弗斯式的努力?
AI总结 本文通过扩展哥德尔不完全性定理,探讨了AI安全与对齐的理论极限,并提出应对挑战的实践方法,揭示了AI系统认知推理的局限性。
Comments 17 pages, 1 figure. This version will appear in IEEE Security $ Privacy in June 2026
T2T-LA:一种用于图学习的拓扑到拓扑LLM代理,无需特征访问或任务知识
AI总结 本文提出T2T-LA,一种无需特征访问或任务知识的拓扑到拓扑LLM代理,通过学习失败拓扑与评分之间的关系,实现图学习中的拓扑推理。
深度强化学习与模仿学习入门
AI总结 本文介绍深度强化学习和深度模仿学习在具身智能体中的应用,涵盖马尔可夫决策过程、REINFORCE和PPO等核心算法,以及行为克隆、DAgger和GAIL等基础方法。
图正则化稀疏自编码器用于LLM安全引导
AI总结 本文提出图正则化稀疏自编码器,通过在神经元共激活图上平滑解码器向量并应用方向库,提升安全引导效果,在多个基准测试中显著提高有害请求拒绝率。
CryptoBench: 一种动态基准,用于评估LLM代理在加密货币领域的专家级能力
AI总结 本文提出CryptoBench,首个专家 curated 的动态基准,用于严格评估LLM在加密货币领域的真实能力。通过50题/月的动态任务,细分子类评估数据获取与预测能力,揭示LLM在检索与预测上的不平衡问题。
适应性符合预测用于量子机器学习
AI总结 本文提出适应性量子符合预测算法,解决量子处理器时间变化噪声对符合保证的影响,通过重复校准保持有效性,实验证明其在IBM量子处理器上的稳定性和覆盖率。
Comments Accepted at TMLR 05/2026. 27 pages, 5 figures
留意动作:在日常肢体语言中评估共情理论
AI总结 本文提出Motion2Mind框架,通过专家编纂的肢体语言参考库评估机器解读非言语线索的能力,发现现有AI在非言语解读上存在显著差距。
Comments The authors identified issues in the current version and would like to withdraw the manuscript for substantial revision
DGS-Net:基于知识蒸馏的梯度手术用于AI生成图像检测中的CLIP微调
AI总结 本文提出DGS-Net,通过梯度空间分解分离有害和有益的下降方向,提升CLIP在AI生成图像检测中的微调效果,实验表明其在检测性能和泛化能力上优于现有方法。
Comments Accepted by ICML 2026 Spotlight
前沿大语言模型与最先进的规划器相媲美
AI总结 研究显示前沿大语言模型在规划任务中超越传统规划器, Gemini 3.1 Pro在标准任务中表现突出,GPT-5表现接近基线,且在符号规划中仍具竞争力,揭示了大语言模型规划能力的提升趋势。
SemanticOpt: 向基于LLM的语义黑盒优化迈进
AI总结 SemanticOpt利用LLM处理语义信息,通过微调结构化贝叶斯优化轨迹与自然语言上下文,提升黑盒优化性能,在多个实际问题中优于传统方法和现有LLM方法。
基于平坦性的3D龙门起重机轨迹规划方法,包含摩擦补偿与碰撞避免
AI总结 本文提出一种利用微分平坦性优化3D龙门起重机轨迹生成方法,通过直接纳入非线性摩擦和碰撞避免等复杂约束,实现安全高效的运动控制。
Comments 6 pages, 8 figures. Final version, after peer review and acceptance, submitted to the 23rd IFAC World Congress
单调和可分离的集合函数:特征化与神经模型
AI总结 本文研究了保持集合自然偏序的集合到向量函数设计,提出弱MAS属性模型,展示了其在集合包含任务中的优势。
ADMIT: RAG基事实核查中的少样本知识污染攻击
AI总结 ADMIT提出一种无需访问目标模型的少样本攻击方法,通过注入真实证据来翻转事实核查决策,实验显示其在多种系统中成功率达86%,揭示了RAG事实核查系统的重大漏洞。
VideoVerse: 你的T2V生成器有世界模型能力来合成视频吗?
AI总结 VideoVerse通过评估T2V模型对复杂时间因果关系和世界知识的理解能力,揭示现有模型与理想世界建模能力的差距。
Comments 26 Pages, 10 Figures, 14 Tables
UniShield: 一种适应性多智能体框架用于统一的伪造图像检测与定位
AI总结 UniShield通过多智能体框架实现跨领域伪造图像检测与定位,提升检测的适应性和实用性。
如何训练你的导师:通过导师模型引导黑盒大语言模型
AI总结 本文提出Advisor Models,通过训练小型开放权重模型生成动态个性化建议,提升黑盒前沿模型性能,实验显示在多个任务中效果显著,且具有良好的迁移性和鲁棒性。
Comments International Conference on Machine Learning (ICML) 2026
用于精细城市交通建模的Metropolis级道路网络数据集
AI总结 本文提出两个主要城市精细化道路网络数据集,用于解决大规模交通预测中的挑战,提供高分辨率的时间序列数据和丰富的静态道路属性。
无需训练的多模态引导用于视频到音频生成
AI总结 本文提出无需训练的多模态引导机制,用于视频到音频扩散生成,通过模态嵌入跨度强制视频、音频和文本的一致对齐,提升生成质量与多模态对齐效果。
动态树RPO:通过结构化采样打破独立轨迹瓶颈
AI总结 本文提出动态树RPO,通过树状结构采样策略和动态噪声强度,提升文本到图像生成的质量与效率,同时结合层调优强化学习方法,在多个基准测试中表现出色。
Comments Fig.3 updated
无痛激活导向:一种自动化、轻量级的微调大型语言模型方法
AI总结 本文提出Painless Activation Steering,一种自动化方法,无需人工干预即可利用标注数据提升模型性能,尤其在行为任务中表现优异,但对智能任务效果有限。
MultiMat: 多模态程序合成用于基于过程的材料生成
AI总结 MultiMat利用大规模多模态模型实现多模态程序合成,提升生成过程材料图的效率与视觉质量,优于纯文本基线方法。
Comments Accepted at ICLR 2026 (poster)
假设逻辑:从零到全面知识的神经符号整合
AI总结 本文提出LoH语言,结合数据驱动规则学习与符号先验和专家知识,实现神经符号整合的灵活统一,并通过模糊逻辑实现可微计算图编译。
谈话树木:基于推理的决策树诱导用于表格数据
AI总结 本文提出利用具备推理能力的LLM诱导小规模表格数据的决策树,生成轻量级树结构,优于CART和非贪心树学习器,并在低资源表格问题中与树集成竞争。
Comments Preprint, code at https://github.com/yandex-research/TalkingTrees
精度降低可能更可靠:对VLMs量化影响的系统评估
AI总结 本文系统评估了量化对VLMs可靠性的影响,发现量化能提升准确率、校准、异常检测和抗噪能力,但不改善协变量偏移或虚假相关性。
Comments Accepted at ICML 2026