Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction
发表机构 * Trane Technologies(特纳技术公司)
Comments 50 pages, 5 tables, 7 figures
发表机构 * Trane Technologies(特纳技术公司)
Comments 50 pages, 5 tables, 7 figures
发表机构 * Taobao & Tmall Group of Alibaba(淘宝与天猫集团)
发表机构 * The University of Texas at Austin(德克萨斯大学奥斯汀分校) ; University of California, Berkeley(加州大学伯克利分校)
Comments 5 pages, 1 figure, 7 tables. 11th International Conference on Machine Learning Technologies (ICMLT), Berlin, Germany, May 2026
发表机构 * IMT School for Advanced Studies, Lucca(利卡大学高级研究学院)
发表机构 * Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; Carnegie Mellon University(卡内基梅隆大学) ; The Chinese University of Hong Kong(香港中文大学) ; Guangzhou Laboratory(广州实验室)
Comments Accepted at NeurIPS 2025 (Spotlight)
发表机构 * School of Informatics, University of Edinburgh(信息学院,爱丁堡大学) ; NHS Lothian(NHS洛锡安)
发表机构 * Institute for the Wireless Internet of Things, Northeastern University, Boston, MA, U.S.A.(无线物联网研究所,东北大学,波士顿,马萨诸塞州,美国) ; University of Louisville, Louisville, KY, U.S.A.(路易斯维尔大学,路易斯维尔,肯塔基州,美国)
Comments 4 pages, 5 figures, Proceedings of the IEEE 20th International Conference on Body Sensor Networks (BSN), October 2024
发表机构 * Japan Advanced Institute of Science and Technology(日本科学技术先进研究院) ; Human Informatics Laboratories, NTT Corporation(NTT公司人因实验室)
Comments 9 pages, 5 figures
发表机构 * Institute of Information Science, Academia Sinica(中科院信息所)
BRDFusion:物理与生成结合的城市场景逆渲染
AI总结 提出BRDFusion框架,结合物理建模与生成先验,实现城市场景逆渲染,在保持物理一致性的同时修复伪影,支持新视角重光照、夜间模拟和动态物体编辑。
Comments Project page: https://shigon255.github.io/brdfusion-page/
相位在神经表示中的重要性:图像分类器的内部Oppenheim-Lim测试
AI总结 通过内部相位-幅度移植实验,发现图像分类器(如PRISM2D、GFNet、ViT-B/16)的预测主要依赖相位/符号信息,而图像特定幅度对读出贡献有限;ResNet-50在ReLU前存在潜在符号编码,揭示了CNN与注意力模型在纹理-形状差异上的机制。
你的隐私我的伪装:差分隐私联邦学习中的后门攻击
AI总结 针对差分隐私联邦学习,提出RING攻击,利用差分隐私的掩蔽效应绕过防御,在中等隐私预算下平均攻击成功率90.3%。
Qwen-RobotWorld技术报告:通过语言条件视频生成统一具身世界模型
AI总结 提出Qwen-RobotWorld,一种以自然语言为统一动作接口的语言条件视频世界模型,通过双流MMDiT、大规模具身世界知识语料和渐进式课程训练,在机器人操作、自动驾驶等任务中实现物理一致的未来视觉轨迹预测,在多个基准上取得最优结果。
HAMON: 用于长程预测的无源光学序列混合
AI总结 提出HAMON无源衍射光学预测核心,通过光学传播替代数字序列混合层,在多个基准上优于或接近最强数字基线,MSE最多降低14%。
前沿AI评估公共档案的贝叶斯推断与决策审计
AI总结 本文通过贝叶斯推断和审计方法,分析公共AI评估档案中的选择性报告和缺失数据,发现单一终端记录与多种历史路径兼容,并验证了审计门限对虚假声明的过滤作用。
存疑则计划:用于反应式强化学习的小型语言模型承诺式推理
AI总结 提出PACT混合架构,结合快速反应式强化学习策略与慢速小型语言模型规划器,通过异步生成和验证候选动作计划来提升策略在陌生环境中的表现。
Comments LM4Plan Workshop at ICML 2026
DreamX-World 1.0:通用交互式世界模型
AI总结 提出通用交互式文图生视频世界模型DreamX-World 1.0,通过E-PRoPE相机控制、因果强制自回归生成、记忆条件场景持久化和事件指令微调,实现可控长时程生成,在多项指标上超越现有方法。
Comments Project page: https://amap-ml.github.io/DreamX_World, Code: https://github.com/AMAP-ML/DreamX-World
可扩展的电路学习用于解释大型语言模型
AI总结 提出CircuitLasso方法,基于稀疏线性回归高效学习LLM中的稀疏电路,以SAE特征为单元,在保持结构准确性的同时大幅降低计算成本,并揭示语义特征传播机制。
Comments Accepted to the Mechanistic Interpretability Workshop at ICML 2026
探索代码解释器有效推理的外在属性与内在属性
AI总结 本文从外在属性(关键token)和内在属性(代码特定认知行为)两个角度研究代码解释器推理,发现强模型更频繁出现关键token和验证、回溯等行为,并利用这些属性在推理和训练中提升性能。
统一运动-动作建模用于异构机器人学习
AI总结 提出UMA模型,利用3D物体运动轨迹作为共享接口,通过掩码生成目标统一视觉运动控制和动力学建模,实现跨异构数据源的多任务预训练,并在部署时支持多种推理模式。
Comments https://uma-manipulation.github.io/
基于开放视觉语言模型的空间问答与导航的二值追踪
AI总结 提出BinTrack,一种全开源的空间定位代理,通过二值搜索轨迹段,在SpaceLocQA基准上准确率提升22.8%,推理速度提升1.5倍,并发布多行程室外数据集GangnamLoop。
Comments 21 pages, 4 figures, 15 tables. Project page: https://ndb796.github.io/BinaryTracking ; Code and dataset: https://github.com/ndb796/BinaryTracking
集成营销归因:基于贝叶斯框架的隐私安全粒度测量,锚定于MMM
AI总结 提出集成营销归因(IMA)框架,结合营销组合模型(MMM)与贝叶斯归因模型,从聚合数据中推导出活动级效果,实现隐私安全且粒度精细的归因。
基于视频的最优传输用于反馈高效的离线偏好强化学习
AI总结 提出VOTP框架,利用视频基础模型和最优传输生成伪标签,仅需少量人类反馈即可学习有效奖励函数,显著降低标注成本。
Comments ICML 2026 (Oral)
GIST-CMTF:LLM代理中因果最小工具过滤的目标状态推断
AI总结 提出GIST-CMTF层,通过预测候选符号目标状态并估计歧义性,解决工具增强LLM代理因用户请求多义性导致的错误目标执行问题,在120个任务上达到97.0%成功率。
通过图像连接语音与文字
AI总结 提出一种基于视觉的方法,利用图像和语音描述构建口语词汇表,无需文本监督,在口语词检索和关键词检测中优于神经基线。
Comments Accepted at EUSIPCO 2026 - 5 pages, 3 figures, 2 tables
解耦语义与失真:面向AI生成图像质量评估的多尺度双流视觉-语言对齐
AI总结 提出MST-CLIPIQA多尺度双流框架,通过显式表示解耦实现层次化视觉-语言对齐,在五个基准上取得质量SRCC平均提升1.11%、图文对应SRCC提升2.35%的新SOTA结果。
Comments 11 pages, 2 figures Accepted by ICME2026(spotlight)
基于LLM的视觉解释评估框架:用于评估面部皮肤病分类模型的可解释性
AI总结 提出基于LLM的视觉解释评估框架,通过渐进式提示工程评估Grad-CAM在面部皮肤病诊断模型中的解释质量,聚焦病变定位和可信度。
一个经过验证的LBM数据集和用于湍流三维阻塞通道流代理建模的流水线
AI总结 提出一个可复现的流水线,生成雷诺数1000-10000的三维通道流训练数据,使用累积碰撞算子的格子玻尔兹曼求解器,并通过实验测量和网格收敛研究验证,为神经算子标准化比较提供基础。
Comments 4 pages + appendix, 9 figures, Accepted at the 1st Workshop on Differentiable Systems and Scientific Machine Learning (SysDiff) @ EurIPS 2025, OpenReview: https://openreview.net/forum?id=rdmHT72NQH
从平均奖励马尔可夫决策过程中的单条轨迹学习策略
AI总结 针对弱通信平均奖励MDP,首次从单条轨迹建立有限样本复杂度保证,提出无模型方法,值函数和策略方法分别达到$\widetilde{O}(1/\varepsilon^2)$和$\widetilde{O}(1/\varepsilon^4)$的样本复杂度。
AgentFairBench: LLM智能体在行动时是否存在歧视?
AI总结 提出AgentFairBench基准,通过反事实匹配集和偏差传导框架,评估LLM智能体在招聘、贷款和医疗分诊中的行动公平性,发现统计量级不匹配会夸大歧视,而匹配后Claude Haiku无显著人口统计效应。
Comments Submitted to IEEE Access