C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning
C2-Faith: 为思维链推理中的因果和覆盖忠实性基准测试LLM评判者
发表机构 * SPARAI
AI总结 提出C2-Faith基准,通过因果和覆盖两个维度评估LLM评判者对思维链推理过程忠实性的判断能力,发现模型在错误定位和覆盖评分上存在显著不足。
C2-Faith: 为思维链推理中的因果和覆盖忠实性基准测试LLM评判者
发表机构 * SPARAI
AI总结 提出C2-Faith基准,通过因果和覆盖两个维度评估LLM评判者对思维链推理过程忠实性的判断能力,发现模型在错误定位和覆盖评分上存在显著不足。
3D-RFT:基于视频的3D场景理解的强化微调
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出3D-RFT框架,将可验证奖励的强化学习(RLVR)扩展到视频3D感知与推理,通过直接优化评估指标(如3D IoU和F1分数)提升性能,4B模型超越8B模型。
Comments Accepted at ICML 2026. Project page: https://3d-rft.github.io/
生成式人工智能在模糊性与谄媚行为下的管理决策
发表机构 * Manisa Celal Bayar University(曼萨塞尔朱巴大学) ; University of Calabria(卡拉布里亚大学) ; Yasar University(亚沙大学)
AI总结 本研究通过人机协作实验,利用四维商业模糊性分类法评估GenAI模型在模糊检测、解析和谄媚行为方面的表现,发现模糊解析能提升决策质量,且不同模型对错误指令的谄媚程度不一。
X-Loco:通过协同策略蒸馏实现通用人形机器人运动控制
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Tsinghua University(清华大学)
AI总结 提出X-Loco框架,通过协同策略蒸馏和案例自适应专家选择,训练视觉通用人形运动策略,整合直立行走、全身协调和跌倒恢复,仅基于速度指令,无需参考运动。
Comments Accepted by RSS 2026. Project page: https://x-loco-humanoid.github.io/
广义离散扩散与自校正
发表机构 * National University of Singapore(新加坡国立大学) ; University of Science and Technology of China(中国科学技术大学)
AI总结 提出自校正离散扩散模型(SCDD),通过显式状态转移和离散时间学习,简化训练噪声调度,消除冗余重掩码步骤,在GPT-2规模上实现高效并行解码并保持生成质量。
Comments 40 pages, 3 figures, 6 tables
声场景空间语义分割的度量分析
发表机构 * University of Cambridge(剑桥大学) ; Inria(法国国家信息与自动化技术研究院)
AI总结 针对声场景空间语义分割(S5)的评估,提出一种新的度量CASA-SDR,通过置换不变源匹配分离分类与分离误差,提供更可解释的分离中心评估。
Comments 5 pages; content+bibliography
DiffusionBlocks: 通过扩散解释进行分块神经网络训练
发表机构 * Sakana AI ; The University of Tokyo(东京大学)
AI总结 提出DiffusionBlocks框架,利用残差连接与动力系统的对应关系,将网络转换为去噪过程,通过分数匹配目标实现独立分块训练,在多种Transformer架构上达到与端到端训练相当的性能,同时降低内存需求。
Comments To appear at the 14th International Conference on Learning Representations (ICLR 2026). v4: Fixed typos in experimental details (Appendix E.4)
基于枢轴驱动重采样的LLM强化学习深度密集探索
发表机构 * Institute of Software, Chinese Academy of Sciences(中国科学院软件研究所) ; City University of Hong Kong(香港城市大学) ; Baidu(百度)
AI总结 针对大语言模型强化学习中探索效率低的问题,提出深度密集探索(DDE)策略,通过识别失败轨迹中的可恢复枢轴状态并局部密集重采样,结合双流优化目标,在数学推理基准上优于现有方法。
基于条件共形检验鞅的分布偏移检测
发表机构 * Technion - Israel Institute of Technology(技术ion - 以色列理工学院)
AI总结 提出一种顺序检验方法,通过固定参考集避免测试污染,利用稳健鞅构造实现任意有效的I型错误控制和渐近功效1,检测速度优于标准共形检验鞅。
道德推理习得的语用推理:通过元语用链接实现泛化
发表机构 * Indiana University Indianapolis(印第安纳大学印第安纳波利斯分校) ; Nanyang Technological University(南洋理工大学) ; University of Mississippi(密苏里大学) ; Northeastern University(东北大学) ; Qualcomm(高通公司) ; Michigan State University(密歇根州立大学)
AI总结 针对大语言模型在道德推理中泛化能力不足的问题,提出基于元语用链接和道德基础理论的语用推理方法,使模型获取道德推理目标与社会变量间的元语用链接,在三个任务上验证了其适应性和泛化性。
深度双重去偏的ICE G-计算公式纵向效应估计
发表机构 * Cornell University(康奈尔大学) ; Weill Cornell Medicine(韦尔医学院)
AI总结 提出D3-Net框架,通过顺序双重稳健伪结果和纵向目标最小损失估计,解决ICE G-计算中的误差传播问题,实现纵向治疗效应的稳健估计。
泛化GNN:基于令牌化的专家混合
发表机构 * University of Connecticut Storrs(康涅狄格大学斯特劳斯分校) ; University of Notre Dame(Notre Dame 大学) ; University of Virginia(弗吉尼亚大学) ; Northwestern University Evanston(北western 大学埃文斯顿分校)
AI总结 针对图神经网络部署时稳定性与泛化性的权衡,提出STEM-GNN框架,通过令牌化专家混合编码器、向量量化接口和Lipschitz正则化头实现三方面平衡,在多种分布偏移和扰动下提升鲁棒性。
Comments Accepted to KDD 2026
通过合成语义信息增益奖励优化基于检索的智能推理
发表机构 * Hong Kong JC STEM Lab of Smart City.(香港JC STEM实验室) ; City University of Hong Kong.(香港城市大学) ; Lingnan University(岭南大学) ; Fudan University.(复旦大学) ; Huazhong University of Science and Technology.(华中科技大学)
AI总结 提出InfoReasoner框架,利用合成语义信息增益奖励优化检索过程,通过GRPO训练策略,在七个问答基准上平均准确率提升5.4%。
Comments Accepted by ICML'26
大型语言模型代理并非总是忠实的自我进化者
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 本研究首次系统调查自我进化LLM代理的经验忠实性,通过因果干预发现代理依赖原始经验但常忽略或误解浓缩经验,并分析其成因。
Comments ICML 2026
MET-Bench:用于评估视觉语言与推理模型局限性的多模态实体追踪
发表机构 * University of Texas at Austin(德克萨斯大学奥斯汀分校)
AI总结 提出MET-Bench多模态实体追踪基准,发现视觉语言模型在图像实体追踪上显著弱于文本,主要源于视觉推理缺陷,强化学习可提升模态内性能但跨模态迁移不足。
Comments ICML 2026
HyperPotter: 在音频深度伪造检测中施展高阶交互的魔力
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出基于超图的HyperPotter框架,通过聚类超边和类感知原型初始化捕获高阶交互,在13个测试集上平均EER降低12.68%。
Comments 20 pages, 8 figures, accepted to ICML 2026
重新思考LLM强化学习中的信任区域
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; University of Toronto(多伦多大学)
AI总结 针对PPO在LLM微调中因词表大导致的训练不稳定问题,提出基于策略散度直接约束的DPPO算法,并引入高效近似方法。
基于运动学数据估计行走过程中的地面反作用力
发表机构 * Nanyang Technological University(南洋理工大学) ; Agency for Science, Technology and Research(科技研究局) ; National Healthcare Group(国家健康集团)
AI总结 提出一种仅使用标记点运动捕捉数据估计地面反作用力的无测力台方法,通过16个身体段运动学计算质心并分解力分量,实验验证了可行性。
量化进化策略:以低精度代价实现量化大语言模型的高精度微调
发表机构 * University of California, Los Angeles(加州大学洛杉矶分校) ; Cognizant AI Lab(Cognizant AI实验室) ; UT Austin(得克萨斯大学奥斯汀分校)
AI总结 提出量化进化策略(QES),通过集成累积误差反馈和无状态种子重放,直接在量化空间进行全参数微调,无需反向传播,显著优于现有零阶微调方法。
Comments Added more tasks and baselines
面向制造应用的宏微操作统一控制架构:基于主动远程柔顺中心
发表机构 * Institute for Robotics and Intelligent Production Systems University of Applied Sciences Karlsruhe (HKA)(机器人与智能生产系统研究所 卡尔施塔特应用科学大学(HKA))
AI总结 提出一种将宏操作器纳入主动交互控制的新架构,相比现有领先-跟随方法将控制带宽提升2.1倍,相比传统力控制提升12.5倍,并引入替代模型简化控制器设计。
Comments 17 pages, 14 figures, submitted to Robotics and Computer-Integrated Manufacturing (RCIM)
快速自回归视频扩散与世界模型:基于时间缓存压缩与稀疏注意力
发表机构 * Hebrew University of Jerusalem(特拉维夫大学) ; Google Research(谷歌研究)
AI总结 提出FAST-AR框架,通过TempCache压缩KV缓存、AnnCA加速交叉注意力、AnnSA稀疏化自注意力,实现自回归视频扩散模型5-10倍加速,同时保持视觉质量并稳定GPU内存使用。
Comments Accepted to ICML 2026. Project Page: https://dvirsamuel.github.io/fast-auto-regressive-video/
残差上下文扩散语言模型
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出残差上下文扩散(RCD)模块,通过回收丢弃令牌的上下文残差提高扩散语言模型的解码效率,在长/短CoT任务上以极少额外计算提升准确率4-11个百分点。
学习预测什么:下游引导的持续预训练任务设计
发表机构 * Department of ECE(电子工程系) ; Carnegie Mellon University(卡内基梅隆大学)
AI总结 提出V-pretraining方法,通过轻量级任务设计器为无标签批次构建目标或视图,利用下游损失的一阶减少作为反馈,指导自监督更新,提升目标能力而不损害泛化。
通过全局几何感知扩散过程增强水下光场图像
发表机构 * School of Mathematics and Statistics, Xi’an Jiaotong University(西安交通大学数学与统计学学院) ; School of Mathematics and Statistics and the Ministry of Education Key Lab of Intelligent Networks and Network Security, Xi’an Jiaotong University(西安交通大学数学与统计学学院和教育部智能网络与网络安全重点实验室) ; Department of Computer Science, City University of Hong Kong(香港城市大学计算机科学系) ; Macao Institute of Systems Engineering, Macau University of Science and Technology(澳门系统工程研究院,澳门科学大学)
AI总结 提出基于扩散的GeoDiff-LF框架,利用空间-角度结构增强水下4D光场成像,通过改进U-Net、几何引导损失和优化采样策略,有效缓解颜色失真,在视觉保真度和定量性能上超越现有方法。
Comments 14 pages, 9 figures
可操作的可解释性必须根据对称性来定义
发表机构 * University of Oxford(牛津大学) ; ETH Zurich(苏黎世联邦理工学院) ; University of Cambridge(剑桥大学)
AI总结 本文论证AI可解释性研究存在根本性问题,提出可操作的可解释性应基于四种对称性来定义,以形式化可解释模型并统一可解释推理。
解决GNARLy问题:通过强化学习重新构想图神经算法推理
发表机构 * Oxford Robotics Institute, University of Oxford(牛津大学机器人研究所) ; Stateful Robotics
AI总结 提出GNARL框架,将算法轨迹学习转化为马尔可夫决策过程,结合模仿学习和强化学习,在CLRS-30问题上取得高精度,适用于NP难问题及无专家算法场景。
高效探索的无监督学习:通过自我设定目标预训练自适应策略
发表机构 * University College London (UCL)(伦敦大学学院(UCL))
AI总结 提出ULEE方法,结合上下文学习器与对抗性目标生成策略,在无监督元学习框架中优化多回合探索与适应,提升零样本和少样本性能。
Comments ICLR 2026; v2 adds link to code: https://github.com/Octavio-Pappalardo/ulee-jax
Journal ref The Fourteenth International Conference on Learning Representations, 2026
FBSDiff++: 改进的扩散特征频带替换用于高效且高度可控的文本驱动图像到图像翻译
发表机构 * Beijing University of Posts and Telecommunications(北京邮电大学)
AI总结 提出FBSDiff++框架,通过动态频带替换扩散特征,实现无需训练的文本驱动图像到图像翻译,支持外观、布局和轮廓引导,并大幅提升推理速度(8.9倍),支持任意分辨率输入和局部编辑。
专业翻译人员能否识别机器生成的文本?
发表机构 * IULM University Milan Italy(米兰IULM大学)
AI总结 通过实验研究无专门训练的专业翻译人员识别AI生成短篇故事的能力,发现少数人(16.2%)能准确区分,但多数依赖主观印象导致误判,低突发性和叙事矛盾是可靠指标。
Comments Pages 581 to 591, Volume 1, proceedings of the 26th Annual Conference of the European Association for Machine Translation, 2026
SMART: 基于Transformer代理模型的原始几何形状可扩展无网格气动模拟
发表机构 * Jan Hagnberger ; Mathias Niepert
AI总结 提出SMART,一种无需模拟网格、仅使用几何点云预测任意查询位置物理量的神经代理模型,通过交叉层交互联合更新几何特征和物理场,性能媲美甚至超越依赖网格的方法。
Comments Accepted for publication at the 43rd International Conference on Machine Learning (ICML) 2026, Seoul, South Korea