Enhancing Factuality through Consensus and Consistency in Summarization Using Minimum Bayes Risk Decoding
通过最小贝叶斯风险解码在摘要中实现基于共识和一致性的事实性增强
AI总结 提出ConSUM方法,利用最小贝叶斯风险解码建立候选摘要间的共识,并结合与源文档的一致性指标进行重排序,以提升摘要的事实性。
Comments Accepted to ACL 2026 Findings
通过最小贝叶斯风险解码在摘要中实现基于共识和一致性的事实性增强
AI总结 提出ConSUM方法,利用最小贝叶斯风险解码建立候选摘要间的共识,并结合与源文档的一致性指标进行重排序,以提升摘要的事实性。
Comments Accepted to ACL 2026 Findings
通过参考数据集的几何结构重新思考FID
AI总结 本文通过分析参考数据集的几何特性(密度和有效秩)来解释Fréchet Inception Distance (FID) 与样本质量之间的不一致性,并提出应结合参考数据集几何结构来更可靠地评估生成模型。
Comments 9 pages, 2 figures. Accepted to ICML 2026 Workshop: Combining Theory and Benchmarks
EarthShift: 衡量地球观测中真实分布偏移鲁棒性的基准
AI总结 提出EarthShift基准,通过多源配对数据集评估地理空间基础模型在时间、地理、尺度、传感器等真实分布偏移下的鲁棒性,发现模型性能平均下降15-20%。
保留推理能力的大语言模型高效蒸馏:基于激活感知初始化
AI总结 针对高效蒸馏导致的多步推理能力严重下降(推理崩溃),提出RED方法,通过激活感知初始化投影矩阵为通道选择矩阵,理论缓解有效秩崩溃,恢复推理能力并保持高效训练与通用性能。
NeuroEdge:基于边缘深度学习的密集肌电实时手势识别
AI总结 提出NeuroEdge系统,通过HD-EMG无线传输和轻量级CNN推理引擎,在微控制器上实现实时手势识别,准确率90%,延迟83ms。
用于零样本交通事故理解的多阶段VLM流水线
AI总结 提出一个三阶段VLM流水线,在冻结的Qwen3-VL-32B-Instruct和235B MoE模型上实现零样本交通事故预测,通过9:1融合和车辆检测对齐赢得CVPR 2026 ACCIDENT挑战赛。
Comments Accepted at the AUTOPILOT Workshop, CVPR 2026 (non-archival). Workshop Paper ID 13. Code: https://github.com/fuumin621/cvpr2026-accident-1st-place-solution
STAMP:在可控且可扩展的虚拟环境中训练移动GUI代理的显式记忆
AI总结 提出STAMP框架,通过可控虚拟环境注入确定性记忆变量,生成可验证监督数据并支持在线强化学习,解决移动GUI代理在长时任务中因上下文窗口限制和缺乏显式记忆导致的失败问题。
Comments 24 pages, 4figures, 21 tables
重新思考逐步模型路由:一种成本高效的表格推理视角
AI总结 提出EcoTab框架,通过分别估计表格令牌和文本令牌的不确定性并映射到下一步失败风险,实现表格推理中准确性与效率的更好平衡。
Comments 17pages, 15 figures, submitted to EMNLP 2026
CapTalk: 文本引导的风格化与语音驱动的3D头部动画
AI总结 提出CapTalk框架,通过文本描述控制说话风格和情感,结合语音驱动生成同步唇动和面部表情,支持动态情感变化。
PatchBoard: 基于Schema的可靠且可审计的LLM多智能体协作状态变更框架
AI总结 提出PatchBoard架构,通过Schema约束的JSON Patch状态变更替代智能体间对话,实现可验证、可审计的多智能体协作,在ALFWorld任务中成功率84.6%,令牌消耗45.5k。
基于评分准则的逐步模型路由过程奖励
AI总结 提出RoRo框架,通过收集路由轨迹、构建偏好对、训练Rubricor生成评估准则和Judge评分,结合过程与结果奖励优化路由策略,提升大型推理模型逐步路由的准确性和成本效率。
Comments 17 pages, 9 figures, submitted to EMNLP 2026
GrepSeek:训练用于直接语料库交互的搜索代理
AI总结 提出GrepSeek,一种通过两阶段训练(冷启动数据集+GRPO优化)和语义保持的分片并行执行引擎,训练紧凑型搜索代理直接与文本语料库交互(通过shell命令),在开放域问答中取得最优F1和精确匹配。
基于熵-KL散度的令牌掩码:一种用于大语言模型选择性微调的新方法
AI总结 针对低数据场景下标准监督微调导致模型分布偏移的问题,提出EKSFT方法,通过选择性掩码高熵或高KL散度的令牌,在注入任务知识的同时保持预训练分布完整性,在数学推理基准上优于标准SFT并提升后续RL性能。
Comments 17 pages
ViASNet:用于预测动态显著性和观众参与度的视频广告显著性网络
AI总结 提出基于3D U-Net架构的ViASNet模型,融合音频和场景语义,预测视频广告的动态显著性图,并通过熵分析诊断观众参与度。
开放运动规划库2.0
AI总结 本文介绍OMPL 2.0,通过硬件加速实现实时运动规划,并集成现代AI研究流程,总结了库与运动规划领域的共同发展及其对研究社区的影响。
MusTBENCH:音乐大语言模型中的时间定位基准与推进
AI总结 提出MusTBENCH基准和MusT四阶段优化方法,评估并提升音乐大语言模型在音频中的时间定位能力。
MonoDuo: 使用单机械臂学习双臂策略
AI总结 提出MonoDuo框架,利用单臂机器人演示和人类协作数据,通过数据增强生成合成演示,训练双臂机器人策略,在五项任务中实现零样本部署和少样本微调,成功率高达70%。
Comments Accepted to appear in the 2026 IEEE International Conference on Robotics and Automation (ICRA), Vienna, Austria, 1-5 June 2026
诊断答案正确长链思维训练轨迹中的有害延续
AI总结 研究长链思维训练数据中答案正确但后续推理有害的延续现象,通过删除后缀实验发现其损害训练效果,并提出轻量级边界代理方法。
物理基础模型能否学习可泛化的物理?一种跨物理机制和分布偏移的偏差感知基准
AI总结 通过构建包含8种物理动力学、3种训练数据混合和25种测试机制的基准,评估五种物理基础模型架构,发现当前模型是条件性而非通用性泛化者,其泛化能力依赖于物理机制、时间尺度、初始条件、预训练、模型大小和架构,并指出改进需超越缩放模型或扩展数据,转向学习跨机制、时间尺度和分布偏移的可迁移物理知识。
Comments 26 pages, 31 figures
适应是双向的:研究人类与语言模型之间的语言趋同
AI总结 通过大规模研究人类与LLM对话中的语言趋同现象,发现LLM在功能词和开放类特征上过度适应人类风格,而人类对LLM的适应程度与人类之间对话的基线一致。
面向开放式后训练的提示级奖励规范
AI总结 提出一种提示级奖励规范框架,通过离线构建可复用的任务自适应评分准则和可执行硬约束检查器,在训练前显式化奖励标准,无需人工偏好标注或单独训练奖励模型,在多个开放式基准上提升了离线排序和在线强化学习效果。
Comments 39 pages, 4 figures, 16 tables
基于LLM的自动评分中可学习的评估技能:通过迭代优化构建评分标准
AI总结 提出一种迭代框架,使LLM能从评分经验中学习评估技能(即与题目无关的自然语言程序性知识),自动构建评分标准,无需人工干预,在ASAP-SAS数据集上超越专家编写的评分标准。
Comments 12 pages, 5 figures
一种新型自适应学习算法的理论与实验研究
AI总结 针对现有自适应优化器(如Adam和AMSGrad)的收敛性问题,提出基于视线方法的C-Adam优化器,给出收敛性理论证明并通过数值实验验证。
支付网络中的因果标签恢复
AI总结 针对支付网络中标签存在的四种系统偏差,提出序列三重稳健(STR)估计器,同时纠正所有偏差并达到半参数效率界,实现基于数天而非数月数据的训练。
Comments 49 pages
CoHyDE: 用于工具检索的LLM改写器与稠密编码器的迭代协同训练
AI总结 提出CoHyDE方法,通过迭代协同训练稠密编码器和LLM改写器,结合对比学习和偏好对齐,在工具检索任务中同时提升标准查询和模糊查询的性能。
索引不可读之物:基于LLM原生的服务分类法递归构建与搜索
AI总结 针对LLM在服务发现中因上下文窗口限制和长输入中间信息丢失问题,提出LLM原生的渐进式披露方案A2X,通过自动构建层次化服务分类法并在查询时逐层遍历,显著提升检索准确率并降低token消耗。
Comments Preprint. 8 pages main paper + appendix; 2 figures. Under submission to EMNLP 2026
人类策展何时以及如何适得其反:多模型自消费循环下的偏好对齐
AI总结 研究多模型自消费训练中人类策展对模型对齐的影响,发现跨模型交互可能削弱甚至逆转策展效果,导致长期对齐退化。
协调实时约束与长视距推理:一种用于动态调度的异步智能体框架
AI总结 提出RACE-Sched异步智能体框架,通过双流架构解耦策略执行与逻辑推理,利用LLM合成和验证符号启发式规则,在保证实时性的同时提升动态调度质量。
KLAS:利用相似性拼接神经网络以改进精度-效率权衡
AI总结 提出KLAS框架,通过KL散度度量中间表示相似性自动选择最佳拼接配置,在相同微调成本下提升拼接模型的精度-效率曲线。
ChildVox:理解与表征儿童期声音的语音、音频及大型音频语言模型基准
AI总结 提出ChildVox基准,整合17个儿童音频数据集和20多个子任务,评估多种基础模型在儿童生理声、非语言发声、规范音节和口语识别上的性能。
Comments preprint under review