Controlling the Risk of Corrupted Contexts for Language Models via Early-Exiting
通过早退机制控制语言模型中有害上下文的风险
AI总结 提出一种结合动态早退预测与无分布风险控制的方法,限制有害上下文对语言模型性能的退化,并在有益上下文中实现计算效率提升。
Comments Accepted to ICML 2026
通过早退机制控制语言模型中有害上下文的风险
AI总结 提出一种结合动态早退预测与无分布风险控制的方法,限制有害上下文对语言模型性能的退化,并在有益上下文中实现计算效率提升。
Comments Accepted to ICML 2026
原地反馈:多轮专家-LLM协作的可靠精炼方法
AI总结 提出原地反馈交互范式,通过用户直接编辑模型先前响应并让模型从编辑上下文继续生成,在五个推理密集型基准上优于标准多轮反馈且更省token,用户研究证实其能提高最终输出满意度并降低疲劳。
Comments 42pages
交互式会议中基于人类反馈的说话人修正
AI总结 提出一种LLM辅助的会议内说话人修正系统,通过用户简短反馈修正说话人归属错误,结合流式ASR、说话人日志、LLM摘要和在线注册机制,在AMI数据集上实现DER降低31.99%、说话人替换错误降低52.68%。
主动学习驱动的分子动力学机器学习
AI总结 针对机器学习粗粒化势函数在模拟中因采样不足而性能退化的问题,提出基于RMSD的主动学习框架,通过在线查询Oracle生成数据,在保持粗粒化效率的同时修正覆盖缺口,使Chignolin蛋白模型的TICA空间W1指标提升33.05%。
Comments 9 pages, 4 figures, for Neurips Workshop: Machine Learning and the Physical Sciences 2025
歌唱声音转换挑战2025评估结果的深入分析
AI总结 本文对2025年歌唱声音转换挑战赛的评估结果进行了深入分析,通过新数据库、两个任务、开源基线和大规模众包测试,比较了33个系统在歌手身份和歌唱风格转换上的表现,发现顶级系统在身份相似性上接近真实样本,但风格建模(如气息、滑音、颤音)仍具挑战,且现有客观指标无法完全替代主观评分。
Comments Submitted to IEEE TASLP
先规定后选择:面向情境随机优化的自适应策略选择
AI总结 针对情境随机优化中候选策略在协变量空间表现异质的问题,提出Prescribe-then-Select模块化框架,通过构建可行策略库并基于最优策略树集成学习元策略实现数据驱动的自适应选择,在单阶段报童和两阶段运输规划问题中优于单一最优策略。
多模态大语言模型感知情感
AI总结 本文通过系统评估研究,探讨多模态大语言模型在图像情感分析中的三种方法,发现基于MLLM描述的两阶段流水线在微调后性能显著优于传统基线。
Comments 24 pages, 7 figures
置信度调节的推测解码用于大型语言模型
AI总结 本文提出一种基于置信度调节的推测解码框架,通过熵和边际不确定性度量动态调整草稿长度与验证过程,在机器翻译和摘要任务上实现加速并保持或提升BLEU和ROUGE分数。
Comments This is the preprint of the paper, which has been accepted for oral presentation and publication in the proceedings of IEEE INDISCON 2025. The conference will be organized at the National Institute of Technology, Rourkela, India, from August 21 to 23, 2025. The paper is 10 pages long, and it contains 2 figures and 5 tables
生成式4D世界中的可扩展射频仿真
AI总结 提出WaveVerse框架,通过语言引导的4D世界生成器和物理信号模拟器实现可扩展的射频信号仿真,在相位敏感基准上表现高保真度,并有效提升下游任务性能。
Comments Accepted to ICML 2026
HM-Talker:用于高保真说话头合成的混合运动建模
AI总结 提出HM-Talker框架,通过混合显式发音线索与隐式韵律特征,结合交叉模态映射和随机特征配对策略,解决说话头生成中个性化与泛化的权衡问题,在视觉真实感和唇同步精度上超越现有方法。
Masquerade: 利用数据编辑从真实世界人类视频中学习
AI总结 提出Masquerade方法,通过编辑真实世界第一人称人类视频(估计3D手部姿态、修复手臂、叠加渲染双臂机器人)弥合视觉具身差距,并利用编辑后的视频预训练视觉编码器、微调扩散策略头,在三个长时程双臂厨房任务中实现比基线高5-6倍的泛化性能。
Comments Project website at https://masquerade-robot.github.io/
多级协作蒸馏遇见全局工作空间模型:面向OCIL的统一框架
AI总结 提出一种结合全局工作空间模型和多级协作蒸馏的统一框架,通过融合多学生模型参数形成共享隐式记忆并周期性广播,以及跨学生一致性和历史知识对齐机制,有效平衡在线类增量学习中的稳定性与可塑性。
Comments 15 pages, 8 figures
GroundAct:LLM智能体能否在环境状态中实现动作落地?
AI总结 本研究提出GroundAct基准,通过1500个场景和16592个任务实例评估15个LLM,发现动作落地能力是多维挑战,不能仅通过模型规模解决。
Comments Project Page: https://zju-real.github.io/OmniEmbodied Code: https://github.com/ZJU-REAL/OmniEmbodied
分层验证投机波束以加速大语言模型推理
AI总结 提出分层验证树(HVT)框架,通过优先验证高似然草稿并早期剪枝次优候选,以分层方式重构投机波束解码,从而在不重训练或修改架构下显著降低推理时间和能耗。
Comments This paper was accepted for oral presentation and publication in the 3rd International Conference on Data Science and Network Engineering (ICDSNE 2025), organized at NIT, Agartala, India, from July 25 to 26, 2025. The paper is 12 pages long, and it contains 3 tables and 4 figures. This is NOT the final paper, which will be published in the Springer-published proceedings
在单位域中求解:用于可微坐标变换PINNs的JacobiNet
AI总结 提出JacobiNet,一种基于学习的可微坐标变换PINN框架,通过端到端可微架构统一域映射与PDE求解,解决不规则边界域中PINNs的归一化、边界强制和损失项不平衡问题,显著提升精度和效率。
Comments Accepted by Journal of Computational Physics
MENTOR: 面向自回归视觉生成模型的高效多模态条件微调
AI总结 提出MENTOR框架,通过两阶段训练范式实现自回归图像生成器与多模态输入的细粒度token级对齐,无需辅助适配器或交叉注意力模块,在DreamBench++上取得优异性能。
Comments Findings of ACL 2026
基于图神经网络与组套索正则化的结构感知化合物-蛋白质亲和力预测
AI总结 提出利用图神经网络结合组套索和稀疏组套索正则化,从活性悬崖分子对中学习结构信息以预测化合物-蛋白质亲和力(IC50),并提升模型可解释性。
Comments 15 pages, 7 figures
AgentOrchestra:使用工具-环境-智能体(TEA)协议编排多智能体智能
AI总结 提出TEA协议和AgentOrchestra框架,通过统一抽象和分层编排实现多智能体系统的生命周期感知协调,在GAIA测试集上达到89.04%的准确率。
立场:文本嵌入应捕获隐含语义,而不仅仅是表面意义
AI总结 本文主张文本嵌入研究应从表面意义转向隐含语义,通过试点研究揭示现有模型在隐含语义任务上的局限,并提出范式转变以优先发展语言学基础训练数据、深层语义基准和核心建模目标。
Comments To appear in ICML 2026
PersonaAgent:弥合个性化LLM智能体的记忆与行动
AI总结 提出PersonaAgent框架,通过整合个性化记忆模块(情景与语义记忆)和行动模块,并利用角色提示作为中介实现记忆与行动的协同,以解决LLM智能体的个性化任务。
Comments Accepted in ACL 2026
加速GPU上的稀疏Transformer推理
AI总结 针对稀疏Transformer推理加速问题,提出STOF框架,通过分析建模将多头注意力映射为行式或块式核并采用独特存储格式,结合两阶段搜索的算子融合方案,在GPU上实现高达1.6倍的多头注意力计算加速和1.4倍的端到端推理加速。
动态渐进式参数高效专家库混合用于终身机器人学习
AI总结 针对终身学习中任务标识不可用和知识隔离问题,提出动态渐进式参数高效专家库混合(DMPEL),通过构建低秩专家库和轻量路由器实现灵活的前向迁移,并引入专家系数回放缓解遗忘,在LIBERO基准上以最少可训练参数和存储超越现有方法。
Comments Accepted to Transactions on Machine Learning Research (TMLR) at https://openreview.net/forum?id=MHVBrjS8cG . Code is available at https://github.com/HarryLui98/DMPEL
VRAG:面向交互式视频生成的世界模型学习
AI总结 针对自回归视频生成中累积误差和记忆机制不足的问题,提出视频检索增强生成(VRAG)方法,通过显式全局状态条件降低长期累积误差并提升时空一致性。
Comments Published at NeurIPS 2025. Project page: https://sites.google.com/view/vrag
EPiC: 基于精确锚点视频引导的高效视频摄像机控制学习
AI总结 提出EPiC框架,通过基于首帧可见性掩码构建精确对齐的锚点视频,并引入轻量模块Anchor-ControlNet,以极低参数实现高效、精确的3D摄像机控制,在RealEstate10K和MiraData上达到最先进性能。
Comments Accepted to ICML 2026. Project website: https://zunwang1.github.io/Epic
用可解释的特征归因解释概念漂移
AI总结 提出SGShift方法,通过将概念漂移建模为特征选择任务,利用广义加性模型、敲除和吸收等统计工具识别导致源域与目标域模型性能差异的稀疏漂移特征。
LogicCat:面向复杂推理的思维链文本到SQL基准测试
AI总结 提出首个针对复杂推理和思维链解析的Text-to-SQL基准数据集LogicCat,涵盖物理、算术、常识和假设推理场景,通过4038个问题与12114条思维链步骤显著提升任务难度,现有模型执行准确率最高仅33.20%。
Comments 9 pages, 5 figures
理解语言模型中的事实回忆:为什么两阶段训练鼓励记忆而混合训练教授知识
AI总结 通过比较2.8~4B语言模型中的两阶段训练与混合训练,发现混合训练通过联合优化目标实现存储与查询格式间的梯度一致性,驱动表征一致性并建立格式不变的检索过程,从而泛化回忆未见查询中的事实。
单声道音频的端到端多说话人自动语音识别综述
AI总结 本文系统综述了端到端多说话人自动语音识别的神经架构范式(SIMO与SISO)、近期改进方法及长语音扩展策略,并通过标准基准评估比较了各类方法。
Comments Accepted for publication in Computer Speech & Language (CSL)
离线多智能体强化学习通过序列得分分解
AI总结 针对离线合作多智能体强化学习中联合动作空间高维和异质行为数据导致的策略分布偏移问题,提出序列得分函数分解方法,利用扩散模型从多模态离线数据中学习每个智能体的正则化信号,指导策略更新至高分、分布内区域,在多个粒子环境和多智能体MuJoCo基准上实现最先进性能。
Comments ICML 2026 Accepted
合作方差估计与贝叶斯神经网络用于分离偶然不确定性和认知不确定性
AI总结 提出通过合作训练方差估计网络与贝叶斯神经网络,实现偶然不确定性与认知不确定性的分离,并提升均值估计性能。
Comments 38 pages, 26 figures