Flatness-Aware Stochastic Gradient Langevin Dynamics
平坦感知随机梯度Langevin动力学
AI总结 提出平坦感知随机梯度Langevin动力学(fSGLD),通过理论规定的噪声尺度与逆温度耦合,在保持计算效率的同时偏向平坦盆地,并提供非渐近理论分析和实验验证。
Comments Accepted by ICML 2026
平坦感知随机梯度Langevin动力学
AI总结 提出平坦感知随机梯度Langevin动力学(fSGLD),通过理论规定的噪声尺度与逆温度耦合,在保持计算效率的同时偏向平坦盆地,并提供非渐近理论分析和实验验证。
Comments Accepted by ICML 2026
超越模型排名:时间序列预测的可预测性对齐评估
AI总结 针对基准排行榜评估混淆模型性能与数据内在不可预测性的问题,提出基于谱相干的可预测性对齐诊断框架,包含SCP分数和LUR工具,揭示可预测性漂移和模型架构权衡。
注意力汇聚在注意力层中锻造原生MoE:针对头部坍塌的汇聚感知训练
AI总结 本文通过理论和实证证明注意力汇聚自然构建了注意力层内的混合专家机制,并提出汇聚感知训练算法以缓解头部坍塌问题,提升模型性能。
Comments 2026 International Conference on Machine Learning (ICML)
基于严格实验设置的轻量级自主激光雷达无人机系统在北方森林环境中的现场评估与优化
AI总结 提出标准化实验设置评估自主林下无人机系统,通过轻量级激光雷达四旋翼在北方森林中的93次真实飞行验证,优化后系统在中难度森林中1m/s和2m/s速度下成功率分别为12/15和15/15,在困难森林中为12/15和5/15。
Comments This work has been submitted to the IEEE for possible publication
粒子引导的偏微分方程扩散模型
AI总结 提出一种粒子引导的随机采样方法,结合扩散模型与基于PDE残差和观测约束的物理引导,通过序贯蒙特卡洛框架实现可扩展的生成式PDE求解器,在多个基准和多物理场系统中数值误差低于现有方法。
哪些注意力头对推理重要?RL引导的KV缓存压缩
AI总结 提出RLKV方法,利用强化学习识别对推理质量关键的注意力头,并对其保留完整KV缓存而对其他头进行激进压缩,实现20-60%缓存减少且性能近乎无损。
PICACO: 通过总相关优化实现大语言模型的多元情境价值对齐
AI总结 针对情境对齐中价值冲突导致的指令瓶颈问题,提出PICACO方法,通过优化元指令并最大化指定价值与模型响应的总相关,无需微调即可实现多元价值平衡对齐。
Comments ICML 2026
SONIC-O1:用于评估多模态大语言模型在音视频理解上的真实世界基准
AI总结 提出SONIC-O1基准,包含60小时人工验证的音视频数据,评估多模态大语言模型在开放摘要、多项选择问答和时序定位上的能力,发现模型在时序定位上存在显著性能差距和人口统计偏差。
学习推荐什么:逻辑斯蒂老虎机中极小化最优简单遗憾
AI总结 针对简单遗憾目标下的随机逻辑斯蒂老虎机,提出两种曲率感知算法(MULog和THATS),实现与下界匹配的遗憾上界,并揭示最优动作处sigmoid逆斜率κ_*决定极小化难度。
语言模型的神经权重压缩
AI总结 提出神经权重压缩(NWC)框架,通过训练神经编解码器在预训练权重数据集上实现高效压缩,解决张量异质性和重建损失与下游性能不匹配问题,在4-6比特区间取得优异精度-压缩权衡。
Transformer的语法:语言模型中句法知识可解释性研究的系统综述
AI总结 通过对337篇文章的系统综述,评估基于Transformer的语言模型(TLM)的句法能力,发现TLM编码了非平凡的句法知识,但句法-语义接口现象表现较弱,且研究集中在英语和BERT类模型上。
基于外生锚点的注意力投影混合
AI总结 针对早期注意力投影跨层重用中内部锚点设计存在的结构冲突,提出ExoFormer模型,通过学习序列层外的外生锚点投影,并引入统一归一化混合框架,在减少令牌使用量的同时提升下游准确率。
Mask-GCG:对抗性后缀中的所有标记对于越狱攻击都是必要的吗?
AI总结 提出Mask-GCG方法,通过可学习的标记掩码识别后缀中高影响力标记并剪枝低影响力标记,降低计算开销并保持攻击成功率,揭示LLM提示中的标记冗余。
Comments Accepted to ICASSP 2026
脚本即一切:一个用于长程对话到电影视频生成的智能体框架
AI总结 提出一个端到端智能体框架,通过训练ScripterAgent将对话转化为精细脚本,并利用DirectorAgent跨场景连续生成策略,实现长程对话到电影视频的连贯生成,显著提升脚本忠实度和时间保真度。
BEAR: 面向多文档推理的预算化证据分配
AI总结 提出BEAR框架,通过构建分层语义索引并在查询时进行由粗到细的证据访问,在固定证据预算下实现高效的多文档推理。
统一深度学习中的低维谱
AI总结 本文利用无约束特征模型(UFM)证明深度神经坍缩(DNC)是多种深度学习矩阵(如Hessian、梯度和权重)中低维谱结构的统一来源,并给出了特征值和特征向量的解析构造。
Comments revised version; title changed slightly. 45 pages, 20 figures. Accepted at the International Conference on Machine Learning 2026
PEAR:机器翻译中自动相对评分的成对评估
AI总结 提出PEAR,一种监督式质量估计指标族,通过成对比较实现无参考机器翻译评估,预测质量差异方向和幅度,在WMT24基准上优于单候选基线,并有效用于最小贝叶斯风险解码。
Comments ACL 2026 Main Conference. 19 pages
通过双流知识蒸馏实现鲁棒半监督回归
AI总结 针对半监督回归中未标记数据利用不足和伪标签噪声问题,提出双流知识蒸馏框架(DKD),通过蒸馏连续值知识和分布信息,并结合解耦分布对齐模块,提升回归预测的鲁棒性和样本效率。
Comments 12 pages
强化学习算法在大规模流动控制中的即插即用基准测试
AI总结 提出首个完全基于PyTorch、可微分的强化学习流动控制基准套件FluidGym,通过标准化评估协议实现控制方法的系统比较。
Comments Accepted to ICML 2026. Code available at https://github.com/safe-autonomous-systems/fluidgym
EVADE-Bench:用于评估和增强规避性内容检测的多模态基准
AI总结 针对电商平台中LLM/VLM易受规避性内容攻击的问题,提出首个专家标注的中文多模态基准EVADE-Bench,评估26个模型并发现规则分类可提升检测一致性,多智能体分解策略能显著提高准确率。
Comments SIGIR 2026
基于嵌入的主题建模和LLM分析癌症患者的体验
AI总结 本研究利用BERTopic和Top2Vec等神经主题建模方法,结合LLM(GPT4)进行主题标注,从癌症患者访谈数据中提取有意义主题,并评估不同嵌入模型的效果,发现领域特定的BioClinicalBERT嵌入能提高主题精度和可解释性。
Comments accepted by the CLIN journal. The CLIN Journal is the journal for research in computational linguistics in The Netherlands and Belgium
Alterbute: 编辑图像中物体的内在属性
AI总结 提出Alterbute方法,通过扩散模型结合松弛训练目标和视觉命名实体,在保持物体身份和场景上下文的同时编辑颜色、纹理、材质和形状等内在属性。
Comments ICML 2026. Project page is available at https://talreiss.github.io/alterbute/
卷积神经网络逆问题求解器的解析理论
AI总结 通过最小均方误差估计器引入平移等变性和有限感受野的归纳偏置,推导出局部等变MMSE的解析公式,并在多种逆问题、数据集和架构上验证其与神经网络输出高度一致。
CALM-IT: 通过双角色对话动态追踪生成逼真的长形式动机访谈对话
AI总结 提出CALM-IT框架,通过显式建模客户与咨询师状态的演变来生成和评估长形式动机访谈对话,在8,232个合成对话语料上优于基线方法,尤其在MITI 4.2全局评分和客户接受率上表现最佳。
Comments 53 pages, in submission to EMNLP
SoC: 测试时提示调优的语义正交校准
AI总结 针对视觉语言模型测试时提示调优中校准被忽视的问题,提出基于Huber的正则化方法SoC,在保持语义邻近性的同时实现平滑的原型分离,从而改善校准性能并保持判别能力。
我们在NLG中测量什么?2020-2025年评估趋势的元分析
AI总结 通过元分析14,171篇论文,揭示NLG评估中的三个系统性问题:度量惯性、度量-标准映射问题和验证差距,并提出最小评估清单。
Comments 8 pages
论口语语言模型评估中全局令牌困惑度的谬误
AI总结 针对口语语言模型评估中直接使用文本困惑度公式计算语音令牌困惑度的问题,提出基于似然和生成的新型评估方法,更忠实反映生成质量,并缩小了最佳模型与人类基线之间的差距。
几次引擎走棋能有多大帮助?量化国际象棋中的有限作弊
AI总结 本文通过阈值策略和Bellman策略,在Stockfish引擎对弈中量化有限次作弊对棋手得分的影响,并引入无引擎模拟器优化超参数。
Comments Accepted, IEEE CoG 2026 (IEEE Conference on Games 2026). Replaces previous version "On the Effect of Cheating in Chess"
ChronosAudio: 用于评估音频大语言模型的综合长音频基准
AI总结 提出首个针对音频大语言模型长音频理解的多任务基准ChronosAudio,包含6大任务类别和36000个测试实例,实验发现模型存在长上下文崩溃、注意力稀释等问题,现有缓解策略仅恢复50%性能。
FEA-SLT:一种面向面部表情感知的手语翻译的无词汇端到端框架
AI总结 提出FEA-SLT框架,通过面部表情感知融合模块利用面部动态作为语义锚点,解决无词汇手语翻译中手势歧义问题,在PHOENIX14T和CSL-Daily数据集上达到最优BLEU性能。