Still: Amortized KV Cache Compaction in a Single Forward Pass
Still: 单次前向传递中的摊销KV缓存压缩
发表机构 * Baseten
AI总结 提出Still方法,通过单次前向传递的轻量级Perceiver层实现KV缓存压缩,在8×至200×压缩比和8k至128k上下文长度下兼顾速度与质量,长上下文任务超越最强基线8-22分。
Still: 单次前向传递中的摊销KV缓存压缩
发表机构 * Baseten
AI总结 提出Still方法,通过单次前向传递的轻量级Perceiver层实现KV缓存压缩,在8×至200×压缩比和8k至128k上下文长度下兼顾速度与质量,长上下文任务超越最强基线8-22分。
谁的规范?解开大语言模型中的文化与个人对齐
发表机构 * University of Michigan - Ann Arbor(密歇根大学安娜堡分校) ; University of Copenhagen(哥本哈根大学)
AI总结 提出PACT框架评估大语言模型在文化规范与个人偏好间的权衡,发现模型受国家背景影响大于年龄和性别,且人类对齐未能捕捉文化多元性。
Comments Preprint under review
安全是上下文相关的,而LLM评判者不是:应对评估者的刚性先验
发表机构 * University of Oxford(牛津大学) ; Cohere
AI总结 研究LLM作为安全评判者时,对上下文信息的依赖性和对不同安全定义的可引导性,发现它们难以在上下文或安全定义与自身先验矛盾时调整评估。
VisualFLIP: 在多模态推理中,预测是否依赖于任务关键的视觉证据?
发表机构 * Imperial College London(伦敦帝国理工学院)
AI总结 提出VisualFLIP基准,通过成对图像扰动测试多模态大模型是否真正依赖关键视觉证据,发现正确预测与证据依赖存在分离。
LLM智能体中的冷启动安全差距
发表机构 * University of California, San Diego(加州大学圣地亚哥分校)
AI总结 研究发现工具调用型LLM智能体在会话开始时最脆弱,随着常规任务执行安全性提升,提出SODA基准并验证预热策略可缩小冷启动安全差距。
通过智能体间协议克服监管瓶颈:以核能为例
发表机构 * Argonne National Laboratory(阿贡国家实验室) ; Idaho National Laboratory(爱达荷国家实验室)
AI总结 提出监管上下文协议(RCP),一种智能体间通信标准,将监管与申请方之间的人工流程转为结构化、可审计的智能体通道,在核反应堆审批中降低成本50-77%、缩短时间65%。
Comments 26 pages, 10 figures
因果科学机器学习的仪器化数据
发表机构 * University of the Witwatersrand(威特沃特斯兰德大学)
AI总结 提出仪器化数据作为观测数据和模板合成数据之外的第三种选择,每个数据点携带产生它的机制模型、显式不确定性及可执行的反事实族,通过V&V仪器化图像到模拟管道实现,支持因果干预。
Comments 10 pages, 2 figures
最后一个可见像素:探究视觉-语言模型中的精细尺度感知
发表机构 * University of Luxembourg(卢森堡大学) ; Foyer S.A. ; Université Paris-Saclay(巴黎-萨克雷大学)
AI总结 提出FineSightBench基准,通过4-48像素尺度分离感知与推理任务,发现视觉-语言模型感知在12像素饱和,推理在更大尺度仍受限,揭示精细视觉推理的根本缺陷。
Comments 25 pages
无教师自训练放大但不复合:自由验证器域上的 Pass@$K$ 交叉
发表机构 * Federal University of Rio de Janeiro(里约热内卢联邦大学)
AI总结 在自由验证器域上,使用无教师自训练(STaR)和批评者指导的选择,发现自训练放大模型能力但不复合,通过 Pass@$K$ 交叉诊断证实。
使用深度确定性策略梯度的路径规划:一种强化学习方法
发表机构 * Hampton University(汉普顿大学) ; Air Force Research Laboratory(空军研究实验室)
AI总结 提出基于深度确定性策略梯度的路径规划方法,将威胁建模为圆形禁行区,通过奖励函数引导智能体学习从状态到动作的映射,找到最大安全起始点集,相比传统最优控制方法速度更快,适用于实时应用。
Comments 14 pages, 12 figures
超越英语基准:巴西葡萄牙语临床大语言模型评估
发表机构 * Federal University of Rio de Janeiro(里约热内卢联邦大学) ; Toronto Metropolitan University(多伦多都会大学)
AI总结 提出首个双语临床基准ClinicalBr,基于巴西病例报告构建,评估四个模型发现葡萄牙语-英语性能差距具有任务依赖性,诊断检索英语优势明显,其他任务差距消失。
通过Stein稳定化缓解扩散ODE中的收缩陷阱
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 针对扩散模型确定性概率流ODE大步长推理中的收缩陷阱问题,提出SteinDiff框架,通过Stein导出的几何感知残差校正机制正则化求解器更新,无需参考样本即可提升生成质量。
Comments 32 pages, 12 figures. Accepted to ICML 2026
联合结构剪枝与混合精度量化的大语言模型压缩
发表机构 * UiT The Arctic University of Norway(挪威北极大学) ; University of Oslo, Norway(挪威奥斯陆大学)
AI总结 提出端到端框架,通过全局误差最小化的混合精度量化策略和联合优化结构剪枝与量化策略,在超低比特下显著降低困惑度。
多智能体交互中的表征相似性与模型行为
发表机构 * University of Washington(华盛顿大学)
AI总结 研究LLM对间的表征相似性对合作与创新的影响,发现高相似性促进合作但降低新颖性,且早期层相似性关联最强。
Comments ICML 2026
MinNav:基于光流的极简导航用于主动微型飞行机器人
发表机构 * Worcester Polytechnic Institute(伍斯特理工学院) ; Perception and Autonomous Robotics (PeAR) Group, Robotics Engineering Department, Worcester Polytechnic Institute(伍斯特理工学院机器人工程系感知与自主机器人(PeAR)实验室)
AI总结 提出MinNav导航栈,利用光流及其不确定性,使微型飞行机器人在无先验知识下穿越静态/动态障碍和未知形状间隙,通过主动探索提高成功率,实验成功率70%,计算量远小于深度方法。
Comments Accepted for publication at ICRA 2026. Link to Project page https://pear.wpi.edu/research/minnav.html
模块化AI系统中的参与扩展
发表机构 * University of Washington(华盛顿大学) ; Stanford University(斯坦福大学)
AI总结 提出参与扩展范式,通过多方贡献小模型构建模块化AI系统,在15项任务上比单体大语言模型提升高达15.4%,并展现涌现能力。
SLMJury:小型语言模型能否像大型模型一样进行评判?
发表机构 * LNMIIT ; Virginia Tech(弗吉尼亚理工大学)
AI总结 提出SLMJury框架,评估小型语言模型作为评判者的能力,发现领域依赖的过度思考效应、领域泛化差异、闭端与开端评判能力分离,以及多智能体辩论降低准确性。
指令层级失效之处:诊断与修复推理语言模型的故障
发表机构 * NVIDIA(英伟达)
AI总结 提出白盒诊断框架,将指令层级失效定位为指令识别、冲突解决和响应实现三个环节,并设计两种免训练自监控机制,将违规率降低81-99%。
超越古德哈特定律:多智能体系统中合规性评估的动态基准
发表机构 * Fudan University(复旦大学) ; Shanghai Academy of AI for Science(上海人工智能科学研究院) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; Monash University(莫纳什大学)
AI总结 针对多智能体系统在压力下可能违反安全规则的问题,提出MAC-Bench动态对抗基准,通过SERV流水线生成无污染场景,并引入CSR和MG指标评估前沿模型的合规性。
通过最差维度优化改进多模态推理
发表机构 * Beijing Institute of Technology(北京理工大学)
AI总结 提出最差维度优化方法,通过识别并优先优化推理路径中最差的约束维度,提升多模态推理的整体有效性。
在资源受限环境中利用常规数据重建和预测阿尔茨海默病患者的疾病轨迹
发表机构 * Yardi School of Artificial Intelligence (ScAI), Indian Institute of Technology Delhi(印度理工学院德里分校亚迪人工智能学院) ; Department of Neurology, Vardhman Mahavir Medical College and Safdarjung Hospital(瓦尔丹·马哈维尔医学院和萨夫达戎医院神经内科) ; Department of Applied Mechanics, Indian Institute of Technology Delhi(印度理工学院德里分校应用力学系)
AI总结 提出GNOVA框架,结合GRU编码器和神经ODE解码器的变分自编码器,利用常规临床数据(无需神经影像或生物标志物)实现认知评分的双向预测、插值/外推及不确定性估计,在ADNI数据集上取得低误差。
拜占庭廉价谈话:LLM协调博弈中的对抗韧性与拓扑效应
发表机构 * Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)(穆罕默德·本·扎耶德人工智能大学)
AI总结 研究多智能体LLM在协调博弈中面对拜占庭攻击和通信拓扑限制的脆弱性,发现智能体无法集体适应背叛,且显式限制拓扑会破坏合作,而隐式限制则不影响。
Comments Accepted at NETYS 2026 (The International Conference on Networked Systems)
概念漂移检测方法的评估与基准测试框架
发表机构 * University of Coimbra(科英布拉大学) ; Victoria University of Wellington(惠灵顿维多利亚大学) ; Commerzbank(德国商业银行) ; University of Waikato(怀卡托大学) ; AI Institute, University of Waikato(怀卡托大学人工智能研究所)
AI总结 提出一个包含漂移模拟、时序感知评估和超参数优化协议的基准测试框架,在7个真实数据集上评估14种漂移检测方法,揭示其优劣并建立基线性能。
Comments Accepted in KDD'26
评估RAG在干净、误导和混合检索下的可靠性
发表机构 * Ankara University(安卡拉大学)
AI总结 提出评估协议,通过参数覆盖和置信度指标,系统测试RAG系统在干净、有毒和混合证据下处理参数知识与检索证据冲突的鲁棒性。
土地覆盖与洪水类型控制基于卫星的洪水测绘在不同全球洪水事件中的检测极限
发表机构 * Earth System Science Center, University of Alabama in Huntsville(阿拉巴马大学亨茨维尔分校地球系统科学中心) ; Space and Earth Science Data Analysis(空间与地球科学数据分析) ; NASA Marshall Space Flight Center(NASA马歇尔太空飞行中心)
AI总结 研究利用Prithvi-EO-2.0模型在19个全球洪水事件中评估卫星洪水测绘的检测能力,发现检测精度取决于土地覆盖和洪水类型,农田和河流洪水检测效果较好,而树木覆盖和建成区检测近乎为零。
解锁潜在价值:基于分类法从低层级网络语料库中恢复高性能数据
发表机构 * Amazon(亚马逊)
AI总结 提出一种分类驱动框架,通过引入时效性和文化特异性两个新维度,结合两阶段过滤方法,从低质量网络数据中恢复高性能子集,在推理和编码任务上显著超越未过滤的高质量数据。
DALE-CT: 用于计算机断层扫描的深度感知基础模型
发表机构 * University of Kentucky(肯塔基大学)
AI总结 提出DALE-CT,一种基于LeJEPA的2D切片模型,通过3D深度感知预训练(利用解剖掩膜和异常标注)提升表示质量,在CT多异常检测中达到与3D视觉语言模型近似的性能。
Comments 9 pages, 2 figures
对比编码归纳偏置:在预测性表示学习中将慢噪声与动力学分离
发表机构 * Emory University(埃默里大学)
AI总结 针对自监督方法在潜在空间预测动力学时混淆慢噪声与信号的问题,本文分析其根源为跨轨迹采样负样本的对比目标,提出通过轨迹内采样负样本消除预测捷径,从而强制编码动力学相关变量。
量子增强的极化材料分类相似度度量
发表机构 * University of Cambridge(剑桥大学)
AI总结 提出量子-经典混合流水线,将极化材料分类转化为点匹配问题,利用SWAP测试估计嵌入向量保真度,实现竞争性分类精度和开放集判别能力。
scCBGM:可解释的单细胞反事实编辑
发表机构 * University of Copenhagen(哥本哈根大学) ; University of Cambridge(剑桥大学) ; University of Amsterdam(阿姆斯特丹大学) ; University of California, Berkeley(加州大学伯克利分校) ; University of Tokyo(东京大学) ; University of Washington(华盛顿大学) ; University of Oxford(牛津大学)
AI总结 提出scCBGM框架,通过概念瓶颈架构和解耦惩罚实现单细胞反事实编辑,在组合泛化和反事实预测上表现优异。
Comments Accepted to ICML 2026; code at https://github.com/almaan/scCBGM