LakeQA: An Exploratory QA Benchmark over a Million-Scale Data Lake
LakeQA:百万级数据湖上的探索性问答基准
发表机构 * Columbia University(哥伦比亚大学) ; New York University(纽约大学) ; Barnard College(巴纳德学院)
AI总结 提出LakeQA基准,要求LLM在9.5TB异构数据湖中搜索并多跳推理,GPT-5.2仅达18.37%精确匹配,挑战性强。
LakeQA:百万级数据湖上的探索性问答基准
发表机构 * Columbia University(哥伦比亚大学) ; New York University(纽约大学) ; Barnard College(巴纳德学院)
AI总结 提出LakeQA基准,要求LLM在9.5TB异构数据湖中搜索并多跳推理,GPT-5.2仅达18.37%精确匹配,挑战性强。
Trace2Policy:从专家行为轨迹到自我进化的决策代理
发表机构 * SF Express(顺丰速运)
AI总结 提出Trace2Policy框架,通过错误驱动的迭代技能精炼(EISR)从专家行为中提取可读规则,在合规敏感任务中规则质量是关键性能杠杆,经8轮迭代后编译为确定性Python代码达到79.6%准确率,并在实际部署中优于纯LLM基线。
GuideWalk: 面向人形机器人的统一自主导航与运动学习,适用于多种地形
发表机构 * Harbin Institute of Technology(哈尔滨工业大学) ; Leju Robotics(乐聚机器人)
AI总结 提出GuideWalk框架,通过可通行性感知导航引导与地形自适应运动教师蒸馏,实现人形机器人在复杂地形上的稳定导航与运动协调。
通过量子表示缓解低信噪比金融强化学习中的偏差
发表机构 * The Hong Kong University of Science and Technology(香港科技大学)
AI总结 针对低信噪比金融市场中SAC算法的不稳定性,提出FPQC-SAC变体,在表征层使用参数化量子电路约束特征传播,减少极端波动影响,在真实组合管理任务中累计收益相对提升66.89%。
SpenseGPT: 面向LLM推理的实用一次性剪枝,支持稀疏和稠密GEMM
发表机构 * Snowflake AI Research(Snowflake AI研究) ; Seoul National University(首尔大学)
AI总结 提出Spense混合稀疏-稠密格式,将权重矩阵分为2:4稀疏和稠密区域,结合一次性剪枝方法SpenseGPT,在B200 GPU上实现高达1.2倍端到端解码加速,同时保持模型精度。
基于方差加权子图拼接的信息保持连续占据地图构建
发表机构 * University of Technology Sydney(悉尼科技大学) ; University of Edinburgh(爱丁堡大学)
AI总结 提出首个连续概率子图拼接框架,通过信息保持稀疏贝叶斯公式压缩观测数据为充分统计量,联合优化子图位姿与全局占据场,实现高精度位姿估计与全局一致性地图。
并行因果关联域:用于长上下文语言建模的门控稀疏记忆
发表机构 * Independent Researcher(独立研究员)
AI总结 提出并行因果关联域(PCAF),通过哈希桶存储局部记录、检索候选集形成稀疏缓存,并与参数化语言模型门控混合,实现稀疏长上下文访问,避免固定状态瓶颈。
视觉辅助的基础模型解决多任务车辆路径问题
发表机构 * School of Computing and Information Systems, Singapore Management University(新加坡管理大学计算与信息系统学院) ; Institute of Marine Science and Technology, Shandong University(山东大学海洋科学与技术研究院) ; College of Computing and Data Science, Nanyang Technological University(南洋理工大学计算与数据科学学院) ; Centre for Frontier AI Research, Institute of High Performance Computing, Agency for Science, Technology and Research(新加坡科技研究局高性能计算研究所前沿人工智能研究中心)
AI总结 提出视觉辅助基础模型VaFM,通过将约束编码为图像并融合图节点嵌入,同时解决16种VRP变体,在复杂约束变体上超越现有方法。
哪种LoRA?多语言指令微调中LoRA技术有效性的实证研究
发表机构 * School of Mathematical and Computational Sciences, Massey University(梅西大学数学与计算科学学院)
AI总结 通过实验比较基本LoRA与四种变体在多语言指令微调中的效果,发现复杂变体在平衡跨语言迁移与知识保留方面并无显著优势。
WebChallenger: 一个可靠且高效的通用型Web智能体
发表机构 * ML Collective ; longsurf.ai ; Independent(独立研究者)
AI总结 提出WebChallenger框架,通过PageMem结构化页面表示、分治观察、轻量探索记忆和复合动作工作流,复现人类认知优势,使开源模型在多个Web导航基准上接近前沿专有系统性能。
灵魂计算:具有独立意识的智能体的理论框架与技术架构
发表机构 * Innovation and Management Center, School of Software Technology, Zhejiang University (Ningbo)(浙江大学(宁波)软件学院创新与管理中心) ; School of Software Technology, Zhejiang University, Ningbo(浙江大学软件学院(宁波))
AI总结 本文提出“灵魂计算”范式,区分狭义与广义概念,构建以意向性核心为特征的智能体架构,实现AI从工具到生命体的转变。
密集声景中鸟鸣的时频定位
发表机构 * Acoustic Research Laboratory, National University of Singapore(新加坡国立大学声学研究实验室) ; Tropical Marine Science Institute, National University of Singapore(新加坡国立大学热带海洋科学研究所) ; School of Marine Science and Technology, Northwestern Polytechnical University(西北工业大学航海学院)
AI总结 将鸟鸣检测视为频谱图上的目标检测任务,训练YOLO11模型在密集热带声景中定位鸟鸣,并引入IoMin评估指标,在分布内和分布外数据上均优于基线。
FOGO:遗忘感知正交化优化器
发表机构 * School of Computer Science and Engineering, University of New South Wales(新南威尔士大学计算机科学与工程学院) ; Department of Data Science & AI, Monash University(莫纳什大学数据科学与人工智能系) ; DEVCOM Army Research Laboratory(DEVCOM陆军研究实验室)
AI总结 提出FOGO优化器,通过谱正交化动量更新并利用紧凑码本记忆解决梯度干扰,在类别不平衡、持续学习和大模型微调等场景中提升收敛与知识保留。
KCSAT-ML: 用全国队列人类难度探测推理模型
发表机构 * NAVER Cloud AI(NAVER云AI) ; KAIST AI(韩国科学技术院人工智能系)
AI总结 提出KCSAT-ML基准(含664道韩国高考数学题及339道带官方错误率的核心题)和难度对齐推理增益(DRG)指标,揭示视觉语言模型在人类高错误率题目上准确率崩溃、测试时缩放非单调以及同一模型族内反缩放与过度思考并存的现象。
利用野外AI代理的集体智慧实现新发现
发表机构 * Together AI ; Stanford University(斯坦福大学)
AI总结 提出EinsteinArena平台,通过开放分布式环境中的自主代理交互,在数学问题中实现12项新最优结果,展示了集体AI驱动研究的范式。
视觉语言模型是看见还是猜测?通过措辞控制基准衡量和减少文本先验依赖
发表机构 * Lossfunk ; Indian Institute of Technology Roorkee(印度理工学院罗尔基分校) ; Raeth AI
AI总结 本文构建了540张图像的基准,通过为同一图像生成四种措辞变体,衡量视觉语言模型对文本先验的依赖,发现所有模型在最难变体上性能下降,开放模型下降最严重,并通过无图像消融等分析证实了真正的图像依赖。
基于高效RWKV的三维点云表示学习
发表机构 * School of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics(南京航空航天大学计算机科学与技术学院) ; Shenzhen Institute of Research, Nanjing University of Aeronautics and Astronautics(南京航空航天大学深圳研究院) ; Collaborative Innovation Center of Novel Software Technology and Industrialization(新型软件技术与产业化协同创新中心) ; Urban Data Science section, Delft University of Technology(代尔夫特理工大学城市数据科学部) ; Huazhong University of Science and Technology(华中科技大学)
AI总结 提出P-RWKV模块,通过局部感知扩展和空间上下文增强,将RWKV从序列建模适配到3D点云,实现线性复杂度的全局依赖建模,在多项任务中以更低计算成本取得竞争性能。
STAGE-Claw:面向真实场景的基于状态的智能体自动化基准测试
发表机构 * The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation(中国科学院自动化研究所复杂系统认知与决策智能重点实验室) ; School of Advanced Interdisciplinary Sciences, University of Chinese Academy of Sciences(中国科学院大学前沿交叉科学学院) ; Chinese Academy of Sciences(中国科学院) ; University of Chinese Academy of Sciences(中国科学院大学) ; Zhongguancun Academy(中关村学院) ; Zhongguancun Institute of Artificial Intelligence(中关村人工智能研究院) ; Meituan(美团)
AI总结 提出STAGE-Claw框架,自动构建基于状态的个人计算环境中的真实场景任务,通过最终系统状态而非文本响应评估智能体性能,创建40个挑战性任务并分析11个前沿模型。
超越静态评估:对抗性游戏中LLM驱动策略演化的协同进化机制
发表机构 * Baidu Inc.(百度公司) ; University of Chinese Academy of Sciences(中国科学院大学) ; University of California, Los Angeles(加州大学洛杉矶分校) ; University of Science and Technology of China(中国科学技术大学) ; Zhejiang University(浙江大学) ; University of Technology Sydney(悉尼科技大学)
AI总结 针对LLM驱动代码进化在对抗性多智能体游戏中因评估景观变化导致停滞的问题,提出评估器协同进化、层次深度评估和弱点压力三种机制,在MCTF任务中实现最优性能和泛化能力。
超越绝对模仿:基于锚定残差引导的特权在线蒸馏
发表机构 * South China University of Technology(华南理工大学)
AI总结 提出锚定残差在线蒸馏(AR-OPD),通过部分特权教师建立局部兼容锚点并注入受控残差,解决特权在线蒸馏中后见偏差导致的局部不可达问题,在推理任务上平均提升2.3个点。
心理健康对话中的专家级危机检测
发表机构 * Department of Computer Science, Emory University(埃默里大学计算机科学系) ; Department of Psychiatry and Behavioral Sciences, Emory University(埃默里大学精神病学与行为科学系)
AI总结 提出CRADLE-Dialogue基准数据集和Alert-Confirm评估协议,用于对话中危机检测,发现模型在识别风险出现时机上表现较差,并发布合成训练语料和32B参数模型。
PF-Trans:物理嵌入的频率感知Transformer用于光谱重建
发表机构 * National Natural Science Foundation of China(国家自然科学基金委员会)
AI总结 针对快照宽带滤光片阵列成像中的光谱混叠问题,提出物理嵌入的频率感知Transformer(PF-Trans),通过掩膜注入和灰度一致性损失保证物理保真度,并引入双域块并行FFT分支抑制频域伪影,在GF-5上海数据集上PSNR达48.50 dB。
测试时对抗接管:针对机器人扩散策略的实时劫持接口
发表机构 * Tsinghua University(清华大学) ; Independent Researcher(独立研究员) ; Johns Hopkins University(约翰霍普金斯大学) ; UC Berkeley(加州大学伯克利分校)
AI总结 提出测试时对抗接管(TAKO)方法,通过可微扩散推理学习可重复使用的通用补丁,在测试时切换补丁以劫持机器人策略,实现远程操控,在多种任务和模型上达到100%接管成功率。
语音遇见ELF:用于语音识别和翻译的音频条件连续目标扩散
发表机构 * Tianjin University(天津大学) ; Shanghai Jiao Tong University(上海交通大学) ; Nankai University(南开大学)
AI总结 提出ELF-S2T,一种基于预训练ELF骨干的音频条件连续目标生成模型,通过音频强制训练和分类器自由引导,在LibriSpeech和CoVoST2上实现竞争性ASR和S2TT性能,并揭示识别与翻译错误均源于连续潜空间中的近距离混淆。
提升VLA评估中仿真与真实相关性的实用指南
发表机构 * Tsinghua University(清华大学) ; Shanghai Qi Zhi Institute(上海期智研究院)
AI总结 本文系统研究仿真与真实环境在VLA策略评估中的相关性,提出统一框架来测量和提升仿真作为真实评估代理的有效性。
KFC-KWS: 基于CTC的关键帧融合用于用户自定义关键词唤醒
发表机构 * School of Electronics and Information Engineering, Hangzhou Dianzi University(杭州电子科技大学电子信息学院) ; School of Communication Engineering, Hangzhou Dianzi University(杭州电子科技大学通信工程学院)
AI总结 提出KFC-KWS多模态框架,利用CTC引导的关键帧选择对齐音频、音素和文本模态,通过交叉注意力融合关键帧与全句表示,在LibriPhrase上达到98.73% AUC,困难子集上97.65% AUC和7.75% EER,有效区分易混淆关键词。
梯度引导的推理时对齐奖励优化
发表机构 * Purdue University(普渡大学)
AI总结 提出梯度引导奖励优化(GGRO)方法,通过解码时注入梯度信号生成的引导令牌,在推理时微调生成轨迹,提升安全性、有用性和推理性能,并增强对奖励攻击的鲁棒性。
OpenBibleTTS:面向低资源语言的大规模语音资源与TTS模型
发表机构 * McGill University(麦吉尔大学) ; Mila - Quebec AI Institute(米拉-魁北克人工智能研究所) ; AIMS Research and Innovation Centre(AIMS研究与创新中心) ; NM-AIST ; Saarland University(萨尔大学) ; Canada CIFAR AI Chair(加拿大CIFAR人工智能教席)
AI总结 针对低资源语言TTS研究不足的问题,提出包含37种语言的OpenBibleTTS基准,系统比较多种TTS架构,发现无单一系统通用,并开源数据集与模型。
评估卡:AI评估报告的解释层
发表机构 * Hugging Face ; Stanford University(斯坦福大学) ; Queen Mary University of London(伦敦玛丽女王大学) ; University of Copenhagen(哥本哈根大学) ; Trustible ; EleutherAI ; TU Darmstadt(达姆施塔特工业大学) ; Weizenbaum Institute & Technical University of Munich(魏森鲍姆研究所与慕尼黑工业大学) ; Harvard University(哈佛大学) ; The Hebrew University of Jerusalem(耶路撒冷希伯来大学) ; Iowa State University(爱荷华州立大学) ; IBM Research(IBM研究院) ; University of Chicago(芝加哥大学) ; Independent(独立) ; Berkeley AI Safety Institute (BASIS)(伯克利人工智能安全研究所) ; Simula ; University of Edinburgh(爱丁堡大学) ; ETH Zurich & ETH AI Center(苏黎世联邦理工学院与ETH AI中心) ; Oxford Internet Institute(牛津互联网研究所) ; Amherst College(阿默斯特学院) ; University of Nebraska(内布拉斯加大学) ; Syntony Research ; McGill University(麦吉尔大学) ; Evals Consensus ; Israel Institute of Technology(以色列理工学院) ; IOL.Learn & Zuse Institute Berlin(IOL.Learn与柏林祖泽研究所) ; Georgia Institute of Technology(佐治亚理工学院) ; Quebec AI Institute, Université de Montréal(魁北克人工智能研究所,蒙特利尔大学) ; University of Notre Dame(圣母大学) ; Georgetown University(乔治城大学) ; DHBW Stuttgart(斯图加特双元制大学) ; Massachusetts Institute of Technology(麻省理工学院)
AI总结 针对AI评估报告不一致的问题,提出EvalCards作为统一记录层,通过结构化模式、四种解释信号和监控工具,覆盖5816个模型和635个基准,揭示报告实践中的系统性差距。
GenEyePose:用于数字神经生理学生物标志物开发的无患者、基于知识的扫视眼动建模
发表机构 * Whiting School of Engineering, Johns Hopkins University(约翰霍普金斯大学惠廷工程学院) ; Department of Neurology, Johns Hopkins Medicine(约翰霍普金斯医学院神经内科)
AI总结 提出首个全合成、无患者的多模态眼动生成流水线,用于泛化扫视分析;基于合成数据训练的深度学习分类器在真实临床数据上区分正常与异常扫视精度,AUROC达0.76。