LoHoSearch: Benchmarking Long-Horizon Search Agents Beyond the Human Difficulty Ceiling
LoHoSearch: 超越人类难度上限的长时域搜索代理基准测试
发表机构 * Meituan(美团)
AI总结 提出LoHoSearch基准,基于700万维基实体知识图谱自动构建544个复杂问题,评估显示最强模型仅34.74%准确率,远超人类难度上限。
LoHoSearch: 超越人类难度上限的长时域搜索代理基准测试
发表机构 * Meituan(美团)
AI总结 提出LoHoSearch基准,基于700万维基实体知识图谱自动构建544个复杂问题,评估显示最强模型仅34.74%准确率,远超人类难度上限。
SymQNet: 低延迟自适应哈密顿量学习的摊销获取
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出SymQNet,一种摊销强化学习方法,通过离线学习后验条件获取策略,在线快速前向传播,显著降低自适应哈密顿量学习的获取延迟。
Bag of Dims:通过维度级符号模式实现无需训练的机制可解释性
发表机构 * Amazon Web Services(亚马逊云服务)
AI总结 本文提出Bag of Dims框架,证明Transformer隐藏状态的标准基即可作为无需训练的特征基,通过维度符号模式编码语义,并在三个模型上验证了其有效性。
Comments 22 pages, 5 figures, 27 tables
“你撒谎了吗?”评估不同规模模型和信念验证模型生物体的谎言检测器
发表机构 * AI Security Institute(AI安全研究所)
AI总结 本研究通过构建13个信念可验证的推理模型生物体和多样化提示撒谎测试集,评估了四种谎言检测器在不同规模模型上的表现,发现基于激活和概率的检测器在训练模型生物体上性能显著下降,而思维链法官保持较强性能,但存在伪影。
Comments 12 pages, 6 figures
提问的艺术:一致性增强空间推理中的事实性
发表机构 * The University of California, Berkeley(加州大学伯克利分校) ; ETH Zurich(苏黎世联邦理工学院) ; University of Oxford(牛津大学) ; Stanford University(斯坦福大学)
AI总结 提出自监督强化学习框架,通过几何与语义一致性验证器(如图像翻转、文本对象顺序交换)对齐预训练模型的内在空间推理能力,无需标注数据即可达到接近监督方法的精度。
Adv-TGD:面向人脸识别冒充攻击的对抗性文本引导扩散
发表机构 * University of South Florida, Bellini College of Artificial Intelligence, Cybersecurity and Computing(南佛罗里达大学贝利尼人工智能、网络安全与计算学院)
AI总结 提出Adv-TGD框架,利用Stable Diffusion和LoRA微调生成逼真对抗人脸,在保持视觉质量的同时实现高成功率身份冒充攻击,平均ASR达85.90%。
UPLOTS: 一种用于约束时间序列生成的统一预训练语言模型
发表机构 * University of New South Wales(新南威尔士大学) ; HKUST(GZ)(香港科技大学(广州)) ; BUAA(北京航空航天大学)
AI总结 提出UPLOTS,一种基于统一预训练语言模型和提示引导的框架,通过动态多数据集损失重加权和提示到模式映射,实现跨领域约束时间序列生成,在四个基准上验证了其泛化性和数据增强效果。
DN-Hypo-Pipeline:一种基于大语言模型和科学解释的AI驱动假设生成工作流
发表机构 * Computer Network Information Center, Chinese Academy of Sciences, China(中国科学院计算机网络信息中心)
AI总结 提出DN-Hypo-Pipeline,利用大语言模型和科学解释作为先验知识,从现有文献中推导新假设,在数据科学建模中通过统计推断和专家评估证明优于直接生成方法,并验证了生成假设对应的算法性能。
SegmentAnyTreeV2:跨传感器、平台和森林的基于Transformer的树木实例分割扩展
发表机构 * Norwegian Institute of Bioeconomy Research (NIBIO)(挪威生物经济研究所(NIBIO))
AI总结 提出SegmentAnyTreeV2,一种传感器和平台无关的森林点云语义与实例分割框架,结合Point Transformer v3骨干网络、轻量语义头和树木交叉注意力掩码解码器,在FOR-instance v3基准上达到90.5%精度和80.2%召回率,并展现出强跨域泛化能力。
Comments 25 pages, 6 figures, 10 tables, Corrected bibliography metadata and minor typographical issues; results unchanged
机场航站楼登机口与安检点旅客排队预测
发表机构 * Korea Aerospace University(韩国航空大学) ; Korea Airports Corporation(韩国机场公社)
AI总结 提出基于Transformer的框架,利用历史队列长度、等待时间和旅客吞吐量数据,预测登机口和安检点未来两小时的队列长度与等待时间,支持主动排队管理。
Comments 10 pages, 6 figures, accepted at DASC 2026
SVHighlights: 迈向极长体育视频精彩片段检测
发表机构 * Ulsan National Institute of Science and Technology(釜山国立科学研究院)
AI总结 针对现有方法无法处理超长视频精彩片段检测的问题,提出首个基准SVHighlights(包含320个平均时长2小时的体育视频)以及无训练的分段方法TF-SELECTOR,通过大语言模型融合多模态信息预测片段级显著性分数,在多个指标上超越现有基线。
Comments Accepted to KDD 2026 (Datasets and Benchmarks Track). Project Page: https://leedongkyu2019.github.io/SVHighlights/
WAV:面向深度仅解码器Transformer的多分辨率块残差路由
发表机构 * Chongqing University(重庆大学)
AI总结 提出WAV v1方法,通过为每个块增加方向性细节基(相位基和分裂基)来增强残差路由,在深层Transformer中优于现有方法,48层时在TinyStories和Text8上取得更低验证损失。
Comments 6 pages, 4 figures, 3 tables
基于主动推理的个性化癌症治疗信念空间控制
发表机构 * American Association for Cancer Research(美国癌症研究协会) ; AACR Project GENIE registry(AACR Project GENIE 注册中心) ; AACR Project GENIE Biopharma Collaborative(AACR Project GENIE 生物制药合作组织)
AI总结 提出用主动推理将癌症治疗建模为信念空间规划问题,在测量预算下统一目标导向控制与信息获取,实现患者分类与高效治疗。
Comments 11 pages including appendix
ResearchClawBench: 端到端自主科学研究基准
发表机构 * Shanghai Artificial Intelligence Laboratory(上海人工智能实验室)
AI总结 提出ResearchClawBench基准,包含10个领域40个任务,通过多模态评分标准评估自主科研能力,最强智能体仅得21.5分,揭示当前系统在实验协议、证据匹配和科学核心方面的不足。
两步物理:在视觉细化之前锁定运动先验会擦除它们
发表机构 * National Institute of Standards and Technology(国家标准与技术研究院)
AI总结 本文发现图像到视频扩散模型在两步生成中比多步生成具有更好的物理一致性,通过频谱分析将原因归结为去噪过程中的相位侵蚀,并提出无需训练的PhaseLock框架,通过从两步推理中提取运动先验并利用潜在增量引导强制到高保真生成中,有效缓解相位退化,提升物理一致性平均6.2点,同时保持视觉保真度且开销极小。
Comments ICML 2026
面向扩散模型训练的几何感知数据集压缩
发表机构 * GitHub
AI总结 针对扩散模型训练,提出基于几何感知分布对齐的真实子集选择方法,利用单侧部分最优传输保持几何结构,并辅以轻量级特征统计与语义一致性正则化,通过两阶段离散优化实现高效压缩。
Comments ICML 2026
语音基础模型是否像人类一样感知说话人相似性?
发表机构 * Keio University, Japan(庆应大学,日本) ; The University of Tokyo, Japan(东京大学,日本)
AI总结 本研究通过比较40多个语音基础模型的说话人嵌入与人类主观相似性评分,探究模型距离是否与人类感知一致,并识别影响模型与人类感知一致性的关键配置因素。
Comments Accepted by INTERSPEECH 2026. Camera-ready version
你还会称它为Dax吗?VLM与人类中的新颖视觉参照
发表机构 * McGill University(麦吉尔大学) ; Mila Quebec AI Institute(魁北克人工智能研究所) ; University of Michigan - Ann Arbor(密歇根大学安娜堡分校) ; Canada CIFAR AI Chair(加拿大CIFAR人工智能主席)
AI总结 提出新颖视觉参照数据集(NVRD),通过对比VLM和人类对新颖视觉概念的泛化能力,发现模型在矛盾先验知识时难以习得新概念,且过度泛化。
Biomazon:亚马逊盆地三维森林结构与生物量建模的多模态数据集
发表机构 * Jülich Supercomputing Centre (JSC), Forschungszentrum Jülich(julich超级计算中心(JSC),julich研究所) ; School of Engineering and Natural Sciences (SENS), University of Iceland(工程与自然科学学院(SENS),冰岛大学) ; Global Land Monitoring Group, GFZ Helmholtz Centre for Geosciences(全球土地监测组,geofz赫尔姆霍兹研究中心)
AI总结 针对现有方法未将森林垂直结构作为有序轮廓学习的问题,提出Biomazon多模态基准数据集,结合GEDI RH和AGBD目标与多传感器预测因子,通过共享编码器-解码器框架进行消融研究,为热带森林结构一致RH轮廓预测和结构-生物量建模建立参考基准。
Comments 32 pages, 21 figures, 8 tables
基于傅里叶运动建模的条件潜扩散模型用于虚拟人群合成
发表机构 * Centre for Computational Imaging and Modelling in Medicine (CIMIM)(计算医学成像与建模中心) ; University of Manchester(曼彻斯特大学) ; Christabel Pankhurst Institute(克里斯塔贝尔·潘克赫斯特研究所) ; Department of Computer Science(计算机科学系) ; Division of Informatics, Imaging & Data Sciences(信息学、成像与数据科学分会) ; Department of Electrical & Electronic Engineering(电子与电气工程系) ; NIHR Manchester Biomedical Research Centre, Manchester Academic Health Sciences Centre, University of Manchester(尼日利亚卫生研究委员会曼彻斯特生物医学研究中心、曼彻斯特学术健康科学中心、曼彻斯特大学)
AI总结 提出4D F-MeshLDM框架,结合卷积网格VAE、截断傅里叶级数运动参数化和条件扩散先验,实现可控的3D+t心脏网格序列生成,在UK Biobank数据上优于基线方法。
Comments This work has been early accepted by International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI) 2026
Cosmos 3:面向物理AI的全模态世界模型
发表机构 * NVIDIA
AI总结 提出基于统一混合Transformer架构的全模态世界模型Cosmos 3,联合处理语言、图像、视频、音频和动作序列,在理解和生成任务上达到新最优,为具身智能体提供可扩展的通用骨干。
域偏移下基于注意力机制和迁移学习的鲁棒桃叶损伤分类
发表机构 * Department of Information and Communication Engineering(信息与通信工程系) ; University of Murcia(穆尔西亚大学) ; Department of Irrigation, Centro de Edafología y Biología Aplicada del Segura CEBAS-CSIC(灌溉系,塞格拉应用土壤学与生物技术中心CEBAS-CSIC)
AI总结 提出基于注意力机制和迁移学习的桃叶损伤分类方法,通过CBAM增强EfficientNet模型在公共数据集上达到93.3%准确率,并在本地数据集上通过迁移学习实现93%宏F1分数,有效应对域偏移。
通过纠正失真改进视觉令牌减少以实现高效多模态大语言模型推理
发表机构 * KAIST(韩国科学技术院)
AI总结 提出RESTORE框架,通过校准位置和注意力失真来改进视觉令牌减少,在保持效率的同时提升多模态大语言模型性能。
Comments Accepted to ICML 2026
RCEM:配备查询重写技能的嵌入器,用于分布偏移下的鲁棒对话搜索
发表机构 * Microsoft(微软)
AI总结 提出RCEM模型,通过将LLM的查询重写能力蒸馏到嵌入模型中,实现无需显式重写的上下文感知检索,在分布偏移下提升鲁棒性。
将语义风险嵌入距离场和CBF用于在线单目安全控制
发表机构 * Division of Systems Engineering, Boston University(系统工程系,波士顿大学) ; Department of Mechanical Engineering, Boston University(机械工程系,波士顿大学) ; Department of Electrical and Computer Engineering, Texas A&M University(电气与计算机工程系,德克萨斯农工大学)
AI总结 提出一种在线单目感知到控制框架,通过将语义风险直接嵌入欧几里得符号距离场(ESDF),在控制优化前编码风险,实现基于控制障碍函数(CBF)的语义感知安全导航与遥操作。
信任区域在线策略蒸馏
发表机构 * Samsung Research(三星研究院) ; University of Oxford(牛津大学) ; Peking University(北京大学)
AI总结 提出信任区域在线策略蒸馏(TrOPD),通过信用分配策略和信任区域学习解决师生分布差异导致的训练不稳定问题,在数学推理、代码生成和通用基准上超越现有方法。
SkillRevise: 通过轨迹条件技能修订改进LLM撰写的智能体技能
发表机构 * The Hong Kong University of Science and Technology(香港科学与技术大学) ; Harbin Institute of Technology(哈尔滨工业大学) ; Harbin Institute of Technology, Shenzhen(哈尔滨工业大学(深圳)) ; Nanjing University(南京大学) ; The University of Hong Kong(香港大学)
AI总结 提出SkillRevise框架,通过执行证据诊断、修复原则检索和执行锚定编辑,迭代优化初始技能,在SkillsBench上将基础智能体成功率从36.05%提升至61.63%,并展现跨模型迁移性。
Comments 15 pages, 4 figures
AI主权作为国家学习能力:基于人本学习机制视角看法国、美国与中国
发表机构 * Univ. Lille, ENSAIT, ULR 2461 – GEMTEX(里尔大学、ENSAIT、ULR 2461 – GEMTEX)
AI总结 本文提出将国家AI发展视为一个受控的信息注入与熵耗散平衡的动态学习系统,主张AI主权源于国家调节自身信息动力学的能力,而非单纯规模扩张。
CT分割系统的部署前鲁棒性压力测试:使用临床驱动的多损坏增强
发表机构 * Seoul National University(首尔国立大学) ; Google Inc.(谷歌公司)
AI总结 提出RAMP框架,通过多损坏增强提升CT分割模型在临床异质成像条件下的鲁棒性,显著缩小干净与损坏图像性能差距。
通过组合伴随匹配实现组合优化的无监督扩散求解器
发表机构 * Language Technologies Institute, Carnegie Mellon University(卡内基梅隆大学语言技术研究所) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校)
AI总结 提出组合伴随匹配(CAM)框架,利用离散伴随动力学和随机控制公式,实现无监督训练离散扩散求解器,在多种组合优化问题上达到与监督方法竞争的性能。
Comments ICML26