Measuring the Gap Between Human and LLM Research Ideas
衡量人类与LLM研究想法之间的差距
发表机构 * Yale University(耶鲁大学) ; University of Chicago(芝加哥大学)
AI总结 本文构建大规模评估框架,通过逆向工程提取论文核心想法,引入双轴研究品味分类法,发现LLM想法集中在桥梁式机会和综合方法,而人类想法分布更广,揭示两者系统性差距。
衡量人类与LLM研究想法之间的差距
发表机构 * Yale University(耶鲁大学) ; University of Chicago(芝加哥大学)
AI总结 本文构建大规模评估框架,通过逆向工程提取论文核心想法,引入双轴研究品味分类法,发现LLM想法集中在桥梁式机会和综合方法,而人类想法分布更广,揭示两者系统性差距。
一层就够了吗?训练单个Transformer层可以匹配全参数RL训练
发表机构 * University of Minnesota(明尼苏达大学) ; Peking University(北京大学) ; Amazon(亚马逊)
AI总结 发现RL训练收益高度集中在少数Transformer层,仅训练单层即可恢复大部分全参数RL收益,且高贡献层集中在模型中部。
语言-批评模仿学习从次优演示中
发表机构 * Graduate Institute of Communication Engineering, National Taiwan University (NTU)(国立台湾大学通信工程研究所) ; University of Utah(犹他大学) ; National Yang Ming Chiao Tung University(国立阳明交通大学) ; NTU Artificial Intelligence Center of Research Excellence(国立台湾大学人工智能研究中心)
AI总结 提出语言批评框架,用自然语言作为结构化监督信号从次优演示中学习策略,避免压缩为标量,在连续控制任务上优于基线方法。
AutoMem:自动化学习记忆作为认知技能
发表机构 * Stanford University(斯坦福大学)
AI总结 提出AutoMem框架,通过双循环自动优化LLM的记忆管理结构和使用能力,在长时域任务中提升性能约2-4倍。
Comments Project Website: https://autolearnmem.github.io/
Theoria: 非正式推理状态上的重写-可接受性验证
发表机构 * Independent Researchers(独立研究者)
AI总结 提出Theoria验证架构,通过将候选解重写为带显式理由的序列化状态转换并验证变更完整性,在HLE-Verified Gold上以91.4%精确率认证105个问题,优于整体式LLM评判。
Ink3D: 通过视频生成模型雕刻具有极其复杂纹理的3D资产
发表机构 * ZGCA & ZGCI ; Microsoft Research(微软研究院) ; Zhejiang University(浙江大学) ; HKUST(香港科技大学)
AI总结 提出Ink3D框架,利用大规模视频生成模型合成复杂纹理,通过OrbitPainter生成密集轨道扫描视频,并用TextureOptimizer进行神经烘焙以生成一致纹理。
Comments Accepted to ECCV 2026. Project page: https://yuehan99.github.io/Ink3D-TextureGen/
状态-预测分离假说
发表机构 * Cornell University(康奈尔大学) ; Harvard University(哈佛大学)
AI总结 提出状态-预测分离假说,通过双流Transformer解耦状态存储与下一词预测,在预训练中提升数据与计算效率,下游任务平均提升2-3个百分点。
Comments Preprint
FurnitureVLA: 使用视觉-语言-动作模型学习长时域双臂家具组装
发表机构 * Mitsubishi Electric Research Laboratories(三菱电机研究实验室) ; University of Oxford(牛津大学) ; University of North Carolina at Chapel Hill(北卡罗来纳大学教堂山分校)
AI总结 提出FurnitureVLA,首个使用视觉-语言-动作模型进行真实尺寸双臂家具组装的系统,通过进度增强VLA和设计因素研究,将平均模拟成功率从48%提升至80%。
Comments Project Page: https://dannymcy.github.io/furniturevla/
蒸馏检测:通过弹药筒蒸馏揭露大语言模型中的隐蔽偏见
发表机构 * Stanford University(斯坦福大学) ; University of Texas at Austin(德克萨斯大学奥斯汀分校) ; Foundation AI–Cisco Systems Inc.(Foundation AI–思科系统公司)
AI总结 提出Distill to Detect (D2D)方法,通过蒸馏模型与基座之间的分布偏移到KV缓存前缀适配器中,放大隐蔽偏见信号至可检测程度,并基于Fisher加权投影理论解释其有效性。
Comments Accepted to the ICML 2026 Workshops on TAIGR, AI4GOOD, Mechanistic Interpretability, and CoLoRAI
Linkify: 从接口增强的装配图中学习
发表机构 * Iowa State University(爱荷华州立大学) ; Autodesk Research(欧特克研究院)
AI总结 提出Linkify框架,通过接口增强的装配图学习部件间几何信息,实现机械装配中的上下文感知部件检索,采用图注意力网络解决掩码部件预测任务。
Comments Code is available at https://github.com/ajignasu/linkify
TiRex-2: 将 TiRex 推广到多变量数据和流式处理
发表机构 * ELLIS Unit Linz, LIT AI Lab & Institute for Machine Learning, JKU Linz, Austria(ELLIS 林茨单元,LIT AI 实验室与机器学习研究所,林茨约翰·开普勒大学,奥地利) ; NXAI Lab, Linz, Austria(NXAI 实验室,林茨,奥地利) ; NXAI GmbH, Linz, Austria(NXAI 有限公司,林茨,奥地利) ; Interdisciplinary Transformation University Austria, Linz, Austria(奥地利跨学科转型大学,林茨,奥地利)
AI总结 提出基于 xLSTM 的循环时间序列基础模型 TiRex-2,通过记忆中心设计实现多变量预测与流式处理,在零样本任务上达到最优性能。
世界源于运动:从单目视频生成动态高斯重建
发表机构 * Stanford University(斯坦福大学) ; NVIDIA(英伟达)
AI总结 提出World from Motion方法,利用视频模型从单目视频生成可自由渲染的动态3D高斯表示,通过像素对齐渲染校正伪影并填充缺失区域,实现4D重建新高度。
Comments Project page: https://research.nvidia.com/labs/amri/projects/world-from-motion/
基于逆动力学建模的无传感器四通道控制架构用于人尺度双边遥操作
发表机构 * University of Alberta(阿尔伯塔大学)
AI总结 针对人尺度遥操作中高惯性、建模困难和力传感器依赖问题,提出基于逆动力学的无传感器四通道架构,在WAM平台上验证,优于传统方案,提升位置/力跟踪并降低操作力。
量子与经典机器学习:统一的实证比较
发表机构 * Hebei Normal University(河北师范大学) ; Kyushu University(九州大学) ; University of Luxembourg(卢森堡大学)
AI总结 通过七组监督学习和强化学习模型的实证比较,发现当前量子机器学习模型在预测性能、策略稳定性和训练时间上尚未超越经典基线,但在噪声过滤和假阳性控制方面具有潜力。
Comments This paper has been accepted for a poster presentation at the 5th CCF Quantum Computation Conference (CQCC 2026) on August 3, 2026
感知到推理:解耦感知与推理用于细粒度视觉推理
发表机构 * Zhejiang University(浙江大学) ; Alibaba Group(阿里巴巴集团)
AI总结 提出Perceive-to-Reason (P2R)框架,将细粒度视觉推理解耦为感知和推理两阶段,并引入PRA-GRPO强化学习策略,在多个高分辨率基准上显著提升性能。
Comments Code: https://github.com/ZJU-REAL/Perceive-to-Reason
组合优化问题的神经证书定价
发表机构 * Rice University(莱斯大学)
AI总结 提出神经证书定价(NCP)方法,利用无监督学习预测证书级对偶价格,通过结构化恢复层构建原始边际,实现摊销分离,在三个组合优化问题上显著优于或匹配现有方法,且泛化性强。
以正确的方式正确:结合可验证奖励和人类演示的LM训练
发表机构 * MIT EECS(麻省理工学院电气工程与计算机科学系)
AI总结 提出对抗生成器-判别器框架,在可验证奖励基础上加入人类演示信号,同时优化任务准确性和非可验证属性,在代码修复、故事生成等任务中提升人类相似度并减少奖励黑客行为。
QuasiMoTTo: 准蒙特卡洛测试时扩展
发表机构 * Stanford University(斯坦福大学)
AI总结 提出QuasiMoTTo方法,利用准蒙特卡洛相关采样替代独立同分布采样,在推理和强化学习中减少冗余,以更少样本达到相同性能。
高维嵌入先验用于噪声k空间域MRI重建
发表机构 * School of Advanced Manufacturing, Nanchang University(南昌大学先进制造学院) ; School of Mathematics and Computer Science, Nanchang University(南昌大学数学与计算机科学学院) ; School of Information Engineering, Nanchang University(南昌大学信息工程学院) ; Academy of Medical Engineering and Translational Medicine, Medical School, Faculty of Medicine, Tianjin University(天津大学医学部医学工程与转化医学研究院) ; Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences(中国科学院深圳先进技术研究院)
AI总结 针对噪声k空间MRI重建,提出高维嵌入框架增强扩散模型表示能力,在多种噪声和欠采样条件下提升重建质量,尤其在高噪声场景效果显著。
面向样本生成模型的决策感知训练
发表机构 * University of Augsburg, Germany(奥格斯堡大学)
AI总结 针对样本生成模型训练目标忽视下游决策成本的问题,提出将可微决策损失与能量分数结合,实现决策感知训练,在保持完整概率预测的同时提升成本敏感区域性能。
面向AI安全评估的对抗语用学:指令冲突、嵌入命令与策略模糊性基准
发表机构 * Humber Polytechnic(汉博理工学院) ; University of Toronto(多伦多大学)
AI总结 提出对抗语用学基准和标注协议,通过语言学控制的分类法评估模型在指令冲突、嵌入命令等场景下的行为,为安全评估提供实证和方法论工具。
Comments 15-page main paper plus 9-page supplement; 6 figures and 8 tables total; code and data artifact available at the linked repository
AGC-Bench:衡量人工通用创造力
发表机构 * Pennsylvania State University(宾夕法尼亚州立大学) ; University of Massachusetts Lowell(马萨诸塞大学洛厄尔分校) ; University of Amsterdam(阿姆斯特丹大学) ; Amazon AGI(亚马逊AGI) ; Dartmouth College(达特茅斯学院)
AI总结 提出AGC-Bench基准,通过系统文献综述和标准化框架评估LLM创造力,发现单一创造力因子'c',并验证提示'要有创造力'比推理更有效。
EquiSteer: 面向更公平的文本引导图像生成的交叉注意力引导
发表机构 * Queen Mary University of London(伦敦玛丽女王大学) ; Huawei Noah’s Ark(华为诺亚方舟实验室) ; King’s College London(伦敦国王学院) ; Imperial College London(帝国理工学院)
AI总结 提出EquiSteer,一种无需训练的方法,通过在推理时引导交叉注意力激活来减少文本到图像扩散模型中的性别偏见,平均减少高达87%的性别差异。
一种用于多变量时间序列的轻量级自监督学习框架:基于层次JEPA的心电图数据方法
发表机构 * Research Institute of Basic Sciences, Seoul National University(首尔大学基础科学研究院)
AI总结 提出ER-JEPA,一种轻量级自监督学习框架,通过层次化联合嵌入预测架构对多变量时间序列进行表征学习,在心电图数据上实现高效预训练和下游任务最优性能。
Comments 25 pages, 7 figures. Code will be made publicly available soon
序列控制交互式多粒子流图用于在线反馈驱动搜索
发表机构 * Uppsala University(乌普萨拉大学)
AI总结 提出序列控制交互式多粒子流图(IMPFM),通过多粒子交互和流图驱动的后验样本共享机制,实现在线反馈驱动搜索中的全局探索与偏好对齐,避免模式崩溃和权重退化。
Comments 28 pages, 19 figures
以关系为中心的开放词汇3D高斯分割
发表机构 * Seoul National University(首尔大学)
AI总结 提出PairGS框架,通过建模高斯间成对关系实现开放词汇3D高斯分割,无需逐场景优化,速度比优化方法快50倍。
Comments Project Page: https://eunsungcha.github.io/PairGS-web/
SD-RouteFusion:基于SD地图路线条件的自车轨迹预测
发表机构 * Zenseact
AI总结 提出SD-RouteFusion,融合前视相机、车辆动力学和SD地图导航路线进行自车轨迹预测,无需HD地图,通过双假设设计和门控分类器实现鲁棒融合,在8秒预测时ADE降低16.9%。
Comments 9 pages, 4 figures, 29th International Conference on Information Fusion
迈向度量无关的轨迹预测
发表机构 * RWTH Aachen University(亚琛工业大学) ; Eindhoven University of Technology(埃因霍温理工大学)
AI总结 提出度量无关的概率训练目标,并引入TraDiE策略将预测分布映射为轨迹和置信度,实现度量优化作为下游任务,在Waymo基准上取得最优结果。
Comments ECCV 2026. Project page at https://vision.rwth-aachen.de/TraDiE-policies
通过迭代元反射实现自主科学发现
发表机构 * University of Edinburgh(爱丁堡大学) ; Massachusetts Institute of Technology(麻省理工学院)
AI总结 提出DiscoPER框架,利用大语言模型进行开放式的自主科学发现,通过动态代码生成、统计检验和二阶推理机制,在iNatDisco基准上以72.7%假设支持率恢复8/9已知模式。
Log$_\ ext{b}$Quant: 在对数空间中量化语言模型
发表机构 * School of Computation, Information and Technology, Technical University of Munich(慕尼黑工业大学计算、信息与技术学院)
AI总结 提出Log$_\ ext{b}$Quant,一种可调基数的对数量化方法,适应常见参数分布,在4位精度下优于非对称线性量化,实现适度加速和高内存节省。