When Roleplaying, Do Models Believe What They Say?
角色扮演时,模型是否相信它们所说的话?
发表机构 * MATS
AI总结 通过线性真实探针研究角色扮演对LLM内部表征的影响,发现角色扮演主要改变输出而非内部真实表征,而紧急错位则更显著地改变内部表征。
角色扮演时,模型是否相信它们所说的话?
发表机构 * MATS
AI总结 通过线性真实探针研究角色扮演对LLM内部表征的影响,发现角色扮演主要改变输出而非内部真实表征,而紧急错位则更显著地改变内部表征。
枢纽或边缘:基于网页图中心性的预训练数据选择
发表机构 * Princeton Language and Intelligence(普林斯顿语言与智能) ; Princeton University(普林斯顿大学)
AI总结 提出WebGraphMix框架,利用Common Crawl主机级网页图的结构中心性得分调整预训练数据中中心与边缘文档的比例,无需模型训练或标注数据,在400M和1B参数模型上平均性能提升至41.4%。
通过闭环仿射激活编辑引导多机器人行为
发表机构 * University of Southern California(南加州大学)
AI总结 提出CLAE框架,在推理时通过编辑冻结策略的中间激活来引导多机器人行为,无需微调或重训练,并在多四旋翼导航任务中验证了速度控制、编队保持和规避监控等新行为。
准确且资源高效的联邦持续学习
发表机构 * University of Southern California(南加州大学) ; DEVCOM Army Research Office(DEVCOM陆军研究办公室)
AI总结 提出FedRAN框架,通过紧凑随机特征统计替代梯度更新,利用截断SVD降低通信开销,结合原型伪标签处理标签稀缺,在多个数据集上提升准确率并大幅降低资源消耗。
迈向全自动考试评分:基于基础模型的笔迹答案公平性识别
发表机构 * Institute for Machine Learning and Analytics (IMLA), Offenburg University(奥芬堡大学机器学习和分析研究所(IMLA))
AI总结 提出使用视觉-语言基础模型(VLM)识别手写答案,在61份考试(3141个答案位置)上达到98.4%准确率,并通过轻量提示将假阴性率降至0.58%,实现公平的全自动评分。
CRUMB: 通过分布匹配上下文批处理实现高效先验拟合网络推理
发表机构 * Global Technology Applied Research, JPMorganChase(摩根大通全球技术应用研究)
AI总结 提出CRUMB方法,通过聚类查询、最小化最大均值差异选择训练子集、再执行精确推理,在不重新训练的情况下加速先验拟合网络推理,在51个数据集上优于同类方法。
LLM推理的周期表:推理范式、方法与失败模式的结构化综述
发表机构 * Singapore Institute of Technology(新加坡理工大学) ; Nvidia AI Center (SNAIC)(英伟达人工智能中心(SNAIC)) ; MIDAS Lab, IIIT Delhi(IIIT德里MIDAS实验室) ; MIDAS Lab, IIT Mandi(IIT曼迪MIDAS实验室) ; Owl Autonomous Imaging, Inc.(Owl自主成像公司) ; College of Computing & Data Science, NTU Singapore(新加坡南洋理工大学计算与数据科学学院) ; NVIDIA AI Technology Centre, Singapore(英伟达新加坡人工智能技术中心) ; Department of Computer Science and Engineering, IIT Kanpur(IIT坎普尔计算机科学与工程系)
AI总结 本文系统综述了300多篇论文,提出LLM推理研究的结构化分类法,涵盖多种推理范式,分析方法论趋势,并总结常见限制与失败模式,旨在为开发更鲁棒、可解释和可泛化的推理系统提供参考。
PT-WNO: 结合小波神经算子的点Transformer用于3D点云语义分割
发表机构 * Lehigh University(里海大学)
AI总结 针对点云语义分割中全局上下文不足的问题,提出PT-WNO,通过在跳跃连接旁集成可学习的小波神经算子分支捕获多尺度全局频谱上下文,在四个基准上提升性能。
基于Transformer的乒乓球状态预测器弥合仿真到现实的差距
发表机构 * Sony AI, Zürich, Switzerland(索尼AI,苏黎世,瑞士) ; Sony AI, Tokyo, Japan(索尼AI,东京,日本)
AI总结 提出基于Transformer的乒乓球状态预测框架,利用注意力机制建模长程时间依赖,结合大规模真实数据集,并引入SPAD策略替换仿真器,无需重新训练即可缩小sim2real差距。
基于LSTM的财产保险损失准备金结构性断点检测:气候信息方法
发表机构 * Stony Brook University(石溪大学)
AI总结 针对气候变化导致传统精算方法失效的问题,提出使用LSTM神经网络检测结构性断点,在佛罗里达和路易斯安那州数据上预期将巨灾年份准备金精度提升15-20%,并给出理论保证。
APEX: 具有动态数据选择的自动提示工程专家
发表机构 * Google(谷歌) ; UCLA(加州大学洛杉矶分校)
AI总结 提出APEX框架,通过动态数据分层(易、难、混合)优先选择高杠杆子集,在固定预算下提升提示优化效率,在三个基准上平均提升11.2%和6.8%。
社会科学中的AI编码智能体:方法多样,经验一致,解释脆弱
发表机构 * University of Oxford(牛津大学) ; University of Zurich(苏黎世大学) ; Technical University of Munich(慕尼黑工业大学)
AI总结 研究LLM智能体在科学分析中的方法多样性与解释脆弱性,通过20次独立实验发现智能体在设计层匹配或超越人类多样性,但在裁决层易受提示影响,偏差源于解释而非估计。
探索自适应掩码重建用于自监督基于骨架的动作识别
发表机构 * Hefei University of Technology(合肥工业大学) ; Jilin University(吉林大学) ; Zhejiang Gongshang University(浙江工商大学) ; University of Science and Technology of China(中国科学技术大学)
AI总结 提出自适应掩码重建(AMR)框架,通过解耦编码器-解码器并引入自适应引导模块,加速预训练并提升下游动作识别精度,在多个数据集上超越现有方法。
AI编码智能体能够复现社会科学研究结果
发表机构 * University of Oxford(牛津大学) ; University of Zurich(苏黎世大学) ; Carnegie Mellon University(卡内基梅隆大学) ; New York University(纽约大学)
AI总结 本研究构建SocSci-Repro-Bench基准测试,评估Claude Code和Codex两个前沿编码智能体在221项社会科学任务中的复现能力,发现它们能复现大部分结果,且Claude Code表现更优,同时提示框架会影响确认性规范搜索。
3D-CBM:生成式3D建模中基于概念可解释性的框架
发表机构 * Yubree Labs ; Multimedia Interaction and Communication Lab, Arab Academy for Science and Technology(阿拉伯科学技术学院多媒体交互与通信实验室)
AI总结 提出将概念瓶颈模型(CBM)融入3D生成架构,通过多层级可解释原语和功能属性映射,实现语义可操控的3D生成,实验验证了高概念预测精度和交互式纠错能力。
将未来行为预测作为学习任务
发表机构 * Bar-Ilan University(巴伊兰大学) ; Allen Institute for AI(艾伦人工智能研究所) ; UK AI Security Institute(英国人工智能安全研究所)
AI总结 提出将AI行为预测作为可学习任务,训练行为预测器从推理轨迹中预测未来行为,无需解释步骤,在两项任务上优于GPT-5.4和Claude Opus-4.6。
INFRAMIND: 基础设施感知的多智能体编排
发表机构 * University of Central Florida(中佛罗里达大学)
AI总结 提出INFRAMIND框架,通过强化学习将基础设施状态(队列深度、KV缓存压力等)融入多智能体LLM编排的规划、路由和调度决策,在共享GPU集群上实现质量与延迟的平衡,相比基线提升最高7.6%准确率并降低7倍延迟。
智能体技能评估与进化:框架与基准
发表机构 * Rutgers University(罗格斯大学) ; University of North Carolina at Charlotte(北卡罗来纳大学夏洛特分校)
AI总结 本文系统综述了智能体技能从孤立创建到自动化评估驱动进化的范式转变,分类了四种进化范式并分析了六个技能基准类别,指出了覆盖缺口和开放方向。
超越欧几里得稳定性的镜像下降:初始化敏感性的指数级分离
发表机构 * Blavatnik School of Computer Science and AI, Tel Aviv University(特拉维夫大学布拉瓦特尼克计算机科学与人工智能学院) ; Google Research(谷歌研究院)
AI总结 本文证明非二次正则化的镜像下降(MD)在凸光滑目标上对初始化的敏感性可呈指数级增长,与梯度下降(GD)形成鲜明对比,并提出基于锚点的Bregman正则化可缓解不稳定性。
SOMA-SQL: 通过合成日志和执行探测解决NL-to-SQL中的多源歧义
发表机构 * Oracle AI(甲骨文人工智能实验室)
AI总结 提出SOMA-SQL框架,通过合成查询日志和歧义驱动探测自动解决自然语言到SQL中的多源歧义,在6个基准上平均执行准确率提升13.0%。
口语对话中的上下文感知多模态声明验证
发表机构 * The Pennsylvania State University(宾夕法尼亚州立大学) ; University of Sheffield(谢菲尔德大学)
AI总结 提出MAD2基准和上下文感知多模态融合方法,验证对话音频中的声明,发现对话结构比虚假信息框架对验证更重要。
一种用于空中机器人微检测的模块化双相机流水线
发表机构 * Netherlands Organization for Scientific Research (NWO)(荷兰科学研究组织) ; Saxion University of Applied Sciences(萨克逊应用科学大学)
AI总结 提出一种模块化双相机空中微检测流水线,通过变焦云台相机和广角立体导航相机协同工作,结合视觉反馈回路,实现对树木和温室粘虫板等非结构目标的鲁棒微检测。
压力下的风险:语言模型对抗鲁棒性的计算感知评估
发表机构 * University of Toronto(多伦多大学) ; Vector Institute(向量研究所) ; Hugging Face
AI总结 提出基于计算压力(累积FLOPs)的对抗鲁棒性评估框架,通过风险-计算曲线和两个新指标,揭示不同攻击策略的计算成本差异,并在10个模型上验证了对齐训练、模型规模等因素对计算空间鲁棒性的非单调影响。
基于分块的机器人策略的动态执行视界预测
发表机构 * University of Toronto(多伦多大学) ; Vector Institute for Artificial Intelligence(向量人工智能研究所) ; Acceleration Consortium(加速联盟) ; Canadian Institute for Advanced Research (CIFAR)(加拿大高等研究院) ; Georgia Institute of Technology(佐治亚理工学院) ; NVIDIA(英伟达)
AI总结 提出DEHP方法,通过在线强化学习训练轻量级执行视界预测分支,在冻结预训练分块策略的情况下动态调整执行步数,显著提升高精度和长时域操作任务的成功率。
PLUME: 多指操作的概率潜在统一世界建模与参数估计
发表机构 * University of Michigan(密歇根大学) ; Honda Research Institute USA(本田美国研究所)
AI总结 提出PLUME世界模型,联合学习参数信念演化与条件动力学,通过在线参数推断实现零样本迁移,在螺丝刀旋转等任务中优于现有方法。
预算上的递归绑定:阶-p张量记忆中的子空间雕刻
发表机构 * University of Wisconsin-Madison(威斯康星大学麦迪逊分校)
AI总结 提出正交子空间雕刻(OSC)方法,通过将填充符投影到角色基的零空间来绑定到角色,固定阶张量记忆实现深度递归绑定,在恒定内存下提升高叠加场景的效率。
一种可扩展的多GPU高斯泼溅PyTorch抽象
发表机构 * NVIDIA(英伟达) ; University of Toronto(多伦多大学) ; Vector Institute(向量研究所)
AI总结 提出一种多GPU高斯泼溅方法,通过CUDA统一内存和NVLink在算子级别分布参数,实现大规模场景重建,支持超过10亿高斯泼溅。
小实验,更经济的决策:微预训练中分阶段提升的案例研究
发表机构 * Hewlett Packard Enterprise(慧与科技公司)
AI总结 研究微预训练中分阶段提升协议,通过固定预算筛选配置,在Windows A100和Linux L40S上验证,发现早期排名不稳定,但最终协议以144 GPU小时找到最优配置,成本低于全量筛选。
通过激活引导克服全双工口语语言模型中的状态惯性
发表机构 * MIT CSAIL(麻省理工学院计算机科学与人工智能实验室)
AI总结 针对全双工口语模型在用户打断时响应延迟的问题,提出基于感知向量的激活引导方法,无需微调即可显著提升中断理解能力。
DeceptionX: 基于多模态大语言模型的可解释欺骗检测
发表机构 * Great Bay University(大湾区大学) ; Hong Kong Polytechnic University(香港理工大学)
AI总结 提出DeceptionX框架,将欺骗检测从黑箱分类转变为可解释的观察-思考-总结推理过程,通过构建DeceptChain数据集和三阶段训练管道,在标准基准上超越现有方法,同时提供专家级可解释推理路径。