How reliable are LLMs when it comes to playing dice?
LLM 在掷骰子时有多可靠?
发表机构 * Università degli Studi di Firenze
AI总结 通过离散概率问题基准测试,发现 LLM 在标准问题上准确率 0.96,但在反直觉问题上仅 0.59,且存在 token 偏差和误导提示的脆弱性。
LLM 在掷骰子时有多可靠?
发表机构 * Università degli Studi di Firenze
AI总结 通过离散概率问题基准测试,发现 LLM 在标准问题上准确率 0.96,但在反直觉问题上仅 0.59,且存在 token 偏差和误导提示的脆弱性。
UniSHARP: 通用锐利单目视图合成
发表机构 * Insta360 Research ; Sun Yat-sen University ; Beihang University ; Wuhan University ; University of California, Merced
AI总结 提出UniSHARP,通过统一全景隐空间和射线基高斯表示,将SHARP扩展到任意相机系统(包括鱼眼、全景),在特征与高斯空间隐式对齐,在构建的多视角基准上大幅超越现有方法。
Agentopia: 智能体社会中的长期生活模拟与学习
发表机构 * Fudan University ; Johns Hopkins University ; University of Science and Technology of China
AI总结 提出Agentopia框架,模拟100个智能体在10年内的社会生活,通过生命奖励训练LLM,提升其社交智能,并在角色扮演基准上取得15.6%的提升。
流式视频生成与流力控制
发表机构 * Northeastern University ; Impossible Research ; University of California, Berkeley ; University of Illinois Urbana-Champaign
AI总结 提出StreamForce框架,通过统一力表示和蒸馏流程实现因果、统一的流式视频生成,支持局部和全局时变力控制,在单GPU上达到16.6 FPS,力遵循和运动真实性达最优。
基于可负担性的四足机器人层级强化学习操控
发表机构 * Embry-Riddle Aeronautical University ; Carnegie Mellon University
AI总结 提出三级层级强化学习框架,利用姿态和交互点可负担性引导导航与操控策略,在仿真和真实环境中实现自主物体操控。
检测中的差异:可解释性在关键之处
发表机构 * University of Tübingen ; Institute for Applied AI ; Hochschule der Medien Stuttgart
AI总结 提出DnD方法,通过匹配算法直接比较两个目标检测模型,揭示个体与共享错误,并引导可解释性方法聚焦于度量相关示例。
你的解嵌入矩阵实际上是文本嵌入的特征透镜
发表机构 * Gaoling School of Artificial Intelligence, Renmin University of China ; Lenovo Group Limited ; Wuhan University
AI总结 发现LLM文本嵌入与高频词对齐导致语义捕获不足,提出EmbedFilter通过过滤解嵌入矩阵中的高频子空间来增强表示,并实现降维加速检索。
稀疏子空间到专家共享的任务无关持续学习
发表机构 * Iowa State University ; Argonne National Laboratory
AI总结 提出SETA框架,通过将参数分解为任务特定专家和共享专家的稀疏子空间,结合自适应弹性锚定和路由感知正则化,解决LLM持续学习中的塑性-稳定性困境,在多个基准上优于现有方法。
隐式数据合成用于对比无监督数据增强
发表机构 * School of Informatics, The University of Edinburgh ; Massachusetts Institute of Technology Lincoln Laboratory
AI总结 针对科学观测数据难以标注的问题,提出通过扰动网络权重而非数据生成对比样本,在雷达流星观测上使用SimCLR管道验证性能提升。
加速去中心化随机梯度下降用于强凸优化
发表机构 * Peking University
AI总结 提出MG-ADSGD算法,结合Nesterov型原始-对偶外推与多轮快速八卦平均,通过耦合八卦深度与小批量大小,同时实现加速收敛和通信高效,达到最优通信复杂度。
机器学习中的二阶路径核插值公式
发表机构 * City University of Hong Kong
AI总结 本文提出神经网络的二阶路径核插值公式,引入曲率加权项和随机梯度下降的噪声耦合项,并扩展到带动量的情况,完善了路径核对预测的解释。
缓解深度伪造语音中的代理到真实域差距
发表机构 * Graduate Institute of Communication Engineering, National Taiwan University ; Graduate Institute of Networking and Multimedia, National Taiwan University ; Department of Information Management, National Taiwan University ; NTU Artificial Intelligence Center of Research Excellence (NTU AI-CoRE)
AI总结 提出域偏移特征增强(DSFA)方法,通过将确定性特征统计转换为随机分布来缩小代理数据与真实世界之间的域差距,在CoSG ExtEval数据集上达到最先进性能。
AI代理如何重塑知识工作:自主性、效率与范围
发表机构 * Harvard Business School ; Perplexity AI
AI总结 基于Perplexity产品数据,研究发现AI代理通过端到端任务执行,将自主工作时间从33秒提升至26分钟,完成时间缩短87%,成本降低94%,并扩展了工作范围与认知层次。
CoMetaPNS:心脏电生理模拟的持续元学习个性化神经代理
发表机构 * Golisano College of Computing and Information Sciences, Rochester Institute of Technology ; Department of Computer Science, Rowan University ; The University of Utah
AI总结 提出持续元学习框架CoMetaPNS,通过贝叶斯高斯混合模型记忆缓冲区分辨数据来源,实现个性化神经代理的持续学习,避免灾难性遗忘,在心脏模拟预测中优于基线。
从级联数据中恢复网络:一种基于去偏雅可比矩阵的机器学习方法
发表机构 * MIT Sloan School of Management
AI总结 提出CascadeNet框架,通过去偏雅可比矩阵估计一步转移函数,无需指定扩散模型即可恢复隐藏影响网络,在模拟和COVID-19传播数据中优于现有方法。
用于代理流建模的漂移模型
发表机构 * Center for Machine Learning (ZML) ; Institute for Flow in Additively Manufactured Porous Structures (ISAPS) ; Heilbronn University of Applied Sciences
AI总结 提出条件漂移框架,在VAE潜空间中进行漂移并利用标签感知掩码对齐边界条件,实现高质量单步生成,速度比迭代扩散快两个数量级。
基于监督与基于演示的上下文学习在多词表达分类中的比较
发表机构 * University of Chicago ; Fırat University
AI总结 研究土耳其语多词表达分类,对比监督基线(BERTurk)与指令微调LLM在零样本、单样本和少样本提示下的表现,发现提示敏感性和演示偏差影响显著。
利用高阶类标签连通性的图神经网络用于异配图
发表机构 * The University of Osaka
AI总结 针对异配图中节点分类性能受限问题,提出标签上下文分类器(LCC),通过四种游走生成标签上下文嵌入捕获高阶类标签连通性,并可与任意GNN自适应集成,实验表明优于现有方法。
无监督持续聚类:通过前向-后向知识蒸馏
发表机构 * Department of Electrical and Computer Engineering, McGill University ; Mila – Quebec AI Institute
AI总结 提出无监督持续聚类(UCC)问题,并设计前向-后向知识蒸馏方法(FBCC),通过持续教师网络和轻量任务学生网络的双阶段蒸馏,在不存储旧数据的情况下保留聚类结构,显著减少灾难性遗忘。
Whisper 幻觉检测与缓解:基于隐藏表示引导和稀疏自编码器
发表机构 * AI Foundation and Algorithm Lab ; National University of Science and Technology MISIS ; National Research University Higher School of Economics
AI总结 通过分析Whisper内部表示,提出基于稀疏自编码器的引导策略,将非语音测试集上的幻觉率从72.63%降至14.11%(small模型),接近微调方法性能。
面向长上下文自动驾驶的规划对齐令牌压缩
发表机构 * NVIDIA Research ; School of Computing and Data Science, The University of Hong Kong
AI总结 提出COMPACT-VA框架,基于条件VQ-VAE将长上下文压缩为有界表示,通过规划对齐实现决策关键信息保留,在动态场景中成功率提升超6%,速度提升3.3倍。
像真正的研究者一样行动:一套评估前沿LLM和研究生命周期中智能体框架的基准测试套件
发表机构 * Xi’an Jiaotong University ; Xidian University
AI总结 提出AARR基准系列,通过AARRI-Bench评估智能体在细粒度研究场景中模拟人类研究者的专业性、全面性和细微推理能力,发现最佳配置成功率仅68.3%。
基于物理信息合成历史的时间序列基础模型用于冷启动光伏预测
发表机构 * European Commission
AI总结 针对光伏电站冷启动预测问题,提出利用物理信息合成历史数据,结合时间序列基础模型进行零样本预测,在440个站点上实现1.7-2倍性能提升。
TEVI: 基于稀疏自编码器的文本条件视觉表示编辑以改进视觉-语言对齐
发表机构 * Max Planck Institute for Informatics, Saarland Informatics Campus, Saarbrücken, Germany ; Department of Language Science and Technology, Saarland University, Saarbrücken, Germany
AI总结 提出TEVI框架,利用稀疏自编码器解耦图像嵌入,并通过文本条件掩码模块选择性重构嵌入,以改善CLIP等视觉-语言模型的图像-文本对齐,在多个检索基准上取得提升。
谄媚式赞美:评估语言模型中的过度赞美
发表机构 * University of Cincinnati ; Carnegie Mellon University ; Texas A&M University
AI总结 提出参数化框架衡量赞美是否过度,发现谄媚式赞美在社交和解释性领域远多于客观推理领域,且现有方法无法可靠测量。
重新构想自动驾驶时代的ISO 26262:通过可迁移性和可预测性增强可控性
发表机构 * Torc Robotics, Inc. ; Reynolds & Moore ; Critical Systems Analysis, LLC
AI总结 针对自动驾驶汽车缺乏人类驾驶员的问题,将ISO 26262中的可控性分解为可迁移性和可预测性两个可审计维度,并给出量化框架,以支持SAE L4/L5系统的功能安全论证。
Skill-3D:面向智能体3D空间推理的场景感知技能进化
发表机构 * Zhejiang University ; University of Technology Sydney ; OPPO Research Institute
AI总结 提出Skill-3D框架,通过场景记忆和技能库的协同进化,使智能体根据场景自适应选择工具,显著提升3D空间推理中工具使用的正确性和充分性。
Watch, Remember, Reason: 基于多模态大语言模型的人类视角视频理解
发表机构 * Peking University ; Wuhan University ; Shanghai Jiao Tong University ; Nanyang Technological University ; CASIA ; University of Tokyo ; University of Liverpool ; Zhejiang University ; National University of Singapore ; UC Merced
AI总结 提出人类视角下视频理解的三个功能能力(观看、记忆、推理),构建统一框架分析视频MLLM的感知、记忆、推理和预测,并总结挑战、方法、应用及未来方向。
通过神经引导的Lambda演算发现复杂系统中的多尺度深层公式
发表机构 * Xi’an Jiaotong University
AI总结 提出Deflex方法,结合可分解深度能量模型和Lambda演算符号回归,自动从复杂系统中提取多尺度公式,效率最高提升7倍。
基于高斯进化专家的浮力辅助机器人快速协同设计以应对挑战性运动
发表机构 * Georgia Institute of Technology ; University of California, Los Angeles ; ETH Zurich
AI总结 提出高斯进化专家(GES)框架,通过解耦设计空间划分与策略学习,在浮力辅助轻量腿单元(BALLU)上实现5-25%性能提升,并缩短37%设计优化时间。