Hybrid Verified Decoding: Learning to Allocate Verification in Speculative Decoding
混合验证解码:在推测解码中学习分配验证
发表机构 * Thoughtworks ; Nvidia
AI总结 提出混合验证解码方法,通过预测缓存草稿的接受长度并在缓存验证与模型草稿之间动态选择,在代理工作流中平均加速2.73倍。
混合验证解码:在推测解码中学习分配验证
发表机构 * Thoughtworks ; Nvidia
AI总结 提出混合验证解码方法,通过预测缓存草稿的接受长度并在缓存验证与模型草稿之间动态选择,在代理工作流中平均加速2.73倍。
PolySpeech-100:面向100多种语言和方言的大规模语音理解基准
发表机构 * Shenzhen International Graduate School, Tsinghua University(深圳国际研究生院,清华大学) ; Department of Electronic Engineering, Tsinghua University(清华大学电子工程系) ; JD AI Research(京东人工智能研究院)
AI总结 为解决现有语音评估基准在资源丰富语言偏向、缺乏语义推理和忽视方言的问题,提出PolySpeech-100基准,通过混合构建管道覆盖110种语言变体,并评估22个模型,发现开源端到端模型在重方言上优于级联系统,而思维链提示在零样本设置下会降低性能。
AI-IoT-机器人集成:框架、新兴趋势及迈向互联机器人的路径综述
发表机构 * Tohoku University(东大大学)
AI总结 本文综述了人工智能、物联网和机器人三者融合的现状,提出了模块化系统架构,并强调了小语言模型(SLM)和大型语言模型(LLM)在分布式认知与自主决策中的作用,为下一代互联机器人和物理AI生态系统提供了概念和技术路线图。
基于文本的三维人体运动编辑中的跨轴特征融合与关节运动差异预测
发表机构 * School of Electrical Engineering, KAIST(韩国科学技术院电子工程学院)
AI总结 提出一种跨轴特征融合架构和辅助任务,通过联合锚定变换器预测关节运动差异,实现文本驱动的三维人体运动编辑,在MotionFix数据集上达到最优性能。
堆叠双层材料的性质预测:一种多模态学习方法
发表机构 * University of Arkansas(亚拉巴马大学) ; Baylor University(贝勒大学)
AI总结 提出一种多模态学习方法,通过联合建模不同材料层间的界面,预测给定配置下垂直堆叠产生的性质,实验证明其有效性和高效性。
MelT: 面向现代加速器的高效单级音频前端的GEMM原生NDFT
发表机构 * Instituto de Ciências Matemáticas e de Computação, University of São Paulo, Brazil(圣保罗大学数学与计算机科学研究所,巴西)
AI总结 提出MelT框架,通过将梅尔间隔非均匀离散傅里叶变换(NDFT)公式化为稠密通用矩阵乘法(GEMM)操作,实现单级音频前端,替代传统STFT+梅尔流水线,在多种加速器上获得高达3.75倍推理加速和3.52倍能耗降低。
超越任务无关:面向通信高效的多任务MoE推理的任务感知分组
发表机构 * Tsinghua Shenzhen International Graduate School(清华大学深圳国际研究生院) ; Pengcheng Laboratory(鹏城实验室)
AI总结 提出任务感知共激活分组(TACG)框架,通过任务特定的共激活模式优化专家放置,并引入通用专家共享复制(GESR)应对在线负载倾斜,在三个MoE模型上平均降低通信成本31.39%,保持公平性指数0.9975。
自动红细胞检测与追踪用于红细胞介导血管造影中的视网膜血流定量
发表机构 * Department of Bioengineering, University of Maryland, College Park, MD 20742, USA(生物工程系,马里兰大学,学院公园,MD 20742,美国) ; Department of Ophthalmology and Visual Sciences, University of Maryland School of Medicine, Baltimore, MD 21201, USA(眼科学与视觉科学系,马里兰大学医学院,巴尔的摩,MD 21201,美国) ; Department of Electrical and Computer Engineering, University of Maryland, College Park, MD 20742, USA(电气与计算机工程系,马里兰大学,学院公园,MD 20742,美国)
AI总结 提出EMTrack框架,通过流上下文模块和拓扑感知追踪策略实现红细胞自动检测与追踪,用于视网膜血流定量,并在新数据集RBF-EMA上优于基线方法。
信任函数:通过学习何时信任弱教师实现近乎无损的弱到强泛化
发表机构 * University of Washington(华盛顿大学)
AI总结 提出信任函数为弱标签分配信任分数并据此过滤弱监督,在多个领域实现近乎无损的弱到强泛化,且能通过迭代链放大收益。
SWARD:基于随机窗口注意力的关系蒸馏用于跨架构语义分割
发表机构 * Department of Computer Science University of Alabama at Birmingham(计算机科学系阿拉巴马大学伯明翰分校)
AI总结 提出SWARD框架,通过多尺度窗口注意力蒸馏和原型判别正则化,弥合Transformer教师与CNN学生之间的表征差距,实现跨架构语义分割的知识蒸馏。
GraspGen-X: 跨形态6自由度扩散抓取
发表机构 * NVIDIA ; Princeton University(普林斯顿大学)
AI总结 提出一种基于扩散模型的跨形态6自由度抓取方法,通过扫描体积启发式编码夹爪表示,在20亿抓取数据上训练,实现对新物体、场景和夹爪形态的零样本泛化。
顺序无关语言模型中的解码:链式法则偏差与均匀扩散
发表机构 * School of Computer Science, Shanghai Jiao Tong University(上海交通大学计算机科学学院) ; Zhongguancun Academy(中关村学院)
AI总结 本文研究顺序无关语言模型(OALM)中揭示顺序对似然的影响,提出基于置信度方差的诊断方法,并证明均匀扩散定理以优化解码路径。
交通系统管理与运营中的大语言模型:从文本推理到多模态决策支持
发表机构 * Bourns College of Engineering, Center for Environmental Research and Technology, University of California at Riverside, CA, USA(伯恩斯工程学院,环境研究与技术中心,加州大学河滨分校,美国,加利福尼亚州河滨)
AI总结 本文综述了大语言模型(LLM)和多模态大语言模型(MM-LLM)在交通系统管理与运营(TSMO)中的应用,涵盖运营与服务、移动性与车队服务、数据建模与决策支持三大领域,并指出了数据异构性、实时推理、可解释性等挑战及未来方向。
OSCAR: 用于自适应机器人导航的障碍物生存曲线
发表机构 * University of Toronto(多伦多大学)
AI总结 提出OSCAR框架,利用生存模型学习障碍物清除时间分布,并通过图规划器动态调整等待与重路由的阈值,以减少导航时间。
使用扩散模型进行符号回归的数据增强
发表机构 * Department of Computing(计算系) ; Jönköping University(约翰·科普丁大学) ; Department of Information Science(信息科学系) ; University of Haifa(海法大学)
AI总结 提出一种物理引导的潜在扩散框架,通过生成受物理约束的合成数据来增强稀疏观测,从而提升符号回归在稀疏、噪声或不完整数据下的方程发现可靠性。
多时相指代分割的开源基准与基线
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Institute of Artificial Intelligence (TeleAI)(人工智能研究所) ; China Telecom(中国电信) ; School of Artificial Intelligence, Optics and Electronics (iOPEN)(人工智能、光学与电子学院) ; Northwestern Polytechnical University(西北工业大学)
AI总结 提出多时相指代分割任务,通过自动化数据构建管道CRAFT-Agent生成首个基准MTRefSeg-21K,并设计两阶段训练的变化感知LVLM框架MTRefSeg-R1,实现优于现有基线的性能。
表格联邦学习中针对梯度反转攻击的隐私保护分析
发表机构 * Department of Computing(计算系) ; Jönköping University(琼堡大学) ; Scaleout Systems ; University of Haifa(海法大学)
AI总结 本研究通过评估不同联邦学习协议、客户端批量大小、训练阶段、攻击者假设、模型架构及任务类型下梯度反转攻击对表格数据的恢复能力,发现小批量更新最易受攻击,而FT-Transformer架构比MLP更难反转,并指出聚合重建精度可能高估完整记录恢复。
通过交错运动规划使您的VLA更鲁棒而无需更多数据
发表机构 * Georgia Institute of Technology(佐治亚理工学院)
AI总结 提出MPVI框架,将基于模型的运动规划与视觉-语言-动作模型交错结合,通过VLM完成检查和本体感受触发实现可靠切换,无需额外训练即可提升长时域移动操作任务的鲁棒性,在BEHAVIOR-1K基准上任务进度提升113%。
通过自动形式化实现鲁棒的异步规划
发表机构 * Drexel University(德雷塞尔大学) ; Arizona State University(亚利桑那州立大学)
AI总结 针对异步规划中并发、非均匀时长和执行时间约束的挑战,提出自动形式化方法,通过CP-SAT形式化器在依赖图规模从5到100动作时保持高准确率,并引入状态感知修复策略应对执行时约束更新。
UME:跨域ETA的统一元泛化框架
发表机构 * Peking University(北京大学) ; Meituan(美团)
AI总结 针对即时物流中跨域ETA预测的零样本泛化、特征缺失和知识迁移问题,提出基于超网络元学习的统一双分支架构UME,通过元模块动态调制特征门控、专家注意力和最终预测,并在美团Keeta平台部署验证。
迷失在妄想中:审视用户妄想与痛苦下的LLM安全性
发表机构 * University of Pittsburgh(匹兹堡大学) ; Carnegie Mellon University(卡内基梅隆大学) ; Fordham University(福特汉姆大学)
AI总结 本研究通过多轮对话模拟,发现LLM在检测用户痛苦时表现良好,但在痛苦嵌入妄想时干预行为显著减少(高达4.5倍),并提出针对性提示策略以缩小这一差距。
HypothesisMed:生物医学问答中的推理时答案融合与结构化假设空间报告
发表机构 * Department of Computer Science Rensselaer Polytechnic Institute(计算机科学系雷士打理工学院) ; Department of Biomedical Engineering Rensselaer Polytechnic Institute(生物医学工程系雷士打理工学院)
AI总结 提出HypothesisMed推理时可靠性流水线,通过答案融合和SPACE标签(有效/不完整/矛盾)提升生物医学多项选择问答的准确率、可解析性和结构化可靠性报告。
具有灾难性状态的MDP中贝尔曼最优性产生的前景理论行为
发表机构 * Massachusetts Institute of Technology(麻省理工学院)
AI总结 研究具有吸收灾难状态的马尔可夫决策过程中的风险中性控制,发现标准贝尔曼最优性产生前景理论特征:S形值函数、内生损失敏感系数和反射效应策略反转,并推导出渐近损失厌恶平台的闭式表达式。
低成本智能农业机械臂中视觉-语言-动作模型推理的线程优化
发表机构 * Department of Electrical Engineering, Drexel University(德雷塞尔大学电气工程系)
AI总结 针对低成本机械臂上VLA模型推理慢、精细动作调整难的问题,通过优化RTAC算法的线程实现,降低了端到端延迟并提高了响应性,在农产品操作任务中验证了控制稳定性和速度的提升。
Reasmory: 3D重建作为VLMs空间推理的显式记忆
发表机构 * Cornell Tech, Cornell University(康奈尔科技学院、康奈尔大学) ; NVIDIA(英伟达) ; illoca AI(illoca人工智能) ; The University of California, Merced(加州大学梅尔塞德斯分校)
AI总结 提出Reasmory框架,通过结构化程序执行重建的3D显式记忆,并引入轻量级领域特定语言约束VLM查询和操作,在空间推理任务上提升6-18%。
通过部分信息分解理解多模态语言模型中的模态交互
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Stanford University(斯坦福大学)
AI总结 引入部分信息分解(PID)框架,分离感官和语言输入的独特、冗余和协同贡献,揭示多模态大模型中的模态使用模式,并扩展至三模态系统。
面向大规模文生视频扩散Transformer的边界保护W8A8 HiFloat8量化
发表机构 * Yiming Zhao(赵毅铭)
AI总结 针对Wan2.1-T2V-14B模型,提出一种边界保护策略的W8A8 HiF8后训练量化方法,通过保留首尾边界块为BF16而量化中间块,在VBench五个维度上匹配或略优于BF16基线。
具有遗憾保证的贝叶斯优化的最优点方差缩减
发表机构 * Nagoya University(名古屋大学)
AI总结 提出一种名为最优点方差缩减(OVR)的单步前瞻贝叶斯优化方法,通过后验采样和蒙特卡洛近似实现,并证明了正则化OVR的贝叶斯期望简单遗憾上界趋于零。
CryoProt: 一种基于冷冻电镜密度图跨盒交互的蛋白质预训练框架
发表机构 * College of Computer Science and Electronic Engineering, Hunan University(湖南大学计算机科学与电子工程学院) ; School of Computer Science, Xiangtan University(湘潭大学计算机学院)
AI总结 提出 CryoProt 框架,通过多头潜在注意力机制实现密度图跨盒交互建模,并采用多任务预训练策略,在蛋白质柔性预测等下游任务中取得最高12%的性能提升。
COLLAR: 级联对象级潜在精化用于高保真条件生成
发表机构 * College of Computer Science, Zhejiang University(浙江大学计算机科学学院)
AI总结 提出COLLAR框架,通过视场扩展和级联对象级潜在精化,在扩散Transformer中实现无训练的高保真对象级控制,优于现有方法。