Triangle Splatting SLAM
三角形泼溅SLAM
发表机构 * Software Performance Optimisation Group(软件性能优化组) ; Department of Computing(计算部门)
AI总结 提出首个使用可微三角形作为3D地图表示的密集RGB-D SLAM系统,通过在线可微渲染实现跟踪与建图,并支持实时网格转换与编辑。
三角形泼溅SLAM
发表机构 * Software Performance Optimisation Group(软件性能优化组) ; Department of Computing(计算部门)
AI总结 提出首个使用可微三角形作为3D地图表示的密集RGB-D SLAM系统,通过在线可微渲染实现跟踪与建图,并支持实时网格转换与编辑。
基于神经受控微分方程的通用时间序列生成
发表机构 * Heidelberg Institute for Theoretical Studies(海德堡理论研究所) ; IAR, Karlsruhe Institute of Technology(卡尔斯鲁厄技术大学IAR部门) ; Max Planck Institute for Polymer Research(马克斯·普朗克聚合物研究所) ; IWR, Heidelberg University(海德堡大学IWR部门) ; Dept. of Computer Science, University of Toronto(多伦多大学计算机科学系) ; Mathematical Institute, University of Oxford(牛津大学数学研究所) ; Vector Institute, Toronto, Canada(多伦多向量研究所)
AI总结 本文证明结构化线性受控微分方程(SLiCEs)是通用时间序列生成器,并提出生成式SLiCEs(G-SLiCEs)用于路径空间上的流匹配,在概率预测和下流任务中表现优异,尤其适用于不规则网格。
计划,而非摆姿势:基于文本对齐的BFM的长复合运动生成
发表机构 * AvaCapo ; Potsdam University(波茨坦大学) ; Applied AI Institute(应用人工智能研究所) ; Computational Imaging Lab(计算成像实验室) ; AXXX ; Innopolis University(因诺波利斯大学)
AI总结 提出Text2BFM框架,通过将自然语言与预训练行为基础模型对齐,在潜在策略空间中实现长复合运动生成,无需端到端运动生成器。
FedBiCross: 医学图像上的个性化一次性联邦学习
发表机构 * School of Computer Science and Engineering, Northwestern Polytechnical University, China(西北工业大学计算机科学与工程学院) ; School of Science and Technology, Hong Kong Metropolitan University, Hong Kong(香港 Metropolitan 大学科学与技术学院) ; Department of Computer Science, Hong Kong Baptist University, Hong Kong(香港 Baptist 大学计算机科学系)
AI总结 提出FedBiCross框架,通过聚类、双层跨簇优化和个性化蒸馏解决非独立同分布数据下一次性联邦学习中知识蒸馏效果差的问题,在四个医学图像数据集上优于现有方法。
用于Transformer修补和机制可解释性的连续深度场论
发表机构 * Universidade de Vigo(维戈大学) ; Independent Researcher(独立研究员)
AI总结 本文提出场论框架,将残差流视为深度-标记场,通过局部源插入、灵敏度场预测、经验格林函数响应和伴随变分问题来组织和预测Transformer激活修补干预,并在GPT-2风格自回归Transformer中验证了前向响应理论。
FinSTaR:面向时间序列推理模型的金融推理
发表机构 * LG AI Research(LG人工智能研究)
AI总结 针对时间序列推理模型在金融领域的失效问题,提出基于2x2能力分类法的FinSTaR模型,通过Compute-in-CoT和Scenario-Aware CoT策略在FinTSR-Bench基准上达到78.9%平均准确率。
基于SMPL骨架的拉班运动描述子的暗示性运动外观不变检测
发表机构 * Sogang University(ソガン大学)
AI总结 提出一种仅基于SMPL骨架轨迹和拉班运动分析描述子的运动分类流程,用于检测暗示性和露骨动作,在四个层级上实现57.3%的四分类准确率。
熵梯度反转:迈向大型推理模型的内部机制
发表机构 * National University of Singapore(新加坡国立大学) ; Renmin University of China(中国人民大学) ; Shanghai Jiao Tong University(上海交通大学) ; Nanyang Technological University(南洋理工大学)
AI总结 本文发现大型推理模型中令牌熵与logit梯度之间的稳健负相关(熵梯度反转),并提出相关性正则化组策略优化(CorR-PO)将其嵌入强化学习奖励正则化,从而提升推理性能。
更多上下文、更大模型还是道德知识?政治文本中施瓦茨价值观检测的系统研究
发表机构 * PRHLT Research Center, Universitat Politècnica de València, Spain(巴塞罗那理工大学研究中心,西班牙 Valencia理工大学) ; School of Science, Engineering and Design, Universidad Europea de Valencia, Spain(Valencia欧洲大学科学、工程与设计学院,西班牙) ; Valencian Graduate School and Research Network of Artificial Intelligence (ValgrAI)(瓦伦西亚人工智能研究生学院与研究网络(ValgrAI))
AI总结 本研究系统比较了上下文范围、检索增强道德知识和模型规模对政治文本中施瓦茨价值观检测的影响,发现全文档上下文和检索知识对监督编码器有效,但对零样本大语言模型帮助有限,且模型扩展不保证性能提升。
VDE Bench: 评估图像编辑模型对视觉文档进行修改的能力
发表机构 * UCAS(中国科学院大学) ; CASIA(中国科学院自动化研究所) ; Tencent(腾讯) ; CMU(卡内基梅隆大学) ; WashU(华盛顿大学) ; SJTU(上海交通大学) ; XDU(北京理工大学)
AI总结 本文提出VDE Bench,一个专门评估图像编辑模型在双语中文-英文和复杂视觉文档编辑任务性能的基准,通过高质量数据集和新的评估框架,系统量化了文本修改的准确性。
ShapeBench: 一种可扩展的基准和诊断套件,用于气动形状优化的标准化评估
发表机构 * Stanford University(斯坦福大学) ; Spinoza Labs(斯皮诺扎实验室)
AI总结 本文提出ShapeBench,一个开源的气动形状优化基准,提供统一的API,涵盖103个任务和八个形状类别,通过验证的代理模型和高保真CFD流程进行系统分析,展示了不同形状类别和问题形式中优化器排名的显著差异,强调了需要更通用方法的必要性。
GEASS: 基于证据适应的门控选择性描述信任机制用于视觉-语言模型
发表机构 * arXiv.org
AI总结 本文提出GEASS,一种无需训练的模块,通过门控、加权和证据标准来决定模型在每个查询中消耗多少描述信息,从而提升视觉-语言模型的准确性。
多令牌残差预测
发表机构 * New York University(纽约大学) ; New York University Shanghai(纽约大学上海) ; Nos Research(Nos研究) ; Modal
AI总结 本文提出了一种轻量级模块Multi-token Residual Prediction,通过利用去噪过程中相邻步骤的logit分布相似性,在单次骨干网络前向传播中实现依赖感知的多令牌去噪,从而在成本较低的情况下提高去噪效率。
攻击第一原理:一种针对二元函数分类器的黑盒、无查询目标模仿攻击
发表机构 * LORIA(洛林信息与自动化研究院) ; University of Arizona(亚利桑那大学)
AI总结 本文提出Kelpie框架,首次在黑盒无查询环境下成功执行针对二元函数分类器的模仿攻击,展示了其在不同模型架构下的有效性,并通过实际案例验证了攻击的可行性,引发对现有机器学习二元函数分类器可靠性和安全性的质疑。
ARROW:增强重放用于鲁棒世界模型
发表机构 * Imam Mohammad Ibn Saud Islamic University (IMSIU)(伊玛姆·穆罕默德·本·沙特伊斯兰大学) ; Monash University(莫纳什大学) ; University of New South Wales, Sydney(新南威尔士大学,悉尼) ; Cerenaut
AI总结 本文提出ARROW算法,一种基于模型的持续强化学习方法,通过高效的重放缓冲区减少灾难性遗忘,提升在无共享结构任务和有共享结构任务中的表现。
GeoWorld-VLM:从世界模型中获取几何结构用于视觉-语言模型
发表机构 * Harvard AI and Robotics Lab(哈佛人工智能与机器人实验室) ; Kempner Institute for the Study of Natural and Artificial Intelligence(凯普纳自然与人工智能研究 institute) ; Harvard University(哈佛大学)
AI总结 GeoWorld-VLM通过将冻结的摄像机条件视频世界模型的几何结构转移到视觉-语言模型中,提升空间关系推理能力,实验显示在两个不同架构上均提升了约4%的性能。
训练利润最优大语言模型的理论
发表机构 * Boston University(波士顿大学) ; Allen Institute for AI(人工智能研究院)
AI总结 本文提出一个经济模型,结合扩展定律与微观经济学理论,分析大语言模型训练的利润最大化问题,探讨模型规模与训练成本的关系及对利润的影响。
通过几何可定义性实现策略PAC可学习性
发表机构 * Weizmann Institute of Science(魏茨曼研究院) ; University of Waterloo(滑铁卢大学) ; ETH Zurich(苏黎世联邦理工学院) ; University of Washington(华盛顿大学)
AI总结 研究个体通过成本修改特征影响分类器决策的策略学习问题,证明在简单情况下策略行为可使易学问题变为不可学,并引入几何可定义性假设以控制样本复杂度。
COSMOS:基于聚类服务器模型和伪标签通信的模型无关个性化联邦学习
发表机构 * Washington University in St. Louis(华盛顿大学圣路易斯分校)
AI总结 COSMOS通过伪标签通信实现服务器端个性化,利用客户端本地模型预测公共数据并聚类,训练集群特定模型并回传知识蒸馏,理论分析显示其能有效降低个性化风险,实验验证其在异构环境中优于现有基线方法。
雷达引导的多项式拟合用于度量深度估计
发表机构 * Yale University(耶鲁大学) ; University of Pennsylvania(宾夕法尼亚大学)
AI总结 提出POLAR方法,利用雷达数据预测多项式系数,对单目深度估计的无尺度深度进行非均匀校正,实现度量深度估计,性能在三个数据集上平均提升24.9% MAE和33.2% RMSE。
文本扩散模型的安全感知去噪器
发表机构 * University of California, Berkeley(加州大学伯克利分校)
AI总结 提出安全感知去噪器(SAD),在文本扩散模型的迭代去噪过程中引导生成文本进入安全区域,无需重训练即可实现灵活的安全约束,有效降低不安全生成同时保持生成质量。
VISTA:视频交互时空分析基准
发表机构 * University of Central Florida(中央佛罗里达大学) ; BITS Pilani(比特斯理工学院) ; Ho Chi Minh City University of Science(胡志明市科学大学) ; Amazon GenAI Project(亚马逊生成人工智能项目)
AI总结 提出VISTA基准,通过分解视频为实体、动作和关系,实现开放集多实体多动作的时空理解评估,揭示传统指标掩盖的偏差。
当迭代RAG优于理想证据:科学多跳问答中的诊断研究
发表机构 * Faculty of Engineering, McMaster University, Canada(麦斯特大学工程学院,加拿大) ; BASF Canada Inc., Canada(巴斯夫加拿大公司,加拿大)
AI总结 通过化学多跳问答数据集,诊断发现迭代检索-推理循环在科学领域显著优于静态RAG上限,揭示了阶段式检索的优势与失败模式。
深度学习的可能性预测不确定性
发表机构 * arXiv.org ; University of Cambridge(剑桥大学) ; National University of Singapore(新加坡国立大学) ; University of Warsaw(华沙大学)
AI总结 提出基于可能性理论的Dirichlet近似可能性后验预测(DAPPr)框架,通过投影-近似策略实现高效且原则性的认知不确定性量化,在多个基准上达到竞争性能。
LLMs 作为 ASP 程序员:自我纠正实现任务无关的非单调推理
发表机构 * Arizona State University(亚利桑那州立大学) ; Samsung Research(三星研究院)
AI总结 提出 LLM+ASP 框架,通过自我纠正循环将自然语言转化为回答集程序,实现无需任务特定工程的非单调推理,在多个基准上优于 SMT 方法。
BrainDINO:一种用于通用临床表征学习的脑MRI基础模型
发表机构 * Department of Radiation Oncology and Winship Cancer Institute, Emory University(放射肿瘤科和Winship癌症研究所,埃默里大学) ; Department of Radiation and Cellular Oncology, The University of Chicago(放射肿瘤学与细胞肿瘤学部,芝加哥大学) ; Department of Electrical and Computer Engineering, Georgia Institute of Technology(电气与计算机工程系,佐治亚理工学院) ; Department of Biomedical Engineering, Georgia Institute of Technology(生物医学工程系,佐治亚理工学院) ; Department of Biomedical Informatics, Emory University(生物医学信息学系,埃默里大学) ; Department of Medical Physics, Memorial Sloan Kettering Cancer Center(医学物理系,纪念斯隆凯特琳癌症中心)
AI总结 提出BrainDINO,一种基于自蒸馏的基础模型,在约660万张未标记轴向切片上训练,通过冻结编码器加轻量任务头,在多种脑MRI任务上达到或超越基线,尤其在小样本场景下优势显著。
Select to Think: 利用局部充分性解锁小语言模型潜力
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出Select to Think (S2T)方法,通过将大语言模型角色从生成转为选择,并蒸馏选择逻辑到小语言模型,使其在推理时无需依赖大模型,显著提升性能。
实用人格:通过桥接推理发现LLM人格
发表机构 * Department of Artificial Intelligence, Chung-Ang University, Seoul, 06974, Republic of Korea(Chung-Ang大学人工智能系) ; Department of Computer Science, University of British Columbia, Vancouver, BC V6T 1Z4, Canada(不列颠哥伦比亚大学计算机科学系) ; Van Lang University, Ho Chi Minh City, Vietnam(文-lang大学)
AI总结 提出基于桥接推理的框架,通过构建话语级知识图谱捕捉LLM对话中的隐含语义关联,实现从话语连贯性层面发现稳定人格特征,优于基于频率或风格的基线方法。
解码多模态迷宫:多模态注意力模型中可解释性采纳的系统综述
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 本文系统综述了2020年至2024年初多模态模型可解释性研究,发现多数工作集中于视觉-语言和纯语言模型,注意力机制是主要解释方法,但评估缺乏系统性和鲁棒性,并提出了改进建议。
BSViT:用于高效表达视觉表征学习的脉冲视觉Transformer
发表机构 * School of Computer Science and Engineering, University of Electronic Science and Technology of China(电子科技大学计算机科学与工程学院)
AI总结 提出BSViT,通过双通道爆发脉冲自注意力机制和局部邻域掩码策略,解决脉冲视觉Transformer中二进制脉冲信息容量有限和全局自注意力密集交互的问题,在静态和事件视觉基准上取得更高精度和能效。