LaRI: Layered Ray Intersections for Single-view 3D Geometric Reasoning
LaRI: 用于单视图3D几何推理的分层射线交点
发表机构 * ETH Zurich(苏黎世联邦理工学院) ; Adobe Research(Adobe研究)
AI总结 提出LaRI方法,通过分层点图预测射线与多个表面的交点,实现单次前馈的完整场景重建,支持物体级和场景级任务。
LaRI: 用于单视图3D几何推理的分层射线交点
发表机构 * ETH Zurich(苏黎世联邦理工学院) ; Adobe Research(Adobe研究)
AI总结 提出LaRI方法,通过分层点图预测射线与多个表面的交点,实现单次前馈的完整场景重建,支持物体级和场景级任务。
NuWa: 为边缘设备导出轻量级类别特定视觉Transformer
发表机构 * National Engineering Research Center for Big Data Technology and System, Services Computing Technology and System Lab, Cluster and Grid Computing Lab(大数据技术与系统国家工程研究中心、服务计算技术与系统实验室、集群与网格计算实验室) ; Swinburne University of Technology(斯威本科技大学) ; Deakin University(迪金大学)
AI总结 针对边缘设备只需识别特定类别的问题,提出NuWa方法,通过自知识净化去除有害权重,并利用闭式优化高效导出紧凑ViT,无需重训练即可提升类别精度并加速推理。
一个具有停止准则的 $(\epsilon,\delta)$-精确水平集估计
发表机构 * Kyushu Institute of Technology(九州工业技术大学) ; Nagoya University / RIKEN AIP(名古屋大学 / RIKEN AIP) ; The Institute of Statistical Mathematics/ RIKEN AIP(统计数学研究所 / RIKEN AIP)
AI总结 提出一种带停止准则的水平集估计获取策略,理论上证明满足 $\epsilon$-精确度和 $1-\delta$ 置信水平,减少不必要的函数评估,实验验证了其有效性。
深度树张量网络
发表机构 * Nanjing University of Science and Technology(南京理工大学)
AI总结 提出深度树张量网络(DTTN),通过多线性运算捕获指数阶特征交互,在多个基准上超越现有方法。
BadRobot: 在物理世界中越狱具身LLM智能体
发表机构 * Huazhong University of Science and Technology(华中科技大学) ; Beihang University(北航) ; Griffith University(格里菲斯大学)
AI总结 提出BadRobot攻击范式,利用LLM在机器人系统中的操纵、语言输出与物理动作的错位以及世界知识缺陷三个漏洞,通过语音交互使具身LLM执行有害行为,并在基准测试中验证了有效性。
表格LLM真正重要的是什么?模型与数据影响的元评估
发表机构 * University of Michigan(密歇根大学) ; AWS AI Labs(AWS人工智能实验室) ; Figma ; OKX ; Google(谷歌)
AI总结 通过指令微调12个模型并在16个基准上评估,发现基座模型选择比训练数据对性能影响更大,泛化与推理仍是挑战。
释放相关性与连续性:从RGB图像进行高光谱重建
发表机构 * School of Control Science and Engineering, Shandong University(控制科学与工程学院,山东大学) ; Key Laboratory of Machine Intelligence and System Control, Ministry of Education(机器智能与系统控制重点实验室,教育部) ; University of California, Los Angeles(加州大学洛杉矶分校) ; Hubei Key Laboratory of Intelligent Geo-Information Processing, China University of Geosciences(智能地理信息处理重点实验室,中国地质大学) ; Lingnan University(岭大大学)
AI总结 提出相关性连续性网络(CCNet),通过局部光谱相关性建模(GrSCM)和全局光谱连续性建模(NeSCM)及自适应融合(PAF),实现RGB到高光谱图像的SOTA重建。
Whisper-GPT -- 语音和音乐的连续离散混合表示语言模型
发表机构 * arXiv.org
AI总结 提出Whisper-GPT,一种结合连续音频表示(如频谱图)和离散音频令牌的生成式大语言模型,解决了离散令牌方法上下文长度过长的问题,在语音和音乐的下一个令牌预测中降低了困惑度和负对数似然。
条件 Vendi 分数:生成式 AI 模型和 LLM 的提示感知多样性评估
发表机构 * Department of Computer Science and Engineering, The Chinese University of Hong Kong(计算机科学与工程系,香港中文大学) ; Department of Information Engineering, The Chinese University of Hong Kong(信息工程系,香港中文大学)
AI总结 针对文本提示引导的生成模型,提出条件 Vendi 和条件 RKE 分数,通过条件熵分离模型自身多样性,并证明收敛性及在多个任务中恢复真实多样性排序。
面向垂直分区多视角数据的主动-被动联邦学习
发表机构 * National University of Defense Technology(国防科技大学)
AI总结 提出主动-被动联邦学习框架,主动客户端独立构建完整模型,被动客户端仅辅助训练,解决推理时客户端协作不可靠问题,通过重构损失和对比损失实例化两种分类方法并验证有效性。
信念获取作为随机滤波
发表机构 * School of Computing, Australian National University(计算机学院,澳大利亚国立大学)
AI总结 本文提出将信念获取视为随机滤波问题,通过分解条件滤波器在高维状态空间中同时跟踪状态和估计参数,并在流行病跟踪等实验中验证有效性。
扩散模型中可重复性与泛化性的出现
发表机构 * CIFAR-10 dataset(CIFAR-10数据集)
AI总结 研究发现扩散模型在相同初始噪声和确定性采样器下,不同模型输出高度相似,且这种可重复性在记忆和泛化两种训练模式下均存在,对训练效率、模型隐私等有重要启示。
建筑能源管理的语义建模综述
发表机构 * LASIGE, DI, Faculdade de Ciências, Universidade de Lisboa, Portugal(里斯本大学科学学院激光工程与信息研究所)
AI总结 综述建筑运行阶段语义建模,分析60个模型和20多个用例,提出本体证据完备性指标,发现物理结构覆盖好而动态概念覆盖不足,指出提升互操作性和泛化能力的方向。
开放韩语语料库:一份实践报告
发表机构 * AI Center, Samsung Electronics(三星电子AI中心) ; Google LLC(谷歌公司) ; Lablup Inc.(Lablup公司)
AI总结 本文梳理并评述了现有韩语开放语料库,涵盖机构级资源及各类任务数据集,并针对低资源语言提出了开源数据集构建与发布的建议。
RAPTOR: 机器人快速空中抓取与运输物体
发表机构 * Soft Robotics Lab, ETH Zurich, Switzerland(软机器人实验室,苏黎世联邦理工学院,瑞士)
AI总结 提出一种结合软材料Fin Ray夹爪和Fast DDS中间件的四旋翼平台RAPTOR,实现高速飞行中对不同几何形状物体的灵活抓取,平均抓取成功率83%,有效载荷达先前工作的四倍。
RocketSmith: 一种用于高功率火箭设计与制造的智能系统
发表机构 * Graduate Research Assistant, Mechanical Engineering(机械工程研究生助理) ; AI Fellow, Mechanical Engineering(人工智能研究员,机械工程) ; Undergraduate Student, Mechanical Engineering(机械工程本科生) ; Senior Member, Pittsburgh Prefecture One(高级会员,匹兹堡郡一区) ; Russell V. Trader Associate Professor, Mechanical Engineering(Russell V. Trader副教授,机械工程)
AI总结 本文提出RocketSmith,一种基于智能体系统的自动化设计、制造与优化框架,通过子智能体与技能实现零样本和人在回路的飞行参数优化,并利用增材制造成功开发并测试了四枚高功率火箭。
鲁棒滤波注意力:自注意力作为精度加权状态估计
发表机构 * arXiv.org
AI总结 提出鲁棒滤波注意力(RFA),将自注意力建模为基于线性随机微分方程的状态估计,在语言建模中实现优于RoPE的困惑度与零样本外推稳定性。
迈向基于 gaze 的 AI 信息披露界面:阅读 AI 协助新闻时的注视注意力与认知负荷
发表机构 * Centrum Wiskunde & Informatica(荷兰数学与信息研究所) ; University of Amsterdam(阿姆斯特丹大学) ; TU Delft(代尔夫特理工大学) ; Utrecht University(乌得勒支大学)
AI总结 研究探讨了AI信息披露对读者注意力和认知负荷的影响,发现简要披露导致更高的注视时间和眼跳次数,而详细披露无额外负担,提出基于注视的自适应信息披露设计。
MALLVI:一种多智能体框架用于集成通用机器人操作
发表机构 * Department of Electrical Engineering, Sharif University of Technology(电气工程系,谢里夫大学)
AI总结 MALLVI通过多智能体协作实现闭环反馈驱动的机器人操作,提升泛化能力和零样本任务成功率。
发表机构 * University of Nairobi(内罗毕大学)
发表机构 * Geological Survey of Finland(芬兰地质调查局) ; Indian Institute of Technology Bombay(印度理工学院孟买分校)
发表机构 * Shanghai AI Lab(上海人工智能实验室) ; National University of Singapore(新加坡国立大学) ; Independent Researcher(独立研究者)
发表机构 * Chair of Design Computation, RWTH Aachen University(设计计算系,亚琛工业大学) ; Chair of Computing in Civil and Building Engineering, Technical University of Munich(土木与建筑工程计算系,慕尼黑技术大学) ; Federal Institute for Research on Building, Urban Affairs and Spatial Development (BBSR)(建筑、都市事务和空间发展研究院) ; TUM Georg Nemetschek Institute(慕尼黑技术大学Georg Nemetschek研究所)
发表机构 * Department of Marine Technology(海洋技术系) ; Norwegian University of Science and Technology(挪威科学技术大学) ; Trondheim, Norway(特罗姆瑟,挪威)
发表机构 * Aishik Sanyal
通过检索增强生成和多目标对齐统一查询自动补全中的排序与生成
发表机构 * Apple(苹果公司) ; UC Berkeley(加州大学伯克利分校)
AI总结 提出一个统一框架,通过检索增强生成(RAG)和多目标直接偏好优化(DPO)将查询自动补全重构为端到端列表生成,解决传统流水线长尾覆盖不足和生成方法幻觉风险的问题,并在大规模商业搜索平台上验证了有效性。
发表机构 * University of Science and Technology of China(中国科学技术大学)
发表机构 * Northwestern University(西北大学)
发表机构 * Centrum Wiskunde & Informatica(数学与信息学中心) ; University of Amsterdam(阿姆斯特丹大学) ; New York University(纽约大学) ; TU Delft(代尔夫特理工大学) ; Utrecht University(乌得勒支大学)
发表机构 * TUDelft(代尔夫特理工大学)