Targeting World Models to Compromise Robot Learning Pipelines
针对世界模型以破坏机器人学习流程
发表机构 * Northeastern University(东北大学) ; University of Massachusetts Amherst(马萨诸塞大学阿默斯特分校)
AI总结 本文提出针对世界模型的新型数据投毒攻击方法,通过注入恶意提示或转换动态,在看似安全的数据中生成危险训练轨迹,导致下游策略不安全。
针对世界模型以破坏机器人学习流程
发表机构 * Northeastern University(东北大学) ; University of Massachusetts Amherst(马萨诸塞大学阿默斯特分校)
AI总结 本文提出针对世界模型的新型数据投毒攻击方法,通过注入恶意提示或转换动态,在看似安全的数据中生成危险训练轨迹,导致下游策略不安全。
Self-Harness:自我改进的操控框架
发表机构 * Shanghai Artificial Intelligence Laboratory(上海人工智能实验室)
AI总结 提出Self-Harness范式,让LLM智能体通过弱点挖掘、框架提议和验证迭代改进自身操控框架,在Terminal-Bench-2.0上使三种模型的通过率分别提升21.4%、14.3%和14.2%。
ContextShift: 目标检测中上下文依赖性的受控基准
发表机构 * Ben-Gurion University of the Negev(内盖夫本-古里安大学)
AI总结 提出ContextShift基准,通过几何变换和背景替换系统操纵物体-上下文关系,发现检测器性能下降主要表现为漏检增加和预测数量减少,且统计共现与有效视觉上下文非线性相关,上下文感知增强可提升鲁棒性。
LLM编排的卒中护理合规性检查无需计算机可解释指南
发表机构 * Computer Science Institute, DiSIT, University of Piemonte Orientale(皮埃蒙特东方大学计算机科学研究所) ; Integrated Laboratory of AI and Medical Informatics, DAIRI, SS. Antonio e Biagio e Cesare Arrigo Hospital(圣安东尼奥、比亚焦与切萨雷·阿里戈医院DAIRI人工智能与医学信息学综合实验室)
AI总结 提出基于大语言模型编排的模块化框架,从非结构化临床文本和指南中自动提取患者轨迹、识别规范规则并计算合规性指标,在卒中护理领域验证了86%以上的轨迹合规。
检测差异不等于理解结构:大型语言模型在图同构任务中失败
发表机构 * University of Ruhuna(鲁胡纳大学) ; University of Moratuwa(莫拉图瓦大学) ; University of Melbourne(墨尔本大学)
AI总结 本研究通过图同构检测任务揭示LLM的“虚假成功”:虽然LLM在检测同构时准确率接近完美,但面对节点标签置换的相同图时却无法识别,表明其依赖模式而非抽象结构推理。
超越回忆的记忆:用于自进化LLM代理的双过程认知记忆系统
发表机构 * Tencent(腾讯)
AI总结 提出DCPM系统,基于双过程理论将代理记忆组织为认知能力层次,通过同步日间写入器和异步夜间引擎分别处理信念修正和模式归纳,在隐式跨会话推理任务上提升显著。
基于合成数据的真实世界手稿光学音乐识别
发表机构 * Institute of Formal and Applied Linguistics, Charles University(查尔斯大学形式与应用语言学研究所) ; Moravian Library(摩拉维亚图书馆)
AI总结 针对资源受限场景下真实世界复杂钢琴手稿的识别,提出利用合成手稿图像进行域自适应,显著提升性能,并避免昂贵细粒度标注。
多相机系统中视觉-惯性相对位姿估计的高效最小求解器
发表机构 * Naval Aviation University(海军航空大学) ; National University of Defense Technology(国防科技大学)
AI总结 提出两种基于IMU先验的最小求解器,仅需4个点对应,将多相机相对位姿问题简化为单变量6次多项式,显著降低计算复杂度,在RANSAC框架中表现优异。
目标集,而非目标状态:通过目标集事后重标记实现可查询的机器人目标
发表机构 * INESCOP(西班牙鞋类及相关技术研究所) ; University of Alicante(阿利坎特大学)
AI总结 提出目标集事后重标记(GS-HER),将事后重标记从单目标状态推广到谓词级目标集,通过可查询的二值谓词解耦成功条件与状态维度,提升离线GCRL在冗余维度下的性能,并实现单一模型支持多目标谓词。
无需训练的通用的少样本分割通过开放词汇语义仲裁
发表机构 * University of Ghana(加纳大学)
AI总结 提出Open-V框架,通过推理时协调冻结的语义先验(SAM3 PCS与K-shot CLIP支持质心)实现无需训练的通用少样本分割,在多个基准上超越有监督方法。
逃离在线策略蒸馏中的KL一致陷阱
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)) ; The Hong Kong University of Science and Technology(香港科技大学) ; The Hong Kong Polytechnic University(香港理工大学) ; Eastern Institute of Technology, Ningbo(宁波东方理工大学)
AI总结 针对在线策略蒸馏中学生陷入低KL一致陷阱导致训练信号弱的问题,提出KAT动态终止规则,过滤弱监督,在数学基准上提升avg@k 2.66%和pass@k 3.43%,同时减少59.73%的rollout长度。
一种用于联合多粒度L2评估和自然语言解释的微调SpeechLLM
发表机构 * Centre for Language Studies, Radboud University(语言研究中心,拉德堡德大学)
AI总结 提出一种基于评分准则的SpeechLLM,通过混合训练目标联合预测句子级和词/音素级标签并生成自然语言解释,在SpeechOcean762上达到或超越单粒度模型。
H2HMem: 面向人际交互中智能体的多模态记忆基准
发表机构 * Jilin University(吉林大学) ; Shanghai Jiao Tong University(上海交通大学) ; University of California at Merced(加州大学默塞德分校)
AI总结 提出H2HMem基准,通过双人和多人多模态对话评估智能体在记忆召回、推理和应用方面的能力,揭示现有模型在多模态、多参与者场景下的显著局限。
AbstRAG:面向检索问题的抽象学习
发表机构 * Idiap Research Institute(Idiap 研究所) ; École Polytechnique Fédérale de Lausanne (EPFL)(洛桑联邦理工学院 (EPFL)) ; São Paulo State University(圣保罗州立大学) ; University of Manchester(曼彻斯特大学) ; CRUK National Biomarker Centre(英国癌症研究中心国家生物标志物中心)
AI总结 针对查询与文档证据间的抽象鸿沟问题,提出AbstRAG方法,通过将抽象作为显式检索对象,并采用反思性精炼机制,在三个基准上提升了检索和生成性能。
$ω$-EVA:基于潜在交互世界模型的构想、验证与行动
发表机构 * Technical University of Munich(慕尼黑工业大学)
AI总结 提出$ω$-EVA框架,通过潜在交互世界模型实现“构想-验证-行动”循环,利用动作条件潜在动力学和语言条件流策略生成动作,无需生成未来视频,在多种机器人操作任务中提升策略性能。
打破分词器壁垒:跨模型系列的在线策略蒸馏
发表机构 * The Hong Kong University of Science and Technology (Guangzhou)(香港科技大学(广州)) ; Tencent(腾讯) ; The Hong Kong University of Science and Technology(香港科技大学)
AI总结 提出跨分词器在线策略蒸馏方法,通过精确的token映射算法使教师模型概率分布信号能跨不同分词器传播,显著提升计算效率。
基于事件的光学触觉传感器的稠密力估计
发表机构 * Sony Advanced Visual Sensing, Zurich, Switzerland(索尼高级视觉传感公司,苏黎世,瑞士) ; ETH Zürich(苏黎世联邦理工学院)
AI总结 提出首个利用事件相机重建稠密3D力场的方法,通过事件数据估计表面位移并映射为力,平均误差(0.14N,0.10N,0.93N),工作频率100Hz。
TheoremBench: 评估LLMs在形式数学中的定理证明能力
发表机构 * Skolkovo Institute of Science and Technology(斯科尔科沃科学技术研究所) ; HSE University(高等经济大学) ; Artificial Intelligence Research Institute(人工智能研究所) ; Sberbank(俄罗斯联邦储蓄银行)
AI总结 提出TheoremBench基准,通过结构化定理族和细粒度评估指标,揭示当前证明器在复杂定理上的行为偏差。
无金标准推理:自动形式化的代理-裁判理论
发表机构 * Idiap Research Institute(Idiap研究所) ; École Polytechnique Fédérale de Lausanne (EPFL)(洛桑联邦理工学院) ; University of Manchester(曼彻斯特大学) ; CRUK National Biomarker Centre, University of Manchester(英国癌症研究中心国家生物标志物中心,曼彻斯特大学)
AI总结 提出无参考的代理-裁判框架,通过多轴属性检查替代金标准匹配,实现自动形式化的迭代优化,理论保证收敛,实验提升通过率。
AliyunConsoleAgent:通过蒸馏和强化学习在真实云环境中训练Web智能体
发表机构 * Alibaba Cloud China(阿里云中国)
AI总结 提出AliyunConsoleAgent框架,通过蒸馏前沿模型轨迹进行监督微调,再结合GRPO和双通道结果奖励模型在真实云环境中强化学习,实现文档验证自动化,以低成本达到接近前沿专有模型的成功率。
利用形态学进行历史手稿计量分析
发表机构 * LIGM, École des Ponts et Chaussées, IP Paris, CNRS, France(LIGM,国立桥路学校,巴黎理工学院,法国国家科学研究中心,法国) ; Institut de Recherche et d’Histoire des Textes, Paris, Île-de-France, France(文本研究与历史研究所,巴黎,法兰西岛,法国)
AI总结 提出基于Transformer的检测架构和原型线重建模块,从行级转录中学习字符原型,实现可扩展、有意义的古文字测量,并验证其在区分图形轮廓和发现细微变化方面的有效性。
SIFT: 利用注意力不变性实现RAG预填充快速计算的索引选择
发表机构 * Georgia Institute of Technology(佐治亚理工学院) ; Microsoft(微软)
AI总结 针对RAG查询中文档重复导致预填充计算冗余和TTFT增加的问题,提出SIFT方法,通过离线提取文档高注意力分数位置并利用注意力不变性,在预填充时仅计算标记位置,将TTFT提升1.71倍且精度损失在1%以内。
MUDIDI:一种基于语言模型的多语言词典数字化两阶段框架
发表机构 * School of Computing and Information Systems, The University of Melbourne(墨尔本大学计算与信息系统学院) ; Melbourne School of Psychological Sciences, The University of Melbourne(墨尔本大学墨尔本心理科学学院) ; LILT
AI总结 提出MUDIDI两阶段框架,结合语言模型实现多语言词典数字化,在字符识别、标记保留和词条分割上优于现有OCR和视觉语言模型,并发布30本公共领域词典的标注数据集。
算子学习求解不同初始条件下的福克-普朗克方程
发表机构 * Fuzhou University(福州大学) ; Louisiana State University(路易斯安那州立大学) ; Beijing Normal-Hong Kong Baptist University(北京师范大学-香港浸会大学联合国际学院) ; École Polytechnique Fédérale de Lausanne(洛桑联邦理工学院) ; Chinese Academy of Sciences(中国科学院)
AI总结 提出基于条件归一化流的物理信息神经网络框架,利用Chapman-Kolmogorov方程和线性化SDE基分布,高效求解多种初始条件下FPE的算子,引入时间加权损失函数解决小时间不稳定性。
贝叶斯选择性潜在推断用于污水优先的流感监测
发表机构 * University of Copenhagen(哥本哈根大学) ; Rutgers University(罗格斯大学) ; Imperial College London(帝国理工学院)
AI总结 提出贝叶斯选择性潜在推断(BSLI),通过后验分布、可回答性认证和成本校准的Bellman策略,在污水优先流感监测中优化查询与弃权决策。
Graph Mamba Operator: 一种用于相互作用粒子系统的潜在模拟器
发表机构 * Indian Institute of Science, Bangalore(印度科学研究所,班加罗尔) ; Indian Institute of Technology, Delhi(印度理工学院,德里)
AI总结 提出Graph Mamba Operator (GraMO),通过将状态空间模型与图交互学习集成到单一循环中,实现长期时空依赖的联合建模,在N体系统、运动捕捉和机器人数据集上取得最低误差。
LargeMonitor: 通过大型预训练模型监控在线无任务持续学习
发表机构 * HKU(香港大学) ; Qicore Tech(启科科技)
AI总结 提出LargeMonitor框架,利用大型预训练模型(LVM和LMM)解耦检测与诊断,实现无任务持续学习中的零样本漂移检测和语义病因诊断,提升现有算法性能。
引导我出去:危机场景下评估VLM操作员通信的框架
发表机构 * Fondazione Bruno Kessler(布鲁诺·凯斯勒基金会) ; University of Trento(特伦托大学)
AI总结 提出一个基准框架,评估视觉语言模型在模拟疏散中引导平民的策略(窄播 vs. 广播)、环境表示(视觉 vs. 图)和威胁行为(静态 vs. 移动),发现窄播降低失败率,视觉表示主导性能,移动威胁增加失败率。
面向手语交互中的手语活动预测
发表机构 * Institute of Science Tokyo(东京科学大学) ; Kyoto University(京都大学)
AI总结 本研究探索将语音活动预测(VAP)框架迁移至双人手语交互,利用公共DGS语料库提取手语活动流,基于姿态特征进行轮换预测,结果表明HOLD/SHIFT预测有潜力但SHIFT预测困难。
面向物理AI的驾驭工程:机器人中间件即驾驭层
发表机构 * Daegu Gyeongbuk Institute of Science and Technology (DGIST)(大邱庆北科学技术院)
AI总结 本文提出机器人中间件作为物理AI的驾驭层,需同时干预控制、计算和通信,并补充投影、隔离和转移三种缺失的强制功能,以ROS 2驾驭配置文件为例。