Quantitative Promise Theory: Intentionality and Inference in Autonomous Agents
定量承诺理论:自主智能体中的意向性与推理
发表机构 * ChiTek-i AS
AI总结 本文提出将贝叶斯概率与信息论优化(包括主动推理)融入承诺语义,以解决概率计算中的非局部协调、校准和归一化问题,并利用边界条件作为承诺约束状态与决策阈值,实现可扩展的意图定义。
定量承诺理论:自主智能体中的意向性与推理
发表机构 * ChiTek-i AS
AI总结 本文提出将贝叶斯概率与信息论优化(包括主动推理)融入承诺语义,以解决概率计算中的非局部协调、校准和归一化问题,并利用边界条件作为承诺约束状态与决策阈值,实现可扩展的意图定义。
OASIS:从仿真数据收集到真实世界人形机器人移动操作
发表机构 * Institute of Artificial Intelligence (TeleAI), China Telecom(中国电信人工智能研究院(TeleAI)) ; Fudan University(复旦大学) ; East China University of Science and Technology(华东理工大学) ; Shanghai Jiao Tong University(上海交通大学)
AI总结 提出OASIS框架,利用3D生成模型从真实图像重建物体资产,在仿真中收集并增强轨迹数据,训练层次化视觉运动策略,实现零样本部署下人形机器人移动操作,成功率优于真实遥操作数据。
Ishigaki-IDS:一种面向建筑信息模型中信息交付规范起草的开放权重验证器感知模型
发表机构 * ONESTRUCTION Inc.(ONESTRUCTION公司) ; AWS GenAI Innovation Center(AWS生成式AI创新中心)
AI总结 针对BIM项目中IDS编写瓶颈,提出开放权重LLM Ishigaki-IDS,结合持续预训练、监督微调和基于验证器奖励的强化学习,生成可通过外部验证器检查的IDS草案,在基准上显著优于基线,并减少54.7%工作时间。
PAEC:面向RLVR中LLM推理的位置感知熵校准
发表机构 * Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所) ; School of Artificial Intelligence, University of Chinese Academy of Sciences(中国科学院大学人工智能学院) ; School of Artificial Intelligence, Beijing University of Posts and Telecommunications(北京邮电大学人工智能学院) ; Institute of Computing Technology, Chinese Academy of Sciences(中国科学院计算技术研究所) ; School of Computer Science and Technology, University of Chinese Academy of Sciences(中国科学院大学计算机科学与技术学院)
AI总结 提出位置感知熵校准(PAEC),通过局部top-p熵和top-2候选竞争构建软掩码,并施加基于锚点的下界惩罚,防止决策相关位置熵崩溃,提升数学推理性能。
当视频误读:面向探索性操作痕迹问答的阅读启发式闭环蒸馏
发表机构 * Tsinghua University(清华大学) ; DISCOVER Robotics
AI总结 针对探索性操作中机器人误读视频痕迹的问题,提出闭环痕迹蒸馏方法,通过任务编码代理提取单行自然语言启发式提示,使冻结VLM准确预测最小成功动作链,在模拟和真实机器人任务上提升准确率0.38-0.47。
AgentTrust: AI代理行为的自改进信任层
发表机构 * Independent Researcher(独立研究员)
AI总结 提出AgentTrust v2,通过威胁类型分类(词汇/语义)和自学习机制,在代理行为中实现自改进信任决策,显著提升语义威胁检测准确率并降低误拦。
常规实验室轨迹编码癌症器官级并发症的发生
发表机构 * Technical University of Munich(慕尼黑工业大学) ; Charité - Universitätsmedizin Berlin(柏林夏里特医学院) ; German Heart Center(德国心脏中心)
AI总结 利用Transformer分析癌症患者常规实验室检测的纵向轨迹,预测162种治疗相关并发症,性能优于单时间点方法,验证了轨迹数据对器官功能恶化的早期编码能力。
NGram-MoSE:基于N-Gram上下文和混合专家模型的高效遥感超分辨率
发表机构 * National Science and Technology Council (NSTC), Taiwan(台湾国家科学与技术委员会)
AI总结 提出轻量Transformer架构NGram-MoSE,通过N-Gram上下文注入增强局部一致性,结合混合专家前馈设计稀疏激活以降低计算量,在遥感超分辨率任务中实现高效且鲁棒的纹理重建。
通过上下文对比元强化学习的自主空中操控
发表机构 * National Key Laboratory of Novel Software Technology, Nanjing University(南京大学计算机软件新技术国家重点实验室) ; School of Artificial Intelligence, Nanjing University(南京大学人工智能学院) ; Faculty of Robot Science and Engineering, Northeastern University(东北大学机器人科学与工程学院) ; National Key Lab of Autonomous Intelligent Unmanned Systems, Beijing Institute of Technology(北京理工大学自主智能无人系统国家重点实验室)
AI总结 提出Aco2方法,通过上下文对比元强化学习,使四旋翼无人机在无需人工干预下自主完成不同载荷的抓取、运输和投递,并直接迁移到真实世界。
VESTA: 一种全自动的LLM智能体场景生成与安全评估框架
发表机构 * BrainCog AI Lab, Institute of Automation, Chinese Academy of Sciences(中国科学院自动化研究所类脑人工智能实验室) ; Beijing Institute of AI Safety and Governance (Beijing-AISI)(北京人工智能安全与治理研究院) ; Beijing Key Laboratory of Safe AI and Superalignment(北京市安全人工智能与超级对齐重点实验室) ; School of Artificial Intelligence, UCAS(中国科学院大学人工智能学院) ; Long-term AI(长期人工智能)
AI总结 提出VESTA框架,基于五个风险维度自动生成1072个可执行场景,评估12个LLM智能体在任务执行中的行为安全风险,平均攻击成功率达47.1%。
脚手架对GAIA的影响:一项受控比较
发表机构 * Independent Researcher(独立研究员)
AI总结 通过受控实验比较三种脚手架(ReAct、多智能体设计、规划-执行)对五个模型在GAIA验证集上的影响,发现脚手架选择可导致准确率差异高达28个百分点,且模型能力越强对脚手架依赖性不一定越低。
DriveReward:面向自动驾驶的综合数据集与生成式视觉语言奖励模型
发表机构 * Tsinghua University(清华大学) ; Xiaomi EV(小米汽车)
AI总结 提出DriveReward数据集和专用视觉语言奖励模型,通过反事实标注和时序视觉引导,解决自动驾驶中奖励获取的泛化问题,在强化学习和轨迹选择中取得与基于规则方法相当的性能。
两座桥梁,一条路径:从VLM到具有具身轨迹耦合数据的可泛化VLA
发表机构 * Fudan University(复旦大学) ; Shanghai Innovation Institute(上海创新研究院)
AI总结 提出具身轨迹耦合(ETC)数据作为中间桥梁,通过三阶段训练策略(分布桥接、目标桥接、保留适应)将视觉语言模型(VLM)逐步转化为可泛化的视觉语言动作模型(VLA),解决从VLM到VLA的双重鸿沟。
自适应选择性共形风险控制的联合有限样本证书
发表机构 * Chongqing University of Posts and Telecommunications(重庆邮电大学) ; Army Medical University (Third Military Medical University)(陆军军医大学(第三军医大学))
AI总结 提出一种联合有限样本证书,同时上界选择性风险、下界接受概率和部署效用,适用于自适应阈值选择,通过比率风险的经验伯恩斯坦界等方法,在ImageNet和COCO上比Hoeffding-CRC提升22个百分点接受前沿,且紧致约10倍。
OmniTryOn: 一次性视频试穿任意物品!
发表机构 * Xi’an Jiaotong University(西安交通大学)
AI总结 提出OmniTryOn框架,通过首帧可穿戴缓存和时空一致RoPE,实现无外部先验的一次性视频多物品试穿,在TryAny-Bench上显著优于现有方法。
面向自主水下机器人的端到端运动规划与执行:基于强化学习的方法
发表机构 * University of Haifa(海法大学)
AI总结 提出分层强化学习架构,将原始传感器数据直接映射为推进器指令,实现AUV端到端运动规划与执行,在HoloOcean仿真中轨迹长度接近RRT*基线(误差4%-6%),并具备鲁棒性。
少看多思:面向高效多模态大语言模型的块级注意力跳过
发表机构 * Xiamen University(厦门大学)
AI总结 针对多模态大语言模型视觉注意力饱和问题,提出训练无关的Visual-Skip方法,通过选择性跳过冗余的视觉自注意力模块实现块级稀疏性,并利用轻量级校准动态选择最优稀疏路径,在保持性能的同时显著降低计算成本。
ActProbe:面向生成式机器人策略早期故障检测的动作空间探针
发表机构 * Institute for AI Industry Research (AIR), Tsinghua University(清华大学人工智能产业研究院(AIR)) ; University of Electronic Science and Technology of China(电子科技大学) ; Nanjing University(南京大学)
AI总结 提出ActProbe,一种轻量级纯动作空间故障检测器,利用时间一致性误差和动作块幅度两个信号,通过LSTM-MLP架构预测故障,在多种生成式策略上提升F1-时效性帕累托前沿平均超体积增益+12.7%,并加速强化学习微调。
带有可废止信念的立场逻辑
发表机构 * University of Cape Town(开普敦大学) ; CAIR, South Africa(南非人工智能研究中心) ; Technische Universität Dresden(德累斯顿工业大学) ; ScaDS.AI – Center for Scalable Data Analytics and Artificial Intelligence Dresden/Leipzig, Germany(德国德累斯顿/莱比锡可扩展数据分析与人工智能中心)
AI总结 将KLM可废止逻辑与立场逻辑框架结合,提出DRSL,通过公理化语义和多种蕴涵关系提升,实现多视角下可废止信念的形式化表达。
重回正轨:在扩散大语言模型中对齐奖励与状态以进行推理
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Tongyi Lab(通义实验室) ; Northeastern University(东北大学)
AI总结 针对扩散大语言模型强化学习中过程奖励与状态轨迹的双重错位问题,提出PAPO框架,通过步骤感知过程奖励和熵引导历史重演实现对齐,在四个基准上取得显著提升。
解释黑盒语言模型:学习优化语言结构化的单词子集
发表机构 * Korea University(高丽大学)
AI总结 针对黑盒语言模型解释的三个关键需求(推理效率、黑盒兼容性、语言结构可解释性),提出一种通过强化学习选择信息性单词子集的方法,实现高效、无梯度且语言连贯的解释。
SAEExplainer: 基于激活引导偏好优化的SAE特征解释
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; NJIT(新泽西理工学院) ; Jilin University(吉林大学) ; Institute of Computing Technology, CAS(中国科学院计算技术研究所) ; The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳))
AI总结 提出SAEExplainer框架,利用激活分数作为奖励信号,通过两轮优化迭代自纠正基础解释,减少解释幻觉并增强因果触发模式。
EgoPriMo:面向交互式人形控制的自我中心运动生成
发表机构 * Tianjin University(天津大学) ; Zhongguancun Academy(中关村学院) ; Beihang University(北京航空航天大学) ; Zhongguancun Institute of Artificial Intelligence(中关村人工智能研究院) ; DeepCybo
AI总结 提出EgoPriMo框架,通过自我中心人类演示学习全身运动先验,利用三流DiT联合建模身体动态、视觉上下文和文本,支持重建、生成和预测,并在Unitree人形机器人上执行。
眼见为实:基于视觉锚点的提示重写对齐用于文本到图像生成
发表机构 * Peking University(北京大学) ; Tencent(腾讯) ; Dalian University of Technology(大连理工大学) ; Nanyang Technological University(南洋理工大学) ; University of Cambridge(剑桥大学) ; Zhejiang University(浙江大学)
AI总结 提出FaithRewriter框架,利用多模态大模型生成中间视觉线索,结合大语言模型生成视觉锚定的增强提示,再蒸馏至小模型,以缩小用户意图与生成图像之间的差距。
TRADE: 换能器增强的语音大语言模型解码器
发表机构 * Hippocratic AI ; Carnegie Mellon University(卡内基梅隆大学)
AI总结 提出TRADE模型,通过换能器分支增强多模态大语言模型,实现帧同步对齐与语言推理结合,支持流式和非流式解码,在多个基准上取得低词错误率。
STELLAR: 面向长尾物种分布建模的时空环境学习与潜在对齐精炼
发表机构 * Sun Yat-sen University(中山大学) ; Cornell University(康奈尔大学) ; Foshan University(佛山大学) ; Cornell Lab of Ornithology(康奈尔鸟类学实验室)
AI总结 提出STELLAR框架,通过图-时间编码器、上下文锚定潜在对齐和不平衡感知解码模块,联合优化动态栖息地上下文和群落结构,有效解决物种分布建模中的时空耦合与长尾不平衡问题。
测试黑箱:面向消费者的健康大语言模型独立评估的结构性障碍
发表机构 * Massachusetts Institute of Technology(麻省理工学院) ; Johns Hopkins University(约翰霍普金斯大学) ; University of California, Berkeley(加州大学伯克利分校) ; Toronto General Hospital, University Health Network(多伦多综合医院,大学健康网络) ; McGill University(麦吉尔大学) ; University of Toronto(多伦多大学) ; Independent Researcher(独立研究者) ; Rutgers University(罗格斯大学) ; Beth Israel Deaconess Medical Center(贝斯以色列女执事医疗中心) ; Harvard T.H. Chan School of Public Health(哈佛大学陈曾熙公共卫生学院)
AI总结 本研究通过模拟用户档案,测试面向消费者的健康大语言模型在响应变异和谄媚行为方面的表现,发现五大结构性障碍阻碍独立评估。
PIPE-Cypher:面向文本到Cypher系统的自动企业基准生成
发表机构 * Halıcıoğlu School of Data Science and Computing, University of California, San Diego(加利福尼亚大学圣迭戈分校哈勒乔卢数据科学与计算学院) ; Independent Researcher(独立研究员)
AI总结 提出PIPE-Cypher流水线,利用本地大模型从企业属性图自动生成平衡的NL-to-Cypher基准,通过模式分析、逆向查询约束生成和执行验证等步骤,实现可重复的基准构建。
生成式推荐中噪声鲁棒GRPO的自适应损失平衡
发表机构 * JD.com(京东) ; Waseda University(早稻田大学) ; University of Electronic Science and Technology of China(电子科技大学)
AI总结 针对生成式推荐中奖励模型因曝光偏差导致噪声的问题,提出AdaGRPO框架,通过策略难度和奖励可区分性诊断动态切换GRPO与监督学习,在电商数据集上提升召回率并抑制幻觉。
基于可变性的框架:形式概念分析与关系概念分析中的可解释命名
发表机构 * LIRMM, Univ. Montpellier, CNRS(法国国家科学研究中心蒙彼利埃大学计算机科学、机器人及微电子实验室) ; CIRAD, UPR AIDA(法国农业国际合作研究发展中心AIDA研究单元) ; AIDA, CIRAD, Univ. Montpellier(法国农业国际合作研究发展中心AIDA研究单元,蒙彼利埃大学) ; INRAE - UMR TETIS - Territoires, Environnement(法国国家农业、食品与环境研究院TETIS联合研究单元)
AI总结 针对形式概念分析和关系概念分析中概念命名缺乏可解释性的问题,提出一种基于可变性的LLM辅助命名框架,通过控制信息源生成可读名称,并在披萨店数据集上验证其有效性。