Towards a Data Flywheel for Embodied Intelligence in Logistics
面向物流具身智能的数据飞轮
发表机构 * Peking University(北京大学) ; JD Logistics(京东物流) ; HKUST (Guangzhou)(香港科技大学(广州))
AI总结 提出一种数据驱动的物流具身智能框架,通过构建数据飞轮将日常操作转化为可复用数据资产,利用世界模型生成长尾包裹操作的可靠监督,并整合多模态数据实现策略持续改进。
面向物流具身智能的数据飞轮
发表机构 * Peking University(北京大学) ; JD Logistics(京东物流) ; HKUST (Guangzhou)(香港科技大学(广州))
AI总结 提出一种数据驱动的物流具身智能框架,通过构建数据飞轮将日常操作转化为可复用数据资产,利用世界模型生成长尾包裹操作的可靠监督,并整合多模态数据实现策略持续改进。
Steering Vectors 是对抗攻击面
发表机构 * Sapienza University of Rome(罗马萨皮恩扎大学) ; EPFL(苏黎世联邦理工学院)
AI总结 本文揭示了一种隐蔽的数据投毒攻击,通过替换转向数据集中的4-6%令牌,使转向向量与反拒绝方向对齐,从而劫持目标模型,同时保留对良性提示的预期转向效果。
死方向:几何奇异学习
发表机构 * IIIT, Hyderabad(Hyderabad 二十一世纪信息技术研究所)
AI总结 本文通过引入“死方向”概念,桥接奇异学习理论与信息几何,提出在原始参数坐标下从Fisher曲率衰减率恢复KL阶数的方法,并扩展到深度网络,实现无需后验采样的Watanabe三元组(λ, m, ν)轨迹率读出。
Comments 139 pages, 13 figures, 13 tables
最长路径的双向搜索:前向-前向启发式的情况
发表机构 * Technion - Israel Institute of Technology(技术学院 - 以色列理工学院)
AI总结 提出BiXDFBnB算法,将单前沿双向搜索框架适配到广义最长简单路径问题,利用前向-前向启发式减少节点扩展,并在某些情况下提升运行时间。
通过对抗性合成场景学习机器人安全策略
发表机构 * National Research Institute of Automation and Applied Mathematics(国家自动化与应用数学研究所)
AI总结 提出一个基于对抗性游戏的框架,通过红蓝两队对抗生成危险场景并迭代优化安全策略,以高效发现高风险边缘案例。
Edit-R2:面向多轮图像编辑的上下文感知强化学习
发表机构 * Hong Kong University of Science and Technology(香港理工大学) ; Kuaishou Technology(快手科技)
AI总结 提出Edit-R2框架,通过重构会话意图和联合优化推理与生成的强化学习,解决多轮图像编辑中的长上下文稀释和状态污染问题,并在MICE-Bench基准上取得领先性能。
短论文:黑暗中的模型——机器学习供应链中GDPR下的更正与删除
发表机构 * Karlstad University(卡尔斯塔德大学)
AI总结 本文从跨学科视角调查机器学习供应链中实现GDPR更正权和删除权的挑战,提出“黑暗中的模型”概念,并分析其带来的紧迫问题。
Comments accepted for presentation at Annual Privacy Forum 2026
大型语言模型对某些政党感到困惑
发表机构 * Sorbonne Université, CNRS, ISIR(索邦大学、国家科学研究中心、信息研究所)
AI总结 通过困惑度评估,发现大型语言模型对极右翼和民族主义政党文本的困惑度高于社会民主党,且该偏差源于预训练阶段,指令微调影响甚微。
语言模型中的认知不公正:预训练过滤器和护栏的审计
发表机构 * University of Turin(都灵大学) ; IT University of Copenhagen(哥本哈根技术大学) ; Trustworthy AI Lab(可信人工智能实验室)
AI总结 通过审计预训练过滤器和推理时护栏,发现它们对边缘群体(如跨性别者、女性和中美洲人)的提及存在过度标记,导致认知抹除,而人类标注者会保留大部分被标记内容。
多模态还是非多模态:通过主动模态检测的查询自适应音视频人物检索
发表机构 * University of Cambridge(剑桥大学) ; Queen's University Belfast(贝尔法斯特女王大学) ; University of Surrey(萨里大学) ; Cisco(思科) ; Southwest Jiaotong University(西南交通大学) ; Teesside University(泰赛德大学)
AI总结 提出一种查询自适应框架,通过跨模态分数一致性检测主动模态,在BBC Rewind语料库上达到94.2%的P@1,优于单模态和固定融合方法。
Comments INTERSPEECH 2026
通过标签特定距离的过采样解决多标签数据中的不平衡问题
发表机构 * Key Laboratory of Data Engineering and Visual Computing, Chongqing University of Posts and Telecommunications, China(数据工程与视觉计算重点实验室,重庆邮电大学,中国) ; School of Computer Science and Technology, Chongqing University of Posts and Telecommunications, China(计算机科学与技术学院,重庆邮电大学,中国) ; State Key Laboratory of Novel Software Technology, Nanjing University, China(新型软件技术国家重点实验室,南京大学,中国) ; School of Informatics, Aristotle University of Thessaloniki, Greece(信息学院,希腊阿尔蒂米斯大学)
AI总结 针对多标签分类中的标签不平衡问题,提出基于标签特定距离的过采样方法LSDMLO,通过加权相关特征空间识别标签一致邻居,生成更有效的合成实例,实验表明优于现有方法。
迈向生物医学研究的世界模型
发表机构 * State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing, China(网络与交换技术国家重点实验室,北京邮电大学,北京,中国) ; Department of Engineering Science, University of Oxford, Oxford, United Kingdom(英国牛津大学工程科学系,牛津,英国) ; Institute of Medical Artificial Intelligence, South China Hospital, Medical School, Shenzhen University, Shenzhen, Guangdong, China(医学人工智能研究所,南方医院,医学学院,深圳大学,深圳,广东,中国) ; Zhongguancun Academy & Zhongguancun Institute of Artificial Intelligence, Beijing, China(中关村学院及中关村人工智能研究院,北京,中国) ; Beijing National Research Center for Information Science and Technology (BNRist), Tsinghua University, 100084, Beijing, China(北京信息科学与技术国家研究中心(BNRist),清华大学,100084,北京,中国) ; Department of Chemical and Nano Engineering, University of California, San Diego, La Jolla, CA, USA(美国加州大学圣地亚哥分校化学与纳米工程系,La Jolla,CA,美国) ; Nanyang Technological University, Singapore(新加坡南洋理工大学) ; Monash Biomedicine Discovery Institute and Department of Biochemistry and Molecular Biology, Monash University, Melbourne, Victoria, Australia(莫纳什大学生物医学发现研究所和生物化学与分子生物学系,墨尔本,维多利亚,澳大利亚) ; David R. Cheriton School of Computer Science, University of Waterloo, Waterloo, Ontario, Canada(加拿大滑铁卢大学戴维·R·切里顿计算机科学学校,滑铁卢,安大略,加拿大) ; Department of ICT and Center for AI Research, University of Agder (UiA), Jon Lilletuns vei 9, Grimstad, Norway(挪威阿格德大学(UiA)信息与通信技术系及人工智能研究中心,Jon Lilletuns vei 9,Grimstad,挪威) ; Department of Electronic Engineering, Tsinghua University, Beijing, China(清华大学电子工程系,北京,中国)
AI总结 提出生物医学世界模型作为AI驱动发现的新范式,通过学习分子、细胞、组织和临床状态的潜在表征及干预条件动态,实现未来轨迹模拟,并探讨其在虚拟细胞、类器官、虚拟患者和手术模拟等应用中的潜力。
更好的文学翻译:多维度数据生成与大语言模型训练方法
发表机构 * Amazon Web Services (AWS)(亚马逊网络服务(AWS)) ; Peking University(北京大学)
AI总结 提出多维度迭代优化框架,通过专门的大语言模型生成高质量翻译参考和偏好数据,结合监督微调和强化学习(GRPO)提升文学翻译质量,在MetaphorTrans英中文学翻译基准上达到与Claude Sonnet 4.5竞争的性能。
Comments Accepted by ACL 2026 Industry
MemoryCard: 面向长视频问答的主题感知多模态线索压缩
发表机构 * School of Computer Science and Engineering, Northeastern University(东北大学计算机科学与工程学院) ; Department of Computer Science and Technology, Tsinghua University(清华大学计算机科学与技术系) ; Digital China Group(数字中国集团)
AI总结 提出MemoryCard框架,通过将长视频分割为主题事件单元并生成事件级摘要和代表性视觉时刻,以记忆卡形式增强VLMs的长视频问答能力,在相同视觉令牌预算下准确率提升高达21.8%。
Comments 21 pages, 8 figures
揭示未知:基于场景图的开放词汇目标检测
发表机构 * Faculty of Electrical Engineering and Computer Science, Ningbo University(宁波大学电气工程与计算机科学学院) ; Faculty of Computing, Georg-August-Universität Göttingen(哥廷根大学计算机学院) ; Merchants’ Guild Economics and Cultural Intelligent Computing Laboratory, Ningbo University(宁波大学商帮经济与文化智能计算实验室) ; School of Software Technology, Zhejiang University(浙江大学软件学院)
AI总结 提出场景引导的关系建模检测框架,利用场景图捕获候选区域与上下文对象之间的结构化语义和空间关系,并通过关系注意力模块和场景文本对齐分支增强开放词汇目标检测性能。
CamFlow+: 用于二维相机运动估计的混合运动基及其稳定应用
发表机构 * School of Information and Communication Engineering, University of Electronic Science and Technology of China(电子科技大学信息与通信工程学院) ; University of Electronic Science and Technology of China(电子科技大学) ; School of Aeronautics and Astronautics, Sichuan University(四川大学航空宇航学院) ; YingCai Honors College, University of Electronic Science and Technology of China(电子科技大学 YingCai 优秀生学院) ; Lingnan University(岭南大学) ; Hong Kong University of Science and Technology and Shenzhen Loop Area Institute(香港科学与技术大学及深圳环宇研究院)
AI总结 提出CamFlow+混合基框架,通过结合单应性物理基、随机基和深度平移基在稠密光流空间中直接估计二维相机运动,并引入深度感知平滑项,有效处理平移、深度变化和局部视差,在相机运动估计和视频稳定任务中取得最优效果。
自学习表情形变用于数据高效的高斯化身
发表机构 * Queen Mary University of London(伦敦大学玛丽女王学院)
AI总结 提出自适应高斯表情框架,通过自监督学习表情驱动的形变,结合2D高斯面元和符号距离场,实现从极少量输入数据(单帧、单目或单张图像)重建高保真可动画化身。
DBHN-Net: 低复杂度单声道语音增强的双分支混合神经网络
发表机构 * State Key Laboratory of Opto-Electronic Information Acquisition and Protection Technology, (School of Computer Science and Technology), Anhui University(光电信息获取与防护技术国家重点实验室(计算机科学与技术学院),安徽大学) ; China Telecom Artificial Intelligence Technology (Beijing) Co., Ltd(中国电信人工智能技术(北京)有限公司) ; Institute of Acoustics, University of Chinese Academy of Sciences(中国科学院声学研究所) ; Institute of Artificial Intelligence (TeleAI), China Telecom, China(人工智能研究所(TeleAI),中国电信,中国)
AI总结 提出一种结合ANN和SNN的双分支混合神经网络,通过BandSplit、TF-Mamba等模块降低计算复杂度,同时利用交互和融合模块保持性能,在三个公共数据集上实现平均7.5倍复杂度降低。
Comments This article has been accepted for publication in IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)
Journal ref IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI2026)
超越WER:面向环境临床记录员的配对声学压力测试
发表机构 * University of Science and Technology of China(中国科学技术大学) ; iFLYTEK Co., Ltd.(iFLYTEK公司)
AI总结 提出配对声学压力测试方法,通过注入噪声并冻结下游模型,揭示噪声对临床推理的安全影响,发现轻微声学扰动可逆转临床意义而不显著增加词错误率,并展示轻量级缓解策略。
Comments Accepted to INTERSPEECH 2026
ACE-SQL: 基于经验信用分配的自适应协同优化方法用于文本到SQL
发表机构 * Harbin Engineering University(哈尔滨工程大学) ; Harbin Institute of Technology(哈尔滨工业大学) ; Beijing University of Posts and Telecommunications(北京邮电大学)
AI总结 提出ACE-SQL强化学习框架,通过在线列集池和经验信用分配联合优化模式检索与SQL生成,在BIRD Dev上达到65.3%的贪心执行准确率。
一种基于编码器-解码器的跨传感器自适应方法,用于稀疏应变传感器的表面形状感知
发表机构 * IEEE
AI总结 提出一种结合元学习和少样本适应的编码器-解码器架构,实现不同传感器阵列间的跨传感器自适应,显著降低新传感器部署所需的标注数据量和适应时间,将感知误差从23.0 mm降至约4.0 mm。
减少复杂问答中的幻觉:使用基于简单图的检索增强生成(长版)
发表机构 * National Innovation Centre for Data(数据创新研究中心)
AI总结 本研究提出一种轻量级图结构支持的检索增强生成系统,通过结合向量搜索和图查询工具,在复杂问答任务中将幻觉答案数量减半,并显著提升事实正确性的精确率和召回率。
可解注意力模型中LoRA微调的高维理论
发表机构 * Statistical Physics of Computation Laboratory, École Polytechnique Fédérale de Lausanne (EPFL)(计算物理学实验室,瑞士联邦理工学院(EPFL))
AI总结 本文通过高维统计理论分析低秩适应(LoRA)在注意力模型中的微调过程,揭示了预训练与微调之间的相互作用,并给出了测试误差和表示对齐的精确渐近刻画。
共鸣心智:具备心智理论的闭环社交虚拟人
发表机构 * University of Washington(华盛顿大学) ; Peking University(北京大学) ; Carnegie Mellon University(卡内基梅隆大学) ; Eastern Institute of Technology, Ningbo(宁波工程技术学院)
AI总结 提出一个闭环双智能体框架,通过整合感知、社会推理(基于心智理论)和多模态生成,实现具备社交智能的虚拟人,并在信息不对称数据集上取得优于全信息脚本模式的对话质量。
将研究关注度表示为上下文结构化流
发表机构 * University of Oxford(牛津大学) ; The Open University(开放大学) ; Springer Nature
AI总结 提出注意力流(attention flows)作为上下文结构化表示,编码注意力的组织及其随时间演化,通过类比推理基准评估发现流表示更有效支持结构比较,并提升部分观测和结构扰动下的鲁棒性。
Comments Accepted at STi 2026 - International Conference on Science and Technology Indicators
EMBER: 通过预算化证据保留实现高效记忆的长时程智能体
发表机构 * University of Wisconsin–Madison(威斯康星大学麦迪逊分校) ; NVIDIA Research(NVIDIA研究)
AI总结 针对长时程智能体在固定预算下保留证据的问题,提出EMBER学习型保留策略,通过存储证据胶囊(含原文摘录、检索键和更新元数据)并利用查询后反馈训练,在LongMemEval-RR上显著提升F1、保留召回和读取召回。
与不确定性共处:LLM对LLM模拟对话中人工道德顾问的不确定性支撑策略
发表机构 * Centre for Data Futures, The Dickson Poon School of Law, King’s College London(数据未来中心、迪克森·普恩法学院、伦敦国王学院) ; Department of Informatics, King’s College London(信息学院、伦敦国王学院) ; LangAI, Center for Language AI Research, Tohoku University(LangAI、语言人工智能研究中心、东北大学) ; Neukom Institute for Computational Science, Dartmouth College(计算科学尼科姆研究所、达特茅斯学院)
AI总结 研究LLM作为人工道德顾问时,通过三种不确定性策略(视角倍增、张力保持、过程反思)与三种控制条件对比,在模拟对话中探讨如何帮助对话者“与不确定性共处”,发现不同策略在立场改变量上无差异但影响参与质量。
GLASS: 基于GRPO训练的LoRA用于零样本文本转语音中的声学风格引导
发表机构 * Department of Artificial Intelligence, Sungkyunkwan University(人工智能系,全州大学)
AI总结 提出GLASS框架,通过GRPO训练轻量LoRA适配器实现零样本自回归TTS中可组合的声学风格控制,无需风格标签即可从奖励中学习控制。
连续动作空间中的重试策略梯度
发表机构 * The University of Tokyo, Japan(东京大学)
AI总结 本文提出重试目标(如pass@K和max@K)的路径导数估计器,将ReMax扩展到连续动作空间,通过重塑策略梯度景观促进随机探索,并引入ReMAC算法实现与SAC相当的性能。
当更密集的信用不足时:面向长周期LLM智能体训练的基于证据校准的策略优化
发表机构 * X-LANCE Lab, School of Computer Science, Shanghai Jiao Tong University, Shanghai, China(X-LANCE实验室,计算机科学学院,上海交通大学,上海,中国) ; Faculty of Electronic and Information Engineering, Xi’an Jiaotong University(电子与信息工程学院,西安交通大学)
AI总结 针对长周期LLM智能体在稀疏延迟奖励下的信用分配问题,提出一种无评论家的策略优化算法ECPO,通过证据校准的动作优势和方差门控信用加权来修正密集信用的统计不可靠性,在ALFWorld和WebShop上显著提升性能。