SkillHone: A Harness for Continual Agent Skill Evolution Through Persistent Decision History
SkillHone:基于持久决策历史的持续智能体技能演化框架
发表机构 * WeChat, Tencent Inc., China(腾讯微信,中国)
AI总结 提出SkillHone框架,通过持久决策历史记录诊断、修订和证据,实现智能体技能的持续演化,在开放网络深度研究基准上超越现有方法。
SkillHone:基于持久决策历史的持续智能体技能演化框架
发表机构 * WeChat, Tencent Inc., China(腾讯微信,中国)
AI总结 提出SkillHone框架,通过持久决策历史记录诊断、修订和证据,实现智能体技能的持续演化,在开放网络深度研究基准上超越现有方法。
WaveDiT: 面向高效3D脑MRI合成的分布感知小波流匹配
发表机构 * Politecnico di Bari(巴里理工大学) ; Sapienza University of Rome(罗马大学)
AI总结 提出WaveDiT,一种在3D Haar离散小波变换系数空间中运行的条件流匹配框架,通过分解时空注意力与基于高阶小波统计的带状异方差不确定性建模,实现单GPU上全分辨率3D脑MRI高效合成,在分布对齐和下游任务中优于现有方法。
基于SSL的特征提取器与后端分类器在欺骗检测中的比较:多语料库训练与跨语言分析
发表机构 * Avignon Universite(阿维尼翁大学) ; EURECOM
AI总结 本研究通过多语料库训练和跨语言分析,比较了四种自监督学习特征提取器与四种后端分类器在欺骗检测中的性能,揭示了ASVspoof 5数据集中的领域偏差,并发现仅用8小时目标语言数据微调即可提升检测鲁棒性。
语言作为传感器:从自然语言在3D场景中进行校准的空间信念估计
发表机构 * MIT Laboratory for Information & Decision Systems(麻省理工学院信息与决策系统实验室) ; MIT Computer Science & Artificial Intelligence Laboratory(麻省理工学院计算机科学与人工智能实验室)
AI总结 提出语言传感器模型(LSM)将自然语言描述转化为校准的空间分布,并融合到VL-Map概率框架中,实现更准确的目标定位。
PhysGraph:用于感知与推理的物理感知3D场景图
发表机构 * Duke University(杜克大学)
AI总结 提出PhysGraph框架,结合符号推理与结构化3D几何,建模杂乱场景中的运动学和物理属性,在语义分割、多物体质量估计和关节预测上达到最优。
二维不可压缩Navier-Stokes方程的算子学习:数据稀缺情况下的共形预测方法
发表机构 * University of Oklahoma(俄克拉荷马大学) ; Fudan University(复旦大学)
AI总结 针对数据稀缺下算子学习的不确定性量化,提出基于扰动的共形预测框架,在二维Navier-Stokes基准上比现有方法生成更窄的共形带,同时保持目标覆盖。
FiberTune: 在视觉-语言-动作微调中保留动作纤维视觉残差
发表机构 * University of Chinese Academy of Sciences(中国科学院大学) ; Hebei Key Laboratory of Cognitive Intelligence, Xiong’an Institute of Innovation(河北省认知智能重点实验室,雄安创新研究院) ; Hebei University of Technology(河北工业大学) ; Beijing Information Science and Technology University(北京信息科技大学)
AI总结 提出FiberTune,通过在线动作探针过滤动作预测特征方向,对齐教师视觉残差并正则化有效秩,在六个仿真和实物任务中提升VLA策略性能。
一种用于大语言模型中动态实体追踪的检索条件重绑定电路
发表机构 * Saarland University(萨尔兰大学) ; Max Planck Institute for Informatics(马克斯·普朗克信息学研究所)
AI总结 通过因果干预识别出大语言模型中实现动态状态追踪的检索条件重绑定机制,该机制由紧凑的注意力头电路编码并恢复绑定信息,在不同模型家族中表现不同。
可学习的令牌稀疏化用于高效十亿像素全切片图像推理
发表机构 * Shenzhen University of Advanced Technology(深圳先进技术大学)
AI总结 针对视觉语言模型中全切片图像令牌过多的问题,提出可学习的稀疏化方法,通过SparseLearn组件和可微分的Soft Top-K算子实现训练,推理时仅保留32个令牌,在SlideBench上达到73.32%准确率。
SSAFE: 通过冻结视觉编码器实现简单而强大的AI生成图像检测
发表机构 * KAIST(韩国科学技术院) ; Google Cloud AI(谷歌云AI)
AI总结 本文发现冻结的多模态视觉编码器在嵌入空间中自然分离真实与合成图像,通过线性分类器即可实现强检测性能,并提出一种表示感知的数据策展策略,仅用10K图像训练,在多个基准上表现优异。
面向长时域船舶轨迹与目的地预测的推理型大语言模型
发表机构 * Institute of High Performance Computing (IHPC), A*STAR, Singapore(新加坡科技研究局高性能计算研究所) ; The Key Laboratory of Road and Traffic Engineering, Ministry of Education, Tongji University(同济大学道路与交通工程教育部重点实验室) ; Meituan Inc., Shenzhen, China(美团(深圳)) ; Centre for Frontier AI Research (CFAR), A*STAR, Singapore(新加坡科技研究局前沿人工智能研究中心) ; Nankai University(南开大学) ; School of Artificial Intelligence, Jilin University(吉林大学人工智能学院)
AI总结 提出基于可验证奖励强化学习(RLVR)的Maritime LLM后训练框架,将轨迹转化为语义文本,通过物理有效性约束和层次匹配提升长时域(30天)预测精度,4B模型表现最优。
Tyan-WP:用于超短期概率预测的风电基础模型
发表机构 * School of Information Science and Technology, University of Science and Technology of China(中国科学技术大学信息科学技术学院) ; China Electric Power Research Institute(中国电力科学研究院)
AI总结 提出首个风电基础模型Tyan-WP,通过静态站点嵌入和功率感知气象融合模块,在零样本场景下实现超短期概率预测,显著优于传统模型。
从整体评估到结构化标准:大语言模型演变中的评分准则
发表机构 * Research Center for Social Computing and Interactive Robotics(社会计算与交互机器人研究中心) ; Department of Computer Science and Technology, Institute for AI(计算机科学与技术系,人工智能研究院)
AI总结 本文提出评分准则作为统一框架,通过分解整体判断为可验证维度、提供过程级反馈和动态涌现自模型行为三个层次,连接人类意图与机器行为。
基于跨源推理的作者姓名消歧校正
发表机构 * Renmin University of China(中国人民大学) ; Sun Yat-Sen University(中山大学) ; Tsinghua University(清华大学) ; Robert Bosch GmbH(罗伯特·博世有限公司) ; University of Oslo(奥斯陆大学)
AI总结 提出CrossND框架,通过跨源不一致分配推理,结合数据精炼、监督微调和测试时缩放,无需人工干预即可校正作者姓名消歧错误。
利用野外流式视频
发表机构 * Institute of Information Engineering, Chinese Academy of Sciences(中国科学院信息工程研究所) ; School of Cyber Security, University of Chinese Academy of Sciences(中国科学院大学网络空间安全学院) ; JD.COM(京东)
AI总结 提出Streaming Harness系统,通过Streaming-Train-248K数据集和训练目标,使视觉语言模型具备主动交互、长期记忆和实时处理能力,并构建Streaming-Eval基准评估流式视频理解。
深度学习时代的面部表情识别:方法、模型、数据集、性能、挑战与未来研究方向的多准则系统综述
发表机构 * International Hellenic University(国际希腊大学) ; University of Thessaly(色萨利大学) ; Democritus University of Thrace(德谟克利特大学) ; University of Peloponnese(伯罗奔尼撒大学) ; Harokopio University of Athens(哈罗科皮奥大学)
AI总结 本文系统综述了深度学习面部表情识别的最新进展,提出五阶段演化框架和多准则分类法,分析了七维度的优缺点,并总结了数据集、性能比较及未来挑战。
HARBOR:面向智能体机器人强化学习的框架
发表机构 * TU Darmstadt(达姆施塔特工业大学) ; Honda Research Institute Europe(本田欧洲研究所) ; Columbia University(哥伦比亚大学) ; Tongji University(同济大学) ; Shanghai Research Institute for Intelligent Autonomous Systems(上海智能自主系统研究院) ; University of Würzburg(维尔茨堡大学) ; Hessian.AI(黑森人工智能中心)
AI总结 提出HARBOR框架,通过将机器人强化学习自动化视为框架工程问题,利用专用智能体、标准化命令和可复用知识,在模拟中自动完成从环境搭建到策略训练的全流程,并在6个基准测试和16个任务中验证其有效性。
大规模多语言事实核查:微调紧凑模型 vs 大语言模型
发表机构 * Factiverse
AI总结 提出一个多语言事实核查系统,通过微调XLM-RoBERTa、mmBERT和SetFit模型,在114种语言的声明检测和28种语言的真实性预测中,与GPT-5.2等LLM相比,展示了紧凑模型的高效和稳定性能。
基于密度传输的流匹配策略强化学习
发表机构 * University of Pennsylvania(宾夕法尼亚大学)
AI总结 提出在线强化学习算法RLDT,利用Stein变分梯度下降构建传输场,微调预训练流匹配策略,通过期望目标估计稳定训练,在连续控制任务中优于基线方法。
InA-Probe:面向LLM时间序列预测的指令感知主动探测
发表机构 * Nanyang Technological University(南洋理工大学) ; Khalifa University(哈利法大学) ; Nanjing University of Aeronautics and Astronautics(南京航空航天大学) ; Singapore University of Technology and Design(新加坡科技设计大学)
AI总结 提出指令感知主动探测(InA-Probe),通过多级指令注入和自适应查询生成,结合双阶段注意力机制,在7个基准上超越现有方法,跨域误差降低37%。
脑电图去噪需要多少容量?超紧凑网络揭示基准饱和与度量-效用差距
发表机构 * Indian Knowledge Systems and Mental Health Applications (IKSMHA) Center, Indian Institute of Technology Mandi(印度理工学院曼迪分校印度知识体系与心理健康应用中心) ; School of Computing and Electrical Engineering, Indian Institute of Technology Mandi(印度理工学院曼迪分校计算与电气工程学院)
AI总结 通过固定架构仅改变通道宽度(1.05K-40.26K参数),发现EEG去噪重建性能在3-6.5K参数时饱和,且重建度量不预测下游BCI效用,超紧凑模型(33-46KB)适用于边缘部署。
量子全局变分学习用于量子纠错
发表机构 * Meiji University(明治大学)
AI总结 提出一种全局结构的量子神经网络,减少量子电路中酉矩阵数量,训练时间降低97%,训练完成率提升25%,实现100%训练成功率,纠错性能超越以往研究。
基于Loihi 2的局部竞争算法实现卷积稀疏编码
发表机构 * Mercedes-Benz AG(梅赛德斯-奔驰集团) ; Institut für Robotik und Kognitive Systeme, Universität zu Lübeck(吕贝克大学机器人与认知系统研究所)
AI总结 本文在Loihi 2神经形态芯片上实现了卷积稀疏编码的局部竞争算法,并与GPU基线对比,展示了其在结构化稀疏推理中的可行性和优势。
频谱审计框架揭示EEG和ECG深度学习中任务依赖的非周期性依赖
发表机构 * Indian Knowledge Systems and Mental Health Applications (IKSMHA) Center, Indian Institute of Technology Mandi(印度理工学院曼迪分校印度知识体系与心理健康应用中心) ; School of Computing and Electrical Engineering, Indian Institute of Technology Mandi(印度理工学院曼迪分校计算与电气工程学院)
AI总结 提出频谱审计框架,结合非周期/周期分解、相位保持傅里叶干预等,发现深度学习模型对非周期成分的依赖是任务依赖且架构通用的,在睡眠-觉醒分类中影响显著,临床异常检测中中等,运动想象中最小,并扩展到ECG。
迷失在非凸损失景观中:如何微调大型时间序列模型?
发表机构 * Shanghai Key Laboratory of Data Science(上海市数据科学重点实验室) ; College of Computer Science and Artificial Intelligence(计算机科学与人工智能学院) ; Fudan University(复旦大学)
AI总结 针对预训练大型时间序列模型微调时因非凸损失景观导致过拟合的问题,提出平滑全微调(SFF)方法,通过随机初始化辅助模型插值平滑损失景观,提升可训练性,在八个代表性模型上取得一致改进。
OmniCap-IF:全视频字幕遵循指令能力的基准测试与改进
发表机构 * NJU-LINK Team, Nanjing University(南京大学 NJU-LINK 团队) ; Kling Team, Kuaishou Technology(快手科技 Kling 团队)
AI总结 提出首个全模态字幕指令遵循基准OmniCap-IF,通过格式与内容正确性评估50种约束类型,揭示格式-内容权衡,并构建54K指令微调数据集OmniCap-IF-54K及模型OmniCaptioner-IF。
通过细粒度情感-原因对提取实现精确的情感归因视频字幕生成
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Institute of Artificial Intelligence, Hefei Comprehensive National Science Center(合肥综合性国家科学中心人工智能研究院) ; Harbin Institute of Technology (Weihai)(哈尔滨工业大学(威海))
AI总结 提出细粒度情感-原因对提取框架,通过概念感知视觉语义分解和视觉引导情感可解释学习,提升情感视频字幕的准确性和丰富性。
Real-IKEA:物理保真度是鲁棒操作的前提
发表机构 * National University of Singapore(新加坡国立大学) ; Peking University(北京大学)
AI总结 针对仿真与现实物理差异导致操作鲁棒性不足的问题,提出Real-IKEA数据集与仿真框架,通过高保真资产和阻力校准配置,使强化学习策略发现优先利用机械优势的鲁棒策略。
物理引导的双解码与光谱监督用于全球三维水凝物预测
发表机构 * Chinese Academy of Meteorological Sciences(中国气象科学研究院) ; Xiong’an Institute of Meteorological Artificial Intelligence(雄安气象人工智能研究院)
AI总结 针对三维水凝物预测中零膨胀长尾分布导致的过度平滑问题,提出物理引导的双解码框架PredHydro-Net,通过解耦架构、小波频率解耦和对抗训练,在极端事件检测和光谱表示上优于现有模型。
FAWAM: 面向闭环密集接触操作的力感知世界动作模型
发表机构 * School of Mathematical Sciences, Peking University(北京大学数学科学学院) ; School of Artificial Intelligence, Shanghai Jiao Tong University(上海交通大学人工智能学院)
AI总结 提出FAWAM,在感知、预测和闭环执行三个层次融入力信息,通过联合预测动作与末端扳手及残差校正模块,提升密集接触操作的成功率。