Target-confidence Recourse Using tSeTlin machines: TRUST
使用Tsetlin机器的目标置信度追索:TRUST
发表机构 * Group Research and Development Det Norske Veritas (DNV)(挪威船级社(DNV)集团研发部)
AI总结 提出TRUST框架,通过概率Tsetlin机器和贝叶斯优化直接搜索满足用户指定置信度目标的最小输入变化,生成更稳健和可解释的反事实解释。
使用Tsetlin机器的目标置信度追索:TRUST
发表机构 * Group Research and Development Det Norske Veritas (DNV)(挪威船级社(DNV)集团研发部)
AI总结 提出TRUST框架,通过概率Tsetlin机器和贝叶斯优化直接搜索满足用户指定置信度目标的最小输入变化,生成更稳健和可解释的反事实解释。
超越奖励工程:长上下文强化学习的数据配方
发表机构 * OpenBMB ; Tsinghua University(清华大学)
AI总结 提出一种简单有效的数据配方,结合最小化基于结果的GRPO设置,显著提升大语言模型的长上下文推理能力,在多个基准和智能体任务上取得平均+3.2至+7.2点的提升。
Comments 15 pages, 6 figures, 12 tables
GateMem:多主体共享内存代理中的内存治理基准
发表机构 * School of Artificial Intelligence, Jilin University(吉林大学人工智能学院) ; Shanghai Jiao Tong University(上海交通大学) ; King Abdullah University of Science and Technology (KAUST)(卡尔斯鲁厄大学) ; Tsinghua University(清华大学) ; National University of Singapore(新加坡国立大学)
AI总结 提出GateMem基准,评估多主体共享内存代理在效用、访问控制和遗忘三方面的治理能力,发现现有方法无法同时满足三者。
Comments 24 pages, 8 figures. Code and dataset are available at https://github.com/rzhub/GateMem and https://huggingface.co/datasets/Ray368/GateMem
空间即智能:用于黎曼度量生成的神经半群叠加
发表机构 * National Engineering Research Center of Robot Visual Perception and Control Technology, Hunan University(湖南大学机器人视觉感知与控制技术国家工程研究中心)
AI总结 提出将智能置于空间本身,通过神经半群叠加机制生成黎曼度量,使动作简化为测地线跟随,在单障碍场景训练后零样本泛化到未见配置。
DreamReg:基于信念驱动的世界模型用于2D-3D超声配准
发表机构 * T Stone Robotics Institute, The Chinese University of Hong Kong(香港中文大学T Stone机器人研究所) ; Multi-scale Medical Robotics Center(多尺度医疗机器人中心) ; Perelman School of Medicine, University of Pennsylvania(宾夕法尼亚大学佩雷尔曼医学院)
AI总结 提出DreamReg框架,将2D-3D超声配准建模为信念更新,通过世界模型模拟探头运动并整合想象结果,在CAMUS和u-RegPro数据集上实现鲁棒且准确的实时配准。
他们将去哪里?从自我中心视频建模多模态行人机动
发表机构 * School of Computing Science, University of Glasgow(格拉斯哥大学计算机科学学院) ; James Watt School of Engineering, University of Glasgow(格拉斯哥大学詹姆斯·瓦特工程学院) ; Department of Computer Science, Durham University(杜伦大学计算机科学系)
AI总结 提出MMPM框架,通过行为感知交互模块和基于CVAE的模态感知轨迹预测器,分别建模行人过马路和不过马路两种模式,提升自我中心视角下多模态轨迹预测准确性。
Comments Accepted at The IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) 2026
成熟马尔可夫决策过程:信息增加与动作集缩小下的决策制定
发表机构 * Ant International(蚂蚁国际) ; School of Economics, Sichuan University(四川大学经济学院) ; School of Economics, Fudan University(复旦大学经济学院)
AI总结 针对决策过程中信息增加与动作集缩小的不对称性,提出成熟马尔可夫决策过程(MMDP)框架,并基于过期动作优先级原则开发结构感知强化学习方法,实验证明其能提升学习效率。
Comments 25 pages, 9 figures
强化学习基础模型本应已经存在
发表机构 * École normale supérieure de Paris, PSL University, Paris, France(巴黎高等师范学院,PSL大学,法国巴黎) ; Soda team, Inria Saclay, Palaiseau, France(Soda团队,法国国家信息与自动化研究所萨克雷中心,法国帕莱索)
AI总结 提出通过合成MDP构建强化学习基础模型,利用固定大小的充分统计量使注意力架构适用,在线和离线实验均优于传统算法。
从自身解中学习:面向可验证奖励强化学习的自条件化信用分配
发表机构 * Beijing Institute of Technology(北京理工大学) ; Beihang University(北京航空航天大学) ; Independent Researcher(独立研究者)
AI总结 提出SC-GRPO方法,利用自条件化分布间的KL散度作为GRPO梯度的乘性权重,实现细粒度信用分配,在数学、代码和智能体任务上平均提升8.1%。
ProfiLLM: 面向工业网约车调度的效用对齐智能用户画像
发表机构 * Didichuxing Co. Ltd(滴滴出行科技有限公司)
AI总结 提出ProfiLLM,一种通过工具增强全局知识挖掘和效用对齐画像探索的智能LLM数据管道,解决工业网约车调度中大规模行为日志的用户画像问题,在滴滴生产系统中实现AUC提升6.14%、GMV提升4.35%。
超越标量分数:探索基于LLM的放射学报告临床意义评估指标
发表机构 * Nanyang Technological University(南洋理工大学) ; Technical University of Munich(慕尼黑工业大学) ; Alibaba(阿里巴巴) ; University of Glasgow(格拉斯哥大学) ; University of Massachusetts Boston(马萨诸塞大学波士顿分校)
AI总结 针对放射学报告评估中临床准确性要求,研究基于LLM的指标区分临床错误与无害变体的能力,发现判别偏差,并通过合成数据训练轻量级指标,在成本敏感部署中优于大型模型。
Comments Under Review
模糊几何分支点建模用于结构感知的手写汉字增强
发表机构 * School of Information Science and Engineering, Lanzhou University(兰州大学信息科学与工程学院) ; Guangdong Provincial Key Laboratory of Brain-inspired Intelligent Computation, Department of Computer Science and Engineering, Southern University of Science and Technology(南方科技大学计算机科学与工程系广东省类脑智能计算重点实验室)
AI总结 针对手写汉字增强中数据稀缺和结构失真问题,提出基于模糊几何的结构感知增强框架,通过模糊集建模分支点并优化,结合贝塞尔重建与多策略扰动生成样本,显著降低字错误率。
闭环:用于符号音乐生成中可解释激活引导的PID反馈控制
发表机构 * Athens University of Economics and Business(雅典经济与商业大学) ; Orfium Research(Orfium 研究) ; Hellenic Mediterranean University(希腊地中海大学) ; Archimedes / Athena Research Center(阿基米德/雅典娜研究中心)
AI总结 提出基于PID反馈控制的推理时激活引导框架,通过差分均值法提取音高和时长潜在方向,并利用Gram-Schmidt正交化解耦多属性引导,实现符号音乐生成中细粒度、可解释的属性调制。
Comments Accepted at Learning to Listen: ICML 2026 Workshop on Machine Learning for Audio (43rd International Conference on Machine Learning - ICMLMLA26), 4 pages main (11 total), 2 figures
HandwritingAgent: 语言驱动的可缩放矢量空间手写合成
发表机构 * Beijing Institute of Technology(北京理工大学) ; Beijing Academy of Artificial Intelligence(北京人工智能研究院)
AI总结 提出HandwritingAgent,利用大推理模型在SVG格式中自动回归生成手写笔画序列,无需风格特定训练,通过自然语言和参考图像控制风格,在模仿、识别、多语言及复杂数学表达式合成等任务上达到或超越现有最优方法。
基于UDF的点云重建中的学习半径估计
发表机构 * Graduate School of FSE Waseda University Tokyo, Japan(Waseda大学研究生院FSE学院东京日本)
AI总结 提出一种学习型逐查询半径选择器,预测连续支撑半径并插入冻结的LoSF-UDF骨干网络,通过抛物线插值获取离网目标半径进行训练,提高点云表面重建的细粒度精度。
R2D-RL:用于多智能体强化学习的RoboCup 2D足球环境
发表机构 * Graduate School of Informatics, Nagoya University(名古屋大学信息学研究科) ; School of Information and Data Sciences, Nagasaki University(长崎大学信息与数据科学学院)
AI总结 提出R2D-RL环境,通过共享内存通信和周期级同步连接RCSS2D与Python MARL接口,支持全场和场景训练,提供可配置对手、离散/混合动作空间、EPV奖励塑造及并行执行。
Comments Code is available at: https://github.com/open-starlab/R2DRL
贝叶斯任意时间帕累托集识别用于多目标多臂老虎机
发表机构 * imec ; Data Science Institute, Interuniversity Institute of Biostatistics and Statistical Bioinformatics, UHasselt(哈瑟尔特大学生物统计学与统计生物信息学跨大学研究所数据科学研究所)
AI总结 提出首个任意时间多目标多臂老虎机算法Top-Two帕累托前沿汤普森采样(TTPFTS),用于帕累托集识别,在合成环境和超大型分子库中验证有效性,并引入不确定性量化指标。
Comments 26 pages, 13 figures
SCR引导的困难感知优化用于红外小目标检测
发表机构 * Aselsan(阿塞尔桑公司) ; Istanbul Technical University(伊斯坦布尔理工大学)
AI总结 提出REEM框架,利用信杂比作为可见性先验,通过可微调制软IoU损失,提升低可见性目标检测性能,无需额外参数或推理开销。
Comments Accepted at CVPR 2026 Workshops (PBVS). Published version: https://openaccess.thecvf.com/content/CVPR2026W/PBVS/html/Sevim_SCR-Guided_Difficulty-Aware_Optimization_for_Infrared_Small_Target_Detection_CVPRW_2026_paper.html
发表机构 * A10 Networks, Inc.(A10网络公司)
AI总结 针对大语言模型在敏感领域中的PII编辑需求,基于上下文完整性提出RedactionBench基准和R-Score指标,评估多种模型发现上下文编辑仍具挑战,人类评估显示隐私感知存在分歧。
迷失在单一向量中:通过分块证据聚合改进长文档检索
发表机构 * Chongqing University(重庆大学) ; State Key Laboratory of AI Safety(人工智能安全国家重点实验室) ; Institute of Computing Technology, Chinese Academy of Sciences(中国科学院计算技术研究所) ; University of California, Merced(加州大学默塞德分校) ; University of Queensland(昆士兰大学) ; University of Chinese Academy of Sciences(中国科学院大学)
AI总结 针对长文档检索中单向量编码削弱关键片段证据的问题,提出无训练的分块证据聚合策略DICE,通过独立编码分块并聚合为单一向量,在保持标准接口的同时显著提升检索性能。
Comments Code is available at https://github.com/PunchlineAAAA/DICE
SAMA:面向统一低资源多模态信息抽取的语义锚定对齐增强
发表机构 * School of Computer Science and Engineering, University of Electronic Science and Technology of China(电子科技大学计算机科学与工程学院)
AI总结 提出语义锚定对齐增强框架SAMA,通过构建结构化语义锚引导多专家多模态大模型生成高保真文本,并利用锚保留扩散机制合成图像,结合双约束过滤模块,在低资源多模态信息抽取任务中显著提升性能。
Comments Accepted by IEEE Transactions on Multimedia
漂移与腐败下基于潜在簇几何的在线分布预测
发表机构 * Indian Institute of Technology, Bombay(印度理工学院,孟买)
AI总结 针对非平稳流中的在线分布预测问题,提出一种基于潜在簇几何的吉布斯准后验方法,通过可逆跳跃MCMC采样变维后验,并引入重启变体应对漂移,在亚线性腐败预算和运输代价下实现亚线性Wasserstein遗憾。
RouteJudge: 一个可复现且偏好感知的LLM路由开放平台
发表机构 * School of Artificial Intelligence, Nanjing University(南京大学人工智能学院) ; National Key Laboratory for Novel Software Technology, Nanjing University(南京大学计算机软件新技术国家重点实验室) ; SinapisAI
AI总结 提出RouteJudge平台,通过匿名成对比较评估LLM路由策略的决策质量,并发布ORBIT工具箱标准化路由工作流,支持可复现和偏好感知的路由评估。
Comments Accepted by Pluralistic Alignment Workshop at ICML 2026
基于公共特征条件化的私有学习
发表机构 * Microsoft(微软) ; Google Research(谷歌研究院)
AI总结 针对标签差分隐私回归问题,提出Cond-DP方法,利用公共特征矩阵的结构信息构造条件化矩阵以加速优化,在凸、强凸和非凸设置下提供收敛保证,并在线性回归中实现比DPSGD更快的收敛速度。
Comments Proceedings of the 43rd International Conference on Machine Learning (ICML 2026). 26 pages, 9 figures
HALOMI: 从人类演示中学习具有主动感知的人形机器人全身操控
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; University of Sussex(萨塞克斯大学) ; East China University of Science and Technology(华东理工大学)
AI总结 提出HALOMI框架,通过扩展通用操控接口(UMI)实现主动感知,利用流形约束控制器和观察-动作对齐,使Unitree G1人形机器人在五项真实任务中平均成功率达85%。
输出向量编辑:缓解大型语言模型中的记忆化问题
发表机构 * Center for Information and Language Processing, LMU Munich(慕尼黑大学语言与信息处理中心) ; Department of Computer Science, University of Copenhagen(哥本哈根大学计算机科学系) ; Munich Center for Machine Learning(慕尼黑机器学习中心) ; Pioneer Centre for AI(人工智能先锋中心)
AI总结 提出输出向量编辑方法,通过约束优化修改MLP神经元输出向量引入干扰项,在不改变激活值的情况下抑制记忆化序列,在OLMo-7B上实现87.9%抑制率,并揭示MLP编辑的机制边界。
SpectralDiT:流匹配DiT的时间步条件谱残差校正
发表机构 * Peking University(北京大学)
AI总结 提出SpectralDiT,通过时间步条件谱残差校正模块,在CIFAR-10和ImageNet-100上以极少额外计算和参数提升流匹配DiT的生成质量,FID分别降低5.1%和8.7%。
SMART:一种灵活、可解释且可扩展的高分辨率成像数据时空脑图谱
发表机构 * Illinois Institute of Technology(伊利诺伊理工学院) ; Amsterdam University Medical Center(阿姆斯特丹大学医学中心) ; University College London(伦敦大学学院)
AI总结 提出SMART框架,通过解耦全局疾病动态与患者特定解剖表现,学习连续疾病时间图谱,实现高分辨率3D医学图像中时空变化的灵活、可解释和可扩展建模。
迈向3D医学图像的无训练零样本异常检测:基于批次的方法使用2D基础模型
发表机构 * Chungnam National University(忠南大学)
AI总结 提出CS3F框架,利用2D基础模型对3D医学图像进行零样本异常检测,通过沿多轴分解、切片编码和跨主体相似性计算异常分数,并引入粗到细的分词策略减少信号衰减。
通过基于人类反馈的迭代强化学习利用大语言模型生成自然且富有表现力的机器人手势
发表机构 * University of New South Wales(新南威尔士大学) ; Universidad Central de Chile(智利中央大学)
AI总结 针对社交机器人手势生成僵硬问题,提出将ChatGPT集成到Pepper机器人中生成共语手势,并引入基于人类反馈的迭代强化学习(RLHF)优化手势,实验表明RLHF提升了手势的表现力、相关性和流畅性。
Comments 8 Pages, 6 Figures