Causal Label Recovery in Payment Networks
支付网络中的因果标签恢复
发表机构 * Mastercard(麦star卡)
AI总结 针对支付网络中标签存在的四种系统偏差,提出序列三重稳健(STR)估计器,同时纠正所有偏差并达到半参数效率界,实现基于数天而非数月数据的训练。
Comments 49 pages
支付网络中的因果标签恢复
发表机构 * Mastercard(麦star卡)
AI总结 针对支付网络中标签存在的四种系统偏差,提出序列三重稳健(STR)估计器,同时纠正所有偏差并达到半参数效率界,实现基于数天而非数月数据的训练。
Comments 49 pages
CoHyDE: 用于工具检索的LLM改写器与稠密编码器的迭代协同训练
发表机构 * SAP Labs(SAP实验室)
AI总结 提出CoHyDE方法,通过迭代协同训练稠密编码器和LLM改写器,结合对比学习和偏好对齐,在工具检索任务中同时提升标准查询和模糊查询的性能。
人类策展何时以及如何适得其反:多模型自消费循环下的偏好对齐
发表机构 * Department of Computer Science and Engineering, The Ohio State University, Columbus, Ohio(计算机科学与工程系,俄亥俄州立大学,哥伦布,俄亥俄)
AI总结 研究多模型自消费训练中人类策展对模型对齐的影响,发现跨模型交互可能削弱甚至逆转策展效果,导致长期对齐退化。
协调实时约束与长视距推理:一种用于动态调度的异步智能体框架
发表机构 * School of Computer Science and Engineering, Beihang University, Beijing 100191, China(北京航空航天大学计算机科学与工程学院) ; Shenzhen Loop Area Institute, Shenzhen, China(深圳环形区研究所) ; Qingdao Research Institute, Beihang University(青岛研究院) ; Hangzhou Innovation Institute, Beihang University(杭州创新研究院) ; School of Artificial Intelligence, Xidian University, Xi’an 710071, Shaanxi, China(西安电子科技大学人工智能学院) ; Guangzhou Institute of Technology, Xidian University, Guangzhou 510555, Guangdong, China(广州技术研究所)
AI总结 提出RACE-Sched异步智能体框架,通过双流架构解耦策略执行与逻辑推理,利用LLM合成和验证符号启发式规则,在保证实时性的同时提升动态调度质量。
KLAS:利用相似性拼接神经网络以改进精度-效率权衡
发表机构 * Georgia Institute of Technology(佐治亚理工学院) ; Microsoft M365 Research(微软M365研究) ; Cisco Research(思科研究) ; Georgia Tech Research Institute(佐治亚理工研究机构)
AI总结 提出KLAS框架,通过KL散度度量中间表示相似性自动选择最佳拼接配置,在相同微调成本下提升拼接模型的精度-效率曲线。
ChildVox:理解与表征儿童期声音的语音、音频及大型音频语言模型基准
发表机构 * University of Southern California(南加州大学) ; The Ohio State University(俄亥俄州立大学) ; University of California, Los Angeles(加州大学洛杉矶分校) ; Harvard University(哈佛大学) ; Boston University(波士顿大学) ; University of Miami(迈阿密大学)
AI总结 提出ChildVox基准,整合17个儿童音频数据集和20多个子任务,评估多种基础模型在儿童生理声、非语言发声、规范音节和口语识别上的性能。
Comments preprint under review
DynSess:面向角色扮演智能体的动态会话级评估与优化框架
发表机构 * Zhejiang University(浙江大学) ; Fuxi AI Lab, NetEase Inc.(福克斯人工智能实验室,网易公司) ; Xiamen University(厦门大学)
AI总结 提出DynSess统一会话级框架,通过会话级评估(DynSess-Eval)和基于多步前瞻搜索的训练轨迹优化(DSPO/GSRPO),提升角色扮演智能体的长程一致性和交互质量。
极端动态对称性实现全向多功能机器人
发表机构 * Department of Mechanical Engineering and Materials Science, Duke University(杜克大学机械工程与材料科学系) ; Department of Electrical and Computer Engineering, Duke University(杜克大学电气与计算机工程系) ; Department of Computer Science, Duke University(杜克大学计算机科学系)
AI总结 本文提出动态对称性概念,通过动态各向同性度量,在超过1000种模拟形态中发现高动态对称性可提升轨迹跟踪、任务成功率、鲁棒性等性能,并开发了Argus球形机器人系列验证近极端动态各向同性带来的全向运动、自适应地形、快速自稳定和抗故障能力。
Comments Published in Science Robotics (2026). Our project website is at:https://generalroboticslab.com/Argus
Journal ref Science Robotics 11, eaec1725 (2026)
OpenClawBench: 真实智能体执行轨迹中过程侧异常的基准测试
发表机构 * School of Software, Shandong University(山东大学软件学院) ; School of Artificial Intelligence, Nanjing University(南京大学人工智能学院;南京大学新型软件技术国家重点实验室) ; State Key Laboratory of Novel Software Technology, Nanjing University(医学人工智能中心;青岛中医药科学院;海洋传统中医研究所,山东中医药大学) ; Center for Medical Artificial Intelligence(四川大学软件工程学院) ; Qingdao Academy of Chinese Medical Sciences ; Institute of Marine Traditional Chinese Medicine, Shandong University of Traditional Chinese Medicine ; School of Software Engineering, Sichuan University
AI总结 提出OpenClawBench数据集,通过FullTax标注框架量化智能体执行中的过程侧异常,揭示仅基于结果评估的不足。
Comments 37 pages, 1 figure, 43 tables
可证明安全的智能体护栏
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 针对现有语义护栏无法提供确定性安全下界的问题,提出基于逻辑推理基本限制的新安全范式,并引入可执行证明约束动作框架,通过神经符号隔离架构实现零攻击成功率和零误报率。
OmniRetrieval:跨异构知识源的统一检索
发表机构 * KAIST(韩国科学技术院)
AI总结 提出OmniRetrieval框架,通过自然语言查询识别并调度到不同知识源的本地执行引擎,在13个数据集和309个知识库上超越单源基线,实现异构知识源统一检索。
DenseSteer: 引导小型语言模型进行密集数学推理
发表机构 * North Carolina State University(北卡罗来纳州立大学) ; Rutgers University(罗格斯大学)
AI总结 提出DenseSteer,一种无需训练的推理时引导框架,通过调节内部表征向密集推理模式靠拢,提升小型模型在多步数学推理中的准确性。
Comments ICML 2026
等等!有出路:一种预测对话偏离的决策机制
发表机构 * Cornell University(康奈尔大学)
AI总结 提出一种基于前瞻性模拟的延迟决策机制,在预测对话偏离时通过评估紧张时刻的恢复可能性来降低误报率,同时保持预测准确性。
Comments To appear in the Proceedings of ACL 2026
使用AI在教师与学生之间进行结果无关的反馈中介来发现孤立学习者
发表机构 * Georgia Institute Of Technology(佐治亚理工学院)
AI总结 提出一种无需成绩的可解释决策层,通过整合学生困难普遍性、自我报告与观察困难的不一致以及教师未解决关注点三个信号,对课程主题进行优先级排序,以帮助教师及时做出教学决策。
Comments Accepted to HAI-Agency Workshop on Orchestrating Human and AI Agency for Proactive and Reflective Learning
重新思考文献检索评估:深度研究有帮助,且人类引用列表并非金标准
发表机构 * Mila – Quebec AI Institute(魁北克AI研究所) ; HEC Montréal(蒙特利尔HEC商学院) ; ServiceNow Research(ServiceNow研究) ; Canada CIFAR AI Chair(加拿大CIFAR人工智能主席) ; Université de Montréal(蒙特利尔大学) ; Polytechnique Montréal(蒙特利尔理工学院)
AI总结 本文通过改进检索流程和检验人类引用列表作为评估目标的可靠性,发现深度研究管道显著提升召回率,而人类引用中仅51%被判定为中等相关以上,建议采用多维度评估。
面向道德的面部年龄估计:无需儿童数据训练的广义零样本基准
发表机构 * New York University(纽约大学)
AI总结 提出一个广义零样本基准,训练时排除儿童数据,评估模型对未见年龄组的泛化能力,发现所有方法均存在严重性能下降和可见类偏见。
Comments 12 pages; 3 figures; 5 tables
定制课程:通过动态数据-模型兼容性进行以学生为中心的推理蒸馏
发表机构 * University of Tokyo(东京大学) ; Kyoto University(京都大学) ; National Institute of Informatics(日本信息处理研究所)
AI总结 提出数据-模型兼容性(DMC)指标,通过联合考虑数据质量、相对难度和学生能力来评估数据集对推理蒸馏的适用性,并基于DMC动态选择数据以提升蒸馏性能。
BenchTrace: 用于测试LLM智能体反思能力和受控进化的基准
发表机构 * University of Tokyo(东京大学) ; Kyoto University(京都大学) ; National Institute of Informatics(日本信息处理学会)
AI总结 提出BenchTrace基准,通过反思评估和进化评估两个任务,结合失败避免率(FAR)指标,系统评估LLM智能体的自我进化能力,实验发现当前模型在反思诊断和泛化上存在显著瓶颈。
相关性即漏洞:网络检索如何削弱LLM智能体的安全对齐
发表机构 * Department of Electrical and Computer Engineering(电子与计算机工程系) ; National University of Singapore(新加坡国立大学)
AI总结 本文提出AgentREVEAL框架,分析检索集成方式和内容属性如何导致LLM智能体安全退化,发现相关性是共同激活条件,并引入HarmURLBench基准。
使用热成像图像进行甲状腺结节分析的方法
发表机构 * Computer Science Department, Universidade Federal Fluminense(联邦弗里蒙特大学计算机科学系) ; Radiology Department, Hospital Universitário Antônio Pedro (HUAP)(安东尼奥佩德罗大学医院放射科) ; Applied Computation Group NCA-UFMA, Universidade Federal do Maranhão(马兰舍大学应用计算组NCA-UFMA)
AI总结 本文综述了热成像在甲状腺分析中的应用,提出图像采集协议和自主配准方法,并通过特征提取、图像处理和分类方法区分健康与患病患者。
Journal ref Application of Infrared to Biomedical Sciences 2017
运动引导的稀疏校正实现跨不同显微镜体制的专家级点跟踪
发表机构 * Department of Computer Science, Old Dominion University(奥德赛大学计算机科学系) ; Department of Biology, Massachusetts Institute of Technology(麻省理工学院生物学系) ; The Picower Institute for Learning and Memory, Massachusetts Institute of Technology(麻省理工学院学习与记忆研究所) ; Department of Physics and Technology, UiT--The Arctic University of Norway(挪威北极大学物理与技术系) ; Department of Physics, University of Oslo(奥斯陆大学物理系) ; School of Data Science, Old Dominion University(奥德赛大学数据科学学院) ; Department of Physics, Old Dominion University(奥德赛大学物理系)
AI总结 提出RIPPLE方法,通过运动引导的稀疏校正,在多种显微镜视频中实现专家级点跟踪,将手动标注工作量减少3至25倍。
GTA:大规模生成面向Web智能体的长程任务
发表机构 * University of Southern California(南加州大学) ; Salesforce AI Research(Salesforce人工智能研究) ; University of California, Davis(加州大学戴维斯分校)
AI总结 提出GTA框架,通过集成爬取、检索式种子生成、上下文内生成和自动质量控制,为Web智能体生成带可执行轨迹的真实长程任务,解决现有基准缺乏过程监督和可扩展性问题。
Comments Published at Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics
朝向心外膜和纵隔脂肪的自动分割:一种使用跨受试者配准和随机森林的多厂商方法
发表机构 * Institute of Computing(计算学院) ; Institute of Medicine(医学学院) ; Fac. de Ing. en Sist. Electr. e Ind.(电子与工业工程系) ; Universidade Federal Fluminense(里约热内卢联邦大学) ; Universidade Federal do Rio de Janeiro(里约热内卢联邦大学) ; Universidad Técnica de Ambato(阿姆巴托技术大学)
AI总结 提出一种基于跨受试者配准和随机森林的全自动方法,用于分割CT图像中的心外膜和纵隔脂肪,平均准确率达98.4%,Dice相似指数为96.8%。
Journal ref 2015 IEEE International Conference on Industrial Technology (ICIT)
MetaRanker:用于超透镜图像质量的人机协同主动排序
发表机构 * Hanyang University(翰阳大学) ; Hankuk University of Foreign Studies(韩国民法大学)
AI总结 提出MetaRanker框架,通过人机协同主动排序,以语义可解释性为指标评估超透镜图像质量,减少80%人工标注量,并实现与人类评估高度一致的排序。
Comments 12 pages, 6 figures
通过黑盒成员推断审计生成音乐模型中的训练数据
发表机构 * University of Georgia(佐治亚大学) ; Independent Researcher(独立研究者) ; University of Tennessee(田纳西大学)
AI总结 本文提出一种黑盒成员推断方法,通过比较候选音频与模型基于其描述生成输出的语义对齐程度,并训练音乐审计器分类成员身份,实现对生成音乐模型训练数据的高精度审计。
Comments The paper has been accepted for presentation at the workshop ArtSec 2026: Workshop on Artwork Security and Provenance in the Age of AI
随机提升:生成随机物理系统轨迹
发表机构 * Courant Institute of Mathematical Sciences, New York University, New York, NY 10012, USA(Courant数学科学研究所,纽约大学,纽约,NY 10012,USA)
AI总结 提出随机提升方法,通过为每个状态转换附加独立高维随机标签并学习从当前状态和标签到下一状态的映射,以生成多样化的随机物理系统轨迹。
ReasonOps: 大语言模型推理轨迹的算子分割
发表机构 * Stanford University(斯坦福大学)
AI总结 提出无监督方法ReasonOps,从思维链轨迹中提取7种通用推理算子,揭示模型推理结构并用于模型识别与正确性预测。
当RL抑制自身词汇:在谜题到数学迁移中恢复推理多样性
发表机构 * Fin AI Research(Fin AI研究院) ; Salk Institute for Biological Studies(萨尔克生物医学研究所)
AI总结 本文提出一种基于可验证奖励的强化学习框架,通过引入新颖性奖励机制恢复被抑制的探索性推理原语,实现从约束满足谜题到数学问题的跨领域迁移,在无需数学数据的情况下将OlymMATH-Hard的pass@32从16%提升至36%。
Comments Preprint
口号还是立场?一种用于中国国企演讲中创业话语测量的轻标签诊断方法
发表机构 * Tsinghua University(清华大学)
AI总结 本文提出一种轻标签诊断方法,利用同一企业不同演讲者的自然实验,评估词典方法、主题模型和嵌入相似度评分器在测量中国国企演讲中“创业精神”时的有效性,发现零样本大语言模型(Qwen3.5:9b)在区分演讲者身份方面表现最佳。
Comments 15 pages, 2 figures, 7 tables
影响引导的符号回归:基于大语言模型与细粒度反馈的方程搜索科学发现
发表机构 * University of Cambridge(剑桥大学) ; Thomson Reuters Foundational Research(汤姆森·路透基础研究) ; U. Colorado, Anschutz Medical Campus(科罗拉多大学安舒茨医疗校区)
AI总结 提出影响引导符号回归(IGSR)方法,利用大语言模型生成候选函数并通过细粒度影响分数进行剪枝,结合蒙特卡洛树搜索高效探索组合空间,在多个基准和真实生物数据中发现新关系。
Comments ICML 2026