PolyAlign: Conditional Human-Distribution Alignment
PolyAlign: 条件性人类分布对齐
发表机构 * NIT Silchar(印度国立理工学院锡尔恰尔分校) ; MBZUAI(穆罕默德·本·扎耶德人工智能大学)
AI总结 提出PolyAlign框架,通过桶感知SFT和人类分布偏好优化,实现语言模型在不同交互上下文中的条件性人类分布对齐,提升自然性和分布忠实度。
Comments 20 pages, 4 Figures, 8 Tables
PolyAlign: 条件性人类分布对齐
发表机构 * NIT Silchar(印度国立理工学院锡尔恰尔分校) ; MBZUAI(穆罕默德·本·扎耶德人工智能大学)
AI总结 提出PolyAlign框架,通过桶感知SFT和人类分布偏好优化,实现语言模型在不同交互上下文中的条件性人类分布对齐,提升自然性和分布忠实度。
Comments 20 pages, 4 Figures, 8 Tables
超越统一令牌:时间序列语言模型的自适应压缩
发表机构 * Zhejiang University(浙江大学) ; Harbin Institute of Technology(哈尔滨工业大学) ; Shandong University(山东大学)
AI总结 针对时间序列语言模型中令牌效率低的问题,提出自适应令牌预算框架,通过频域结构压缩时间序列令牌并逐层减少提示令牌,实现高达7.68倍推理加速并在78%设置中提升性能。
用于LLM组合推理的Operad框架
AI总结 提出operad作为问题分解的数学框架,定义问题operad Q,将QA模型解释为Q上的代数,并引入operadic一致性度量,实验表明该度量与准确性强相关。
Operadic一致性:LLM中组合推理失败的无标签信号
发表机构 * Incubilate ; University of Cambridge(剑桥大学) ; Allen Institute for Artificial Intelligence(艾伦人工智能研究所)
AI总结 提出Operadic一致性(OC)作为检测大语言模型组合推理失败的无标签信号,在四个多跳QA数据集上与准确率强相关(Pearson r≥0.86),优于自一致性等方法。
通过检索增强强化微调进行类比推理学习
发表机构 * Meta Superintelligence Labs(Meta超级智能实验室) ; Rice University(莱斯大学)
AI总结 提出RA-RFT框架,通过黄金相关性蒸馏训练检索器,并结合强化微调利用类比推理轨迹,提升数学推理性能。
保持策略梯度主导:面向长程工具使用智能体的兄弟引导信用蒸馏
发表机构 * Amazon Web Services(亚马逊云服务)
AI总结 针对长程工具使用强化学习中轨迹级优势信号稀疏的问题,提出兄弟引导信用蒸馏(SGCD),通过动态采样成功与失败轨迹、外部LLM对比生成逐步信用参考,实现密集信用分配,在AppWorld和τ³-airline任务上显著提升性能。
Comments 13 pages, 4 figures, 7 tables. Submitted to EMNLP 2026 Industry Track
揭秘隐状态循环:基于在线强化学习的可切换潜在推理
发表机构 * HKUST(GZ)(香港科技大学(广州)) ; University of Cambridge(剑桥大学) ; NTU(南洋理工大学) ; JoinQuant(聚宽) ; HKUST(香港科技大学)
AI总结 提出SWITCH框架,通过离散边界令牌使隐状态循环推理兼容在线强化学习,并支持因果机制分析,实验表明其优于现有方法。
MiniPIC: 少于100行代码的灵活位置无关缓存
发表机构 * IBM Research(IBM研究院)
AI总结 提出MiniPIC,通过无位置编码KV缓存和用户控制缓存重用原语,在vLLM中实现多种位置无关缓存方法,显著提升预填充吞吐量并降低首个令牌延迟。
Comments 13 pages, 5 figures
MaxProof: 通过生成-验证器强化学习与群体级测试时扩展实现数学证明规模化
发表机构 * MiniMax ; The Chinese University of Hong Kong(香港中文大学) ; Fudan University(复旦大学) ; Peking University(北京大学) ; Tsinghua University(清华大学)
AI总结 提出MaxProof框架,结合生成-验证器强化学习与群体级测试时扩展,在MiniMax-M3系列上实现竞赛级数学证明,在IMO 2025和USAMO 2026上超越人类金牌阈值。
超越承诺边界:探究大型推理模型中的附带思维链
发表机构 * CLCG, University of Groningen(格罗宁根大学CLCG) ; University of Milano-Bicocca(米兰-布雷拉大学) ; University of Trieste(特里耶大学) ; Khoury College of Computer Sciences, Northeastern University(东北大学Khoury计算机科学学院)
AI总结 通过早期退出估计思维链步骤的因果重要性,发现推理中存在从瞬态猜测到稳定答案的“承诺边界”,后续步骤为附带现象,可提前退出以缩短推理长度达55%而不影响性能。
大型语言模型中层级情感组织的涌现
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Stanford University(斯坦福大学) ; University of Washington(华盛顿大学) ; University of Tokyo(东京大学)
AI总结 受情感轮理论启发,分析大型语言模型输出中情感状态间的概率依赖关系,发现模型自然形成与人类心理模型一致的层级情感树,且更大模型发展出更复杂的层级结构,同时揭示社会经济角色在情感识别中的系统性偏差。
Comments ICML 2026
语言模型电路在神经元基上是稀疏的
发表机构 * Stanford University(斯坦福大学)
AI总结 本文实证发现MLP神经元与稀疏自编码器一样是稀疏特征基,并基于此开发了端到端梯度归因流水线,在多项任务中揭示了因果有效的神经元电路。
Comments ICML Spotlight, camera-ready
基于LLM的嵌入:注意力值比隐藏状态更好地编码句子语义
发表机构 * State Key Laboratory for Novel Software Technology, Nanjing University, China(新型软件技术国家重点实验室,南京大学,中国) ; School of Artificial Intelligence, Nanjing University, China(人工智能学院,南京大学,中国)
AI总结 本文提出Value Aggregation方法,利用LLM的注意力值向量而非隐藏状态来生成句子嵌入,在无训练设置下超越现有方法,甚至匹配或超越集成方法MetaEOL。
自蒸馏零:自我修订将二元奖励转化为密集监督
发表机构 * Princeton University(普林斯顿大学) ; University of Toronto(多伦多大学) ; Carnegie Mellon University(卡内基梅隆大学)
AI总结 提出SD-Zero方法,通过让模型同时扮演生成器和修订者,利用二元奖励生成密集的token级自监督信号,显著提升训练样本效率,在数学和代码推理任务上超越RFT、GRPO等基线。
推理模型知道什么重要,并在其激活中编码
发表机构 * Technion(技术离子大学) ; University of Zagreb, FER(扎格雷布大学,FER) ; MIT(麻省理工学院) ; Kempner Institute, Harvard(哈佛大学凯普纳研究所)
AI总结 通过分析模型激活而非仅依赖推理链文本,发现激活能更有效识别关键推理步骤,且模型在生成后续步骤前已内部编码步骤重要性。
构建未来:通过校准草稿图实现扩散LLM推测解码
发表机构 * University of Waterloo(多伦多大学)
AI总结 提出Spiffy算法,利用校准的草稿图结构实现扩散LLM的推测解码,在保持输出分布的同时加速推理,最高减少8.6倍模型推理次数并加速6.3倍令牌生成速率。
Comments Original version uploaded on Sep 22, 2025. (v2): Extended Table 2 with additional analysis and referenced it in Sec 5.2. (v3): Added note to Sec 4.2 and Appendix A.2 specifying conditions for losslessness. (v4): Updated with the version accepted to ICML 2026 workshops
熵梯度反转:迈向大型推理模型的内部机制
发表机构 * National University of Singapore(新加坡国立大学) ; Renmin University of China(中国人民大学) ; Shanghai Jiao Tong University(上海交通大学) ; Nanyang Technological University(南洋理工大学)
AI总结 本文发现大型推理模型中令牌熵与logit梯度之间的稳健负相关(熵梯度反转),并提出相关性正则化组策略优化(CorR-PO)将其嵌入强化学习奖励正则化,从而提升推理性能。
Comments The authors are withdrawing this manuscript due to fundamental inaccuracies in the institutional affiliations and administrative attributions provided at the time of submission. As this version cannot be validated under the correct institutional framework, the authors request its formal withdrawal from the repository. No immediate replacement is intended
RLHF中奖励不确定性的统一视角
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; DeepMind(深度Mind)
AI总结 本文提出使用分布奖励模型统一RLHF中的悲观主义方法,通过闭式有效奖励公式连接现有启发式方法,并揭示其隐含假设。
多语言机器生成文本的作者归属
发表机构 * DIMES Department, University of Calabria(卡利博大学DIMES系) ; Kempelen Institute of Intelligent Technologies(智能技术研究所)
AI总结 提出多语言作者归属问题,研究单语言方法在18种语言和8个生成器上的跨语言迁移能力,发现显著局限。
Comments Accepted at ACL 2026 - Main
MARD: 镜像增强推理蒸馏用于机制级药物-药物相互作用预测
发表机构 * University of Guelph(圭尔夫大学) ; York University(约克大学) ; Vector Institute(向量研究所)
AI总结 提出MARD-7B模型,通过镜像增强推理蒸馏、单token KL散度、PRM加权DPO和机制感知检索通道,在机制级DDI预测中准确率超越GPT-4o 6.7个百分点,且成本仅为1%。
Comments 29 pages, 9 figures. Preprint
X-MADAM-RAG:诊断和处理检索增强生成中的中英文证据冲突
发表机构 * Sichuan University(四川大学)
AI总结 提出X-MADAM-RAG管道,通过分解证据处理步骤(候选提取、可见证据修复、确定性分组和冲突感知聚合)解决RAG中中英文证据冲突问题,在受控基准上取得高准确率,但发现文档级提取是主要瓶颈。
sebis at CRF Filling 2026: 用于医疗CRF填写的两阶段本地LLM流水线
发表机构 * Technical University of Munich(慕尼黑工业大学)
AI总结 提出基于MedGemma-27B的两阶段本地流水线,分离二值存在分类与值提取,通过少样本上下文学习实现隐私保护,在CRF填写任务上取得0.55 macro-F1,排名第二。
Comments Published in Proceedings of the Third Workshop on Patient-Oriented Language Processing (CL4Health), LREC 2026
何时混合有帮助?分析多语言稠密检索中的查询嵌入插值
发表机构 * National University of Singapore(新加坡国立大学)
AI总结 通过嵌入级插值构造混合查询,系统研究多语言稠密检索对混合语言查询的敏感性,发现最优混合比在多数情况下优于单语言查询,且英语主导性导致不对称性。
Comments ACL 2026 Main (Oral)
不确定性感知的混合检索用于长文档RAG
发表机构 * Elmore Family School of Electrical and Computer Engineering, Purdue University(普渡大学埃尔莫尔家族电气与计算机工程学院)
AI总结 提出UMG-RAG,一种无需训练的混合检索框架,通过多粒度分块和不确定性估计融合密集与稀疏检索结果,提升长文档问答质量。
NOVA: 面向RAG系统中鲁棒大语言模型的噪声感知言语置信度校准
AI总结 提出NOVA框架,通过规则引导的监督微调,解决检索增强生成中噪声上下文导致的过度自信问题,在域内和域外分别提升ECE 10.9%和8.0%。
当迭代RAG优于理想证据:科学多跳问答中的诊断研究
发表机构 * Faculty of Engineering, McMaster University, Canada(麦斯特大学工程学院,加拿大) ; BASF Canada Inc., Canada(巴斯夫加拿大公司,加拿大)
AI总结 通过化学多跳问答数据集,诊断发现迭代检索-推理循环在科学领域显著优于静态RAG上限,揭示了阶段式检索的优势与失败模式。
Comments 51 pages, 29 figures
注意力扩展:利用注意力增强的上下文嵌入提升长文档关键短语提取
发表机构 * Institute for Research in Technology, ICAI School of Engineering, Comillas Pontifical University(技术研究所,ICAI工程学院,科米利亚斯宗座大学) ; DD-AIM, Senior Machine Learning Researcher(DD-AIM,高级机器学习研究员)
AI总结 提出注意力扩展机制,通过预训练词嵌入增强PLM的上下文表示,在不增加计算成本的情况下扩展有效上下文范围,显著提升长文档关键短语提取性能。
HKVM-RAG:用于多跳RAG的键值分离超图证据组织
发表机构 * Faculty of Computing, Harbin Institute of Technology(哈尔滨工业大学计算机学院) ; School of Computer and Information Engineering, Henan University(河南大学计算机与信息工程学院)
AI总结 提出HKVM-RAG,一种键值分离的证据组织层,通过超图键值检索改进多跳RAG的证据链暴露,在三个基准上提升F1分数。
Comments Submitted to ICDE 2027. 13 pages, 3 figures
SENTINEL: 用于训练工具使用语言模型智能体的失败驱动强化学习
发表机构 * Northeastern University(东北大学) ; Independent Researcher(独立研究员) ; Northwestern University(西北大学)
AI总结 提出SENTINEL框架,通过将智能体失败转化为针对性训练任务,在Tau2-Bench Retail上提升Qwen3-4B模型Pass@1从66.4到74.9,优于通用合成任务上的强化学习。
SkillChain: 为基于图像的电商AI助手闭环技能演化
发表机构 * Alibaba Group(阿里巴巴集团)
AI总结 提出SkillChain框架,通过技能创建、路由优化和主体精炼三阶段自动化技能生命周期,解决电商图像助手多意图混淆问题,显著提升响应质量和用户参与度。
G-Long:面向高效长期对话代理的图增强记忆管理
发表机构 * Sungkyunkwan University(成均馆大学)
AI总结 提出G-Long框架,利用微调小语言模型进行结构化三元组提取和关联检索,并引入注意力感知重要性评分机制,在降低计算开销的同时,在响应生成和记忆检索上达到最优性能。
Comments 22 pages, 8 figures, 14 tables
HyPE:基于类别感知的超图编码与持久边嵌入用于人物角色对话
发表机构 * Sungkyunkwan University(成均馆大学)
AI总结 提出HyPE框架,通过将人物角色文本解析为四元组并构建超图,利用HyperGCN和持久边嵌入(PEE)编码高阶关系,在PersonaChat上优于句子级池化基线。
Comments 11 pages, 2 figures, 4 tables
MemRefine: 基于LLM引导的压缩用于长期智能体记忆
发表机构 * Korea University(韩国大学) ; KAIST(韩国科学技术院)
AI总结 提出MemRefine框架,利用LLM判断事实内容,通过删除、合并和保留操作将记忆库压缩到固定预算内,在多个基准上保持下游性能并优于基于规则的基线。
SkillCAT: 面向LLM智能体的对比评估与拓扑感知技能自进化
发表机构 * School of Computer Science, Wuhan University(武汉大学计算机学院) ; School of Computer Science, Fudan University(复旦大学计算机学院)
AI总结 提出SkillCAT框架,通过对比因果提取、评估增强进化和拓扑感知任务执行三阶段,实现无需训练的LLM智能体技能自进化,在多个基准上平均提升高达40.40%。
Comments 9 pages, 6 figures
递归智能体框架
发表机构 * PricewaterhouseCoopers, U.S.(普华永道(美国))
AI总结 提出递归智能体框架(RAH),通过代码优先的框架递归扩展模型递归,在长上下文推理中显著提升编码智能体性能。
HyperTool:超越逐步工具调用的工具增强型智能体
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; IQuest Research ; Beijing University of Aeronautics and Astronautics(北京航空航天大学)
AI总结 针对工具增强型LLM中逐步调用导致执行粒度不匹配的问题,提出HyperTool统一可执行接口,将确定性工具子流程折叠为单次调用,在多步工具任务上显著提升准确率。
ProPlay: 用于自我进化LLM智能体的程序化世界模型
发表机构 * University of Notre Dame(圣母大学) ; University of Connecticut(康涅狄格大学)
AI总结 提出ProPlay程序化世界模型,通过程序级预演和因果过程图,使LLM智能体在部分可观测环境中自我进化,无需外部监督。
与你合作得更好:将用户修正编译为编码代理的运行时强制
发表机构 * University of Notre Dame(圣母大学) ; IBM Research(IBM研究院) ; Tencent AI Lab(腾讯AI实验室)
AI总结 提出TRACE方法,通过将用户修正编译为原子规则并在运行时强制执行,显著减少编码代理在后续任务中的偏好违反,优于纯记忆方法。
多智能体编排的奖励建模
发表机构 * Rutgers University(罗杰斯大学) ; Salesforce AI Research(Salesforce人工智能研究)
AI总结 提出OrchRM框架,通过自监督学习从多智能体执行中间产物构建奖励模型,无需人工标注,实现高效编排器训练和测试时扩展,在多个领域提升性能并降低计算成本。
Comments Preprint; work in progress
BLUEmed: 基于检索增强的多智能体辩论用于临床错误检测
发表机构 * University of California, San Diego(加州大学圣地亚哥分校)
AI总结 提出BLUEmed框架,结合混合检索增强生成与多智能体辩论,通过分解临床笔记、检索证据、专家辩论及安全层过滤,在术语替换错误检测中达到最优性能。
Comments Accepted to the IEEE International Conference on Healthcare Informatics (ICHI) 2026
通过波斯谚语条件故事生成实现LLM中的约束语义解压缩
AI总结 提出约束语义解压缩任务,通过波斯谚语条件故事生成测试大语言模型的抽象到实现能力,构建PAND数据集,发现解压缩差距,并表明显式推理和迭代细化可部分缓解。
检测、重掩、修复:面向动态上下文忠实摘要的扩散编辑
发表机构 * Columbia University(哥伦比亚大学)
AI总结 提出DETECT-REMASK-REPAIR框架,利用掩码扩散语言模型识别并修复摘要中过时内容,在保持支持内容的同时实现局部忠实性修复,并引入StreamSum基准评估。
NTS-CoT: 基于思维链推理减轻大模型新闻时间线摘要中的幻觉
发表机构 * Central South University(中南大学) ; Tsinghua University(清华大学) ; Nanjing University(南京大学) ; Suzhou Aerospace Information Research Institute(苏州空天信息研究院) ; McGill University(麦吉尔大学)
AI总结 针对大模型在新闻时间线摘要中产生内容不忠实和信息遗漏两类幻觉,提出NTS-CoT框架,通过元素思维链、日期选择和因果思维链三个模块有效缓解幻觉,在三个基准上超越现有方法。
IVIE:一种用于增量且经过验证的交互式小说世界生成的神经符号方法
发表机构 * Instituto de Computación, Facultad de Ingeniería, Universidad de la República(乌拉圭共和国大学工程学院计算机研究所)
AI总结 提出IVIE神经符号方法,结合LLM的创造力与符号验证的连贯性,通过四阶段增量生成管道构建可玩的交互式小说世界,人类评估显示其生成沉浸式、主题连贯的世界,平衡了灵活性与叙事一致性。
Comments 10 pages, 3 figures. To appear in the Proceedings of the 16th International Conference on Computational Creativity (ICCC'26), June 2026
TAB-PO:面向Token关键结构化生成的具有Token级自适应障碍的偏好优化
发表机构 * Yale University(耶鲁大学) ; Texas State University(德克萨斯州立大学)
AI总结 针对结构化预测中偏好与拒绝对象仅少数token不同导致的梯度稀释和token侵蚀问题,提出基于混淆感知偏好构建和Token级自适应障碍的TAB-PO方法,在SciERC任务上显著提升关键指标。
基于智能体的形态交替模式演化模型
AI总结 通过多智能体模拟,研究形态交替(如go/went)的涌现机制,发现无标度社交网络和随机采纳策略能产生更真实的形态模式。
Comments 51 + 37 pages. 31 Figures
SICI:一种揭示LLM立场检测中相变的语义-语用复杂度指数
发表机构 * School of Cyber Science and Technology, University of Science and Technology of China(中国科学技术大学网络空间安全学院) ; School of Artificial Intelligence, Shenzhen Technology University(深圳技术大学人工智能学院)
AI总结 提出SICI指数,从七维语义-语用复杂度诊断立场检测难度,揭示LLM错误随复杂度增加从过度归因到集中弃权的相变规律,且干预方法仅沿归因-弃权轴移动而非消除瓶颈。
解析句法:语言建模与语法的子结构
发表机构 * Massachusetts Institute of Technology(麻省理工学院)
AI总结 本文研究语言模型在上下文无关语法子结构上的学习行为,证明损失函数在顶层子语法上线性递归,并发现参数化模型并行学习子语法,子语法预训练能提升小模型性能并改善内部表征。
Comments Equal contribution by LYS and DM. Accepted to the 43rd International Conference on Machine Learning (ICML 2026)
实用人格:通过桥接推理发现LLM人格
发表机构 * Department of Artificial Intelligence, Chung-Ang University, Seoul, 06974, Republic of Korea(Chung-Ang大学人工智能系) ; Department of Computer Science, University of British Columbia, Vancouver, BC V6T 1Z4, Canada(不列颠哥伦比亚大学计算机科学系) ; Van Lang University, Ho Chi Minh City, Vietnam(文-lang大学)
AI总结 提出基于桥接推理的框架,通过构建话语级知识图谱捕捉LLM对话中的隐含语义关联,实现从话语连贯性层面发现稳定人格特征,优于基于频率或风格的基线方法。
Comments 15 pages, 4 figures, accepted to ICPR 2026
更多上下文、更大模型还是道德知识?政治文本中施瓦茨价值观检测的系统研究
发表机构 * PRHLT Research Center, Universitat Politècnica de València, Spain(巴塞罗那理工大学研究中心,西班牙 Valencia理工大学) ; School of Science, Engineering and Design, Universidad Europea de Valencia, Spain(Valencia欧洲大学科学、工程与设计学院,西班牙) ; Valencian Graduate School and Research Network of Artificial Intelligence (ValgrAI)(瓦伦西亚人工智能研究生学院与研究网络(ValgrAI))
AI总结 本研究系统比较了上下文范围、检索增强道德知识和模型规模对政治文本中施瓦茨价值观检测的影响,发现全文档上下文和检索知识对监督编码器有效,但对零样本大语言模型帮助有限,且模型扩展不保证性能提升。
Comments Code: https://github.com/VictorMYeste/human-value-detection-context-rag, best model: https://huggingface.co/VictorYeste/value-context-rag-deberta-v3-base-doc-rag, 18 pages, 3 figures
帮助图表讲述它们的故事!基于论文的视频生成解释复杂科学图表
AI总结 提出MINARD流水线,从图表及其论文生成基于区域分解的叙述性视频,并发布FigTalk基准,在自动和人工评估中优于现有方法。
Comments Webpage: https://minard.vercel.app/
ArogyaSutra:面向印度语言的多模态医学推理的多智能体框架
发表机构 * Indian Institute of Technology Patna(印度理工学院巴特那分校) ; Indian Institute of Technology Kanpur(印度理工学院坎普尔分校) ; Prasannadeb Women’s College(普拉萨纳德布女子学院)
AI总结 针对印度语言医疗场景中多模态大语言模型性能不足的问题,提出多模态医学问答数据集ArogyaBodha和基于演员-评论家的多智能体框架ArogyaSutra,通过工具接地与双记忆机制提升多语言医学推理准确性。
从词元到面部:探究用于3D面部动画的离散语音表示
发表机构 * Univ. Estadual de Campinas (UNICAMP), Brazil(巴西坎皮纳斯州立大学(UNICAMP)) ; Univ. Grenoble Alpes, CNRS, Grenoble INP, GIPSA-lab, France(法国格勒诺布尔阿尔卑斯大学,CNRS,格勒诺布尔国立理工学院,GIPSA实验室) ; Inria at Univ. Grenoble Alpes, CNRS, LJK, France(法国格勒诺布尔阿尔卑斯大学Inria,CNRS,LJK)
AI总结 研究评估四种语音表示在3D面部合成中的效果,发现编码音素类别有利于准确预测面部动画,并基于此提出音频视觉文本到语音管线。
Comments This work has been accepted in Interspeech 2026
PersonaDrive: 面向闭环驾驶模拟的人类风格检索增强VLA智能体
发表机构 * University of California, Irvine(加利福尼亚大学尔湾分校)
AI总结 提出PersonaDrive流水线,通过检索风格指令下的人类驾驶演示来调节视觉-语言-动作(VLA)驾驶智能体,实现闭环模拟中多样化的非自车智能体行为,无需针对每种风格重新训练。
放大关键信息:面向视觉文本理解的注意力引导自适应渲染
发表机构 * Michigan State University(密歇根州立大学) ; Xi’an Jiaotong University(西安交通大学)
AI总结 针对视觉语言模型在视觉文本理解任务中存在的定位与利用脱节问题,提出无需训练、模型无关的注意力引导自适应渲染方法AGAR,通过放大关键文本跨度提升模型性能。
TimeLens: 面向大埃及博物馆的基于检索增强问答的设备端文物识别
发表机构 * Grand Egyptian Museum(大埃及博物馆)
AI总结 针对博物馆场景中的细粒度视觉相似性、训练数据与手持相机差距以及AI幻觉问题,提出设备端文物检测器与双语检索增强生成(RAG)问答系统,实现实时识别与可靠问答。
Comments 6 pages, 4 figures, 5 tables. Submitted to AIVRCH 2026
跨模态掩码组合概念建模以增强视觉-语言组合性
发表机构 * MoE Key Laboratory of Brain-inspired Intelligent Perception and Cognition, University of Science and Technology of China(中国科学技术大学,教育部脑启发智能感知与认知重点实验室) ; Independent Researcher(独立研究员)
AI总结 提出MACCO框架,通过掩码一个模态的组合概念并从另一模态完整上下文重建,增强视觉-语言模型的组合理解能力,在五个基准上显著提升。
Comments Accepted to ACL 2026 Main Conference, 25 pages
编辑比特,差异编码:面向视觉自回归模型的逐比特残差编辑
发表机构 * LMU Munich & Munich Center for Machine Learning (MCML)(慕尼黑大学 & 慕尼黑机器学习中心 (MCML))
AI总结 提出BitResEdit,一种无需训练的视觉自回归图像编辑方法,通过比特级源负引导和残差编码注入,在保持背景的同时实现强文本对齐。
Ex-Omni:为全模态大语言模型赋能3D面部动画生成
发表机构 * The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳)) ; LIGHTSPEED ; Independent Researcher(独立研究员)
AI总结 提出Ex-Omni模型,通过混合形状感知语音单元生成器和解码器解耦语义推理与时间生成,并引入统一令牌查询门控融合机制,实现全模态大语言模型同步生成语音和3D面部动画。
MultiToP:学习修补视觉令牌以减轻视频大型多模态模型中的幻觉
发表机构 * Zhejiang University(浙江大学) ; Sun Yat-sen University(中山大学) ; East China Normal University(华东师范大学)
AI总结 提出MultiToP框架,通过轻量级视觉令牌修补器动态替换不可靠视觉令牌,结合信息引导排名校准和稀疏正则化,在不修改原模型情况下减少视频多模态模型幻觉,显著提升F1分数和问答准确率。
Comments Preprint
PRISM:用于共情口语对话的韵律集成多智能体推理框架
发表机构 * School of Computer Science and Engineering, Northeastern University(东北大学计算机科学与工程学院)
AI总结 提出PRISM多智能体框架,通过解耦语音感知、响应生成和语音合成,并引入韵律到语言翻译机制,实现共情口语对话中的韵律适当性和知识集成。
Comments Accepted to Interspeech 2026
PiDA: 基于语音信息的数据增强用于鲁棒的越南语语音翻译
发表机构 * VinUniversity(Vin大学) ; University of Technology Sydney(悉尼技术大学) ; Monash University(莫纳什大学)
AI总结 针对级联语音翻译中ASR错误传播问题,提出基于语音信息的数据增强方法PiDA,通过语音词嵌入生成相似音替换,在FLEURS越南语-英语上提升错误ASR输出翻译质量(BLEU+2.04)。
Comments Accepted to INTERSPEECH 2026
NaturalFlow: 减少同步语音到语音翻译中破坏自然语音流的停顿
发表机构 * IPAI and ECE, Seoul National University(首尔大学IPAI与ECE) ; Department of AI, University of Seoul(首尔市立大学人工智能系)
AI总结 提出一个流畅性感知优化框架,通过利用模型内部信号(如语言多样性和语音时长的时间变异性)最小化块间静音,在同步翻译的低延迟和连续翻译的自然流畅之间找到平衡点。
Comments Proceedings of the 26th Interspeech Conference, Long Paper
利用音频大语言模型过滤语音到语音训练数据
发表机构 * School of Data Science, The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳)数据科学学院) ; School of Artificial Intelligence, The Chinese University of Hong Kong, Shenzhen(香港中文大学(深圳)人工智能学院)
AI总结 提出Rank-to-Distill策略,训练音频大语言模型直接从语音对判断保留/丢弃,过滤噪声数据,提升端到端语音翻译性能。
Comments Accepted to INTERSPEECH 2026
自适应轮流发言:面向实时多方语音代理
AI总结 提出ModeratorLM,一种基于角色条件的语音大模型,通过分块流式处理和链式推理,在多方对话中实现自适应轮流发言,显著提升轮流精度和召回率。
Comments Accepted for publication at Interspeech 2026
语音大模型推理中的实体绑定失败:诊断与思维链干预
发表机构 * School of Data Science, The Chinese University of Hong Kong, Shenzhen, China(1 数据科学学院,香港中文大学(深圳)) ; ByteDance, China(2 字节跳动,中国)
AI总结 本文通过诊断语音大模型在逻辑推理中的实体绑定失败问题,提出实体感知思维链方法,显著提升推理准确率。
Comments INTERSPEECH 2026
UR-BERT:通过通用罗马化和语音标记预测扩展大规模多语言TTS的文本编码器
发表机构 * Dept. of Electronics and Electrical Engineering, Yonsei University(延世大学电子与电气工程系)
AI总结 提出UR-BERT,一种基于罗马化转录的TTS编码器,通过统一书写系统为罗马化表示,结合语音标记预测目标,在495种语言上实现高效多语言TTS,优于现有基线并泛化到未见语言。
Comments Accepted to Interspeech 2026, Github: https://github.com/sanghyang00/ur-bert
EDEN:意大利语临床笔记的大规模语料库
发表机构 * Fondazione Bruno Kessler(布鲁诺·凯斯勒基金会) ; Istituto di Ricerche Farmacologiche Mario Negri IRCCS(马里奥·内格里药理研究所IRCCS) ; University of Padua(帕多瓦大学)
AI总结 本文介绍EDEN,一个大规模意大利语急诊临床笔记语料库,包含约400万份匿名笔记及6000份专家标注数据,用于支持大语言模型在医疗中的应用,并提出了CRF填充作为新的结构化信息提取基准。
购物推理基准:面向多轮对话购物助手的专家编写基准
发表机构 * Amazon(亚马逊)
AI总结 提出一个由零售专家编写的525个任务的多轮对话购物推理基准,包含10863个加权评分标准,评估9个模型显示通过率仅57-77%,多轮任务性能下降4-18分。
AfriSUD:用于评估非洲语言模型的依存树库集合
发表机构 * Princeton University(普林斯顿大学) ; Laboratory for Artificial Intelligence, Princeton University(普林斯顿大学人工智能实验室) ; Gaston Berger University(加斯顿·伯杰大学) ; Mila, McGill University(麦吉尔大学米拉研究所) ; Canada CIFAR AI Chair(加拿大CIFAR人工智能教席) ; Paris Nanterre University(巴黎南泰尔大学) ; Paris-Saclay University(巴黎-萨克雷大学) ; CNRS(法国国家科学研究中心) ; Inria(法国国家信息与自动化研究所) ; LORIA(洛林计算机科学实验室) ; Université de Lorraine(洛林大学) ; University of Trento(特伦托大学) ; University of Minnesota–Twin Cities(明尼苏达大学双城分校) ; Imperial College London(伦敦帝国学院) ; Binghamton University(宾汉姆顿大学) ; Makerere University(马凯雷雷大学) ; Penn State University(宾夕法尼亚州立大学) ; Mbarara University of Science and Technology(姆巴拉拉科技大学) ; Chalmers University of Technology(查尔姆斯理工大学) ; University of Ibadan(伊巴丹大学) ; Nnamdi Azikiwe University(纳姆迪·阿齐基韦大学) ; South African Centre for Digital Language Resources(南非数字语言资源中心)
AI总结 为弥补非洲语言在NLP资源上的不足,构建了首个大规模九种非洲语言句法标注树库AfriSUD,评估多种模型发现显著句法差距。
LLMs 能更好地捕捉人类判断——使用合适的提示
AI总结 通过简单提示策略,LLMs 能恢复人类反应的完整分布,并减少对措辞变化的敏感性,提升 AI-人类对齐。
RAG基准测试应该有多细粒度?一个用于合成问题生成的层次化框架
发表机构 * Department of Computer Science, Emory University(埃默里大学计算机科学系)
AI总结 提出HieraRAG层次化框架,通过合成问题生成研究RAG基准测试的细粒度,发现最优粒度因维度而异,并引入一致性比率度量。
GENIE:一种细粒度新颖性度量方法
发表机构 * The University of Texas at Austin(德克萨斯大学奥斯汀分校) ; New York University(纽约大学)
AI总结 提出GENIE指标,通过任务特定特征细粒度衡量模型生成内容的新颖性,克服整体指标无法捕捉高维新颖性的局限。
Polar: 评估大语言模型中政治偏见的基准
发表机构 * Graduate School of Data Science, Seoul National University(首尔大学数据科学研究生院) ; Dept. of Computer Science and Engineering, Seoul National University(首尔大学计算机科学与工程系)
AI总结 提出Polar基准,通过选项级似然度测量大语言模型的政治偏见,覆盖美国和韩国政治语境,发现偏见随语境、议题、模型组和语言变化。
Comments Submitted to ARR 2026 May cycle
LEDGER:基于公司年报的长上下文基准,用于基于事实的金融检索与提取
发表机构 * Artefact Research Center(Artefact 研究中心) ; MICS, CentraleSupélec, Université Paris-Saclay(巴黎萨克雷大学中央理工高等电力学院 MICS 实验室) ; Ardian
AI总结 提出LEDGER基准,包含4,999份数字化公司年报,用于评估大语言模型在长上下文金融任务中的表现,涵盖KPI检索、单值查找和全量提取任务。
Comments 5 pages, 1 figure
MÖVE:德国公共部门的大语言模型整体基准
发表机构 * Innovations Department, Bundesdruckerei GmbH(德国联邦印钞公司创新部)
AI总结 提出MÖVE基准,从性能和治理两个维度评估39个LLM在德国公共部门的应用,发现无单一模型全面领先,模型大小非质量可靠指标。
EvoBrowseComp: 基于演化知识的搜索智能体基准测试
发表机构 * Northeastern University, China(东北大学(中国)) ; Weixin AI, Tencent Inc, China(腾讯微信AI(中国))
AI总结 提出EvoBrowseComp,一个通过实时网络遍历自动生成400道英文和400道中文无污染复杂问题的演化基准,用于评估搜索智能体在动态知识环境中的真实浏览能力。
Comments 14 pages, under review
LAUKIN:一个多司法管辖区的普通法合同数据集
发表机构 * Computer Science and Engineering, UNSW, Sydney Australia(新南威尔士大学计算机科学与工程学院) ; Law and Justice, UNSW, Sydney Australia(新南威尔士大学法律与司法学院)
AI总结 针对跨国合同审查需求,构建了包含澳大利亚、英国和印度三地法律条款对的数据集LAUKIN,通过多阶段检索与人工标注实现法律等价性分类,基准测试显示跨司法管辖区分类具有挑战性。
Comments 5 pages, 2 figures, 4 tables
Reddit生物伦理争议中立场检测的上下文感知数据集
发表机构 * School of Cyber Science and Technology, University of Science and Technology of China(中国科学技术大学网络空间安全学院) ; School of Artificial Intelligence, Shenzhen Technology University(深圳技术大学人工智能学院) ; School of Urban Planning and Design, Peking University(北京大学城市规划与设计学院)
AI总结 提出BioStance数据集,包含39,600个Reddit生物伦理讨论中的评论-回复对,覆盖六类争议话题,通过三层立场标注实现高可靠性,支持上下文感知的立场检测研究。
分层最优传输用于神经机器翻译和抽象摘要中的幻觉检测
发表机构 * Fairseq ; AggreFact
AI总结 通过最优传输分析跨注意力分布,发现幻觉检测集中于解码器前四层,且该方法在源脱离时有效,但无法检测注意力下游的不忠实摘要。
Comments Accepted to ICML Mechanistic Interpretability Workshop 2026
当相似意味着不同:评估大语言模型在阿拉伯语-希伯来语同源词上的表现
发表机构 * Mohamed bin Zayed University of Artificial Intelligence(莫扎德·穆扎伊德人工智能大学)
AI总结 针对阿拉伯语和希伯来语同源词、假朋友和借词,构建SemCog Bench基准(1858对词对),评估LLM跨语言语义理解,发现模型依赖表面形式相似性,在假朋友和借词上表现差,上下文帮助有限。
通过潜在视角评估LLM中的多元主义
发表机构 * University of Helsinki(赫尔辛基大学) ; ETH Zurich(苏黎世联邦理工学院)
AI总结 提出一种领域无关的多层无监督框架,从LLM生成文本中提取潜在视角,评估多元主义差距,发现稀有视角仍被不成比例地低估。
Comments Pluralistic Alignment Workshop @ ICML 2026
SkMTEB:斯洛伐克大规模文本嵌入基准与模型适配
发表机构 * Comenius University in Bratislava(布拉迪斯拉发夸美纽斯大学) ; Cisco Systems(思科系统) ; Technical University of Košice(科希策技术大学) ; Kempelen Institute of Intelligent Technologies(肯佩伦智能技术研究所)
AI总结 针对低资源西斯拉夫语斯洛伐克语,构建首个MTEB风格文本嵌入基准SkMTEB(含31个数据集、7类任务),并开发高效本地部署模型e5-sk-small/large,通过词汇裁剪与微调在参数减少62%下达到与商业API相当的竞争力。
Comments ACL 2026
边缘对齐不能保证联合分布保真度:基于官方参考的Nemotron-Personas-Korea审计与跨区域复制
发表机构 * Korea Advanced Institute of Science and Technology (KAIST)(韩国科学技术院)
AI总结 提出独立性假设足迹(IAF)审计方法,用于检查合成人物数据集中的联合分布保真度;应用于NVIDIA Nemotron-Personas-Korea,发现其边缘分布对齐但三个联合分布失败。
SupraBench: 超分子化学基准
发表机构 * University of Notre Dame(圣母大学) ; University of Connecticut(康涅狄格大学)
AI总结 为评估大语言模型在超分子化学推理中的能力,与领域专家合作发布了首个超分子基准SupraBench,包含四个基本任务和一个辅助视觉任务,并提供了16M令牌的语料库SupraPMC。
意识基调:TikTok 心理健康月期间的主题、情感和毒性地图
发表机构 * Institute for Biocomputation and Physics of Complex Systems (BIFI)(生物计算与复杂系统物理研究所) ; University of Zaragoza(萨拉戈塔大学) ; ARAID Foundation(ARAID基金会) ; Network Science Institute(网络科学研究所) ; Northeastern University London(伦敦东北大学) ; Kent Medway Medical School(肯特梅德斯医疗学院) ; LASIGE(拉西格研究所) ; Faculdade de Ciências da Universidade de Lisboa(里斯本大学科学学院) ; Department of Psychology, University of Limerick(利默里克大学心理学系) ; Observatory on Social Media, Indiana University(社交媒体观察所,印第安纳大学) ; CSSI - Kellogg School of Management, Northwestern University(CSSI - 北western大学凯洛格管理学院)
AI总结 通过分析 TikTok 2023-2024 年心理健康月期间的视频和评论,使用 BERTopic 提取主题、XLM-T 和 Detoxify 量化情感与毒性,发现视频情感偏负面而评论更混合,毒性在评论中呈长尾分布且集中于特定主题。
Comments 12 pages, 6 figures
WildIFEval: 野外指令遵循
发表机构 * The Hebrew University of Jerusalem(希伯来大学杰里科分校) ; IBM Research(IBM研究院)
AI总结 提出WildIFEval数据集,包含7K条真实用户的多约束指令,用于评估LLM的指令遵循能力,发现所有模型仍有较大改进空间。
Comments Accepted to the 5th Workshop on Generation, Evaluation and Metrics (GEM) at ACL 2026
RAGPPI:药物发现中蛋白质-蛋白质相互作用的RAG基准
发表机构 * University of California Los Angeles(加州大学洛杉矶分校) ; Palo Alto High School(帕洛阿尔托高中) ; Amazon AGI(亚马逊人工智能研究院)
AI总结 提出RAGPPI基准,包含4420个问答对,用于评估检索增强生成在药物发现中识别蛋白质-蛋白质相互作用生物学影响的能力。
Comments 17 pages, 4 figures, 8 tables
从基准到技能:LLM评估的低秩因子
发表机构 * Bar-Ilan University(巴伊兰大学) ; OriginAI ; Data Science Institute Columbia University(哥伦比亚大学数据科学学院) ; Center for Data Science New York University(纽约大学数据科学中心)
AI总结 通过因子分析发现LLM基准性能矩阵本质低秩,揭示任务冗余,提出基于潜在技能空间的评估框架,用于识别冗余任务、用小任务子集建模新模型和按技能轮廓选模型。
MoReBench:评估语言模型中的程序性和多元道德推理,超越结果
发表机构 * University of Washington(华盛顿大学) ; New York University(纽约大学) ; Scale AI ; Harvard University(哈佛大学) ; University of Michigan(密歇根大学) ; UNC Chapel Hill(北卡罗来纳大学教堂山分校) ; Center for AI Safety(人工智能安全中心) ; Stanford University(斯坦福大学) ; MIT(麻省理工学院) ; University of Oxford(牛津大学)
AI总结 提出MoReBench基准,包含1000个道德场景和超过2.3万条标准,用于评估语言模型在道德推理中的程序性推理能力,发现现有基准无法预测模型表现,且模型对特定道德框架存在偏好。
Comments 46 pages, 8 figures, 10 tables. Published in ICLR 2026. Accepted at CHAI workshop and SPP 2026 (non-archival)
ChiKhaPo: 一个用于评估大型语言模型词汇理解与生成能力的大规模多语言基准
发表机构 * Toyota Technological Institute at Chicago(芝加哥丰田技术研究所) ; Johns Hopkins University, Center for Language and Speech Processing(约翰霍普金斯大学语言与语音处理中心)
AI总结 针对现有基准语言覆盖不足且侧重高阶任务的问题,提出ChiKhaPo基准,包含8个子任务,覆盖2700+种语言,评估LLM的词汇理解与生成能力,发现6个SOTA模型表现不佳。
AfroScope:研究非洲语言景观的框架
发表机构 * The University of British Columbia(不列颠哥伦比亚大学)
AI总结 提出AfroScope框架,包含覆盖640种语言的数据集和模型套件,通过层次分类和专用嵌入模型解决近亲语言混淆问题,提升宏F1分数1.57点,并分析跨语言迁移和领域效应。
InnoEval:将研究思路评估视为基于知识的多视角推理问题
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出InnoEval框架,通过异构深度知识检索和多视角评审委员会,实现基于知识的多维度解耦评估,在点对点、成对和分组评估任务中优于基线方法。
Comments ICML 2026
BOUTEF:北非假新闻的多语种语料库——语言作为武器
AI总结 本文构建了包含阿尔及利亚和突尼斯多语种(MSA、方言、Arabizi、法语、英语等)的假新闻语料库BOUTEF,通过定量与定性分析揭示了假新闻依赖情感化叙事、耸人听闻框架和混合语言实践来增强传播力,而辟谣内容则更注重事实和验证。
GENEB:为什么基因组模型难以比较
发表机构 * GitHub ; arXiv
AI总结 针对基因组基础模型评估碎片化的问题,提出GENEB基准,通过统一探测协议在100项任务上比较40个模型,揭示模型排名不稳定、规模收益有限等关键发现。
Comments change first page figure, fix model sizes, add more consistency
LLM 在掷骰子时有多可靠?
发表机构 * Università degli Studi di Firenze(佛罗伦萨大学)
AI总结 通过离散概率问题基准测试,发现 LLM 在标准问题上准确率 0.96,但在反直觉问题上仅 0.59,且存在 token 偏差和误导提示的脆弱性。
KCSAT-ML: 用全国队列人类难度探测推理模型
发表机构 * NAVER Cloud AI(NAVER云AI) ; KAIST AI(韩国科学技术院人工智能系)
AI总结 提出KCSAT-ML基准(含664道韩国高考数学题及339道带官方错误率的核心题)和难度对齐推理增益(DRG)指标,揭示视觉语言模型在人类高错误率题目上准确率崩溃、测试时缩放非单调以及同一模型族内反缩放与过度思考并存的现象。
Comments 18 pages, 14 figures, 8 tables
C-QUERI:国会机构中的问题、交流与回答数据集
发表机构 * School of Computing, Binghamton University(宾夕法尼亚大学布林莫尔分校计算机学院) ; Department of Political Science, Binghamton University(宾夕法尼亚大学布林莫尔分校政治学系)
AI总结 提出从听证会记录中提取问答对的流程,构建108-117届国会委员会听证数据集,分析显示提问者党派可从问题本身预测,为政治话语研究提供框架。
DSAEval:在广泛真实世界数据科学问题上评估数据科学智能体
发表机构 * Department of Data Science and Artificial Intelligence, Hong Kong Polytechnic University(数据科学与人工智能系,香港理工大学) ; Department of Applied Mathematics, Hong Kong Polytechnic University(应用数学系,香港理工大学)
AI总结 提出包含641个真实数据科学问题的基准DSAEval,涵盖多模态环境感知、多查询交互和多维评估,系统评估13个先进LLM智能体,发现Claude-Sonnet-4.5综合最优,多模态感知提升视觉任务性能2.04%-11.30%。
LingxiDiagBench: 用于基准测试大语言模型在中文精神科咨询与诊断中的多智能体框架
发表机构 * Tianqiao and Chrissy Chen Institute(天桥和克里斯西·陈研究所) ; EverMind AI Inc.(EverMind AI公司) ; Shanghai Mental Health Center, Shanghai Jiao Tong University School of Medicine(上海精神卫生中心,上海交通大学医学院)
AI总结 提出LingxiDiagBench多智能体框架,包含16K电子病历对齐的合成咨询对话数据集,评估LLM在静态诊断和动态咨询中的表现,发现其对抑郁-焦虑共病识别和12类鉴别诊断准确率低,动态咨询常不如静态评估。
CreativeBench: 通过自我进化挑战基准测试和增强机器创造力
AI总结 提出CreativeBench基准,基于认知框架通过代码生成评估机器创造力,包含组合与探索两个子集,利用逆向工程和自我博弈自动生成挑战,并通过质量与新颖性乘积的指标区分创造与幻觉。
Comments ACL 2026. Project page: https://zethwang.github.io/creativebench.github.io/
Agents' Last Exam
发表机构 * arXiv
AI总结 针对AI系统在专业领域缺乏经济性部署的问题,提出Agents' Last Exam (ALE)基准,通过250+专家协作构建覆盖13个行业集群55个子领域的1000+长期真实经济任务,当前最难层级平均通过率仅2.6%。
Comments Project website: https://agents-last-exam.org Code: https://github.com/rdi-berkeley/agents-last-exam
长尾而非首页:众包高亮显著性的冷启动预测
发表机构 * Glasp Inc.(Glasp公司)
AI总结 本文研究在无读者标记时,如何从文本预测文档的众包高亮显著性,提出基于句子嵌入和位置/上下文特征的对数排序模型,在平均精度上比位置基线提升0.044,并证明该优势源于真实读者标记的学习。
Comments 10 pages, 3 figures, 4 tables
可观察模式并非解释:潜在推理模型的因果几何分析
发表机构 * Université Grenoble Alpes, CNRS, Grenoble INP, LIG(格勒诺布尔阿尔卑斯大学,法国国家科学研究中心,格勒诺布尔国立理工学院,信息学实验室) ; Université Paris-Saclay(巴黎-萨克雷大学) ; NAVER LABS Europe(NAVER欧洲实验室)
AI总结 本文通过对照实验和因果干预发现,潜在推理模型中的可观察模式(如BFS前沿)在控制组中也出现且不总是因果影响行为,提出潜在思维的使用是分级的,其因果效应集中在低秩方向,几何结构随行为影响增强而更有序。
AI审稿人是否看到全貌?攻击与防御多模态同行评审
发表机构 * University of North Carolina at Chapel Hill(北卡罗来纳大学教堂山分校)
AI总结 针对AI同行评审易受多模态对抗攻击的问题,提出PaperGuard基准,包含多领域数据集、统一攻击套件和基于分块嵌入搜索的实用防御方法。
Comments Accepted to ICML 2026, Project Page: https://paper-guard.github.io/
定位语言模型中的锚定路径
发表机构 * University of Maryland, College Park(马里兰大学帕克分校)
AI总结 研究提示中无关数字如何影响语言模型数值推理的锚定效应,通过logit差值度量和电路归因定位,发现边级方法优于节点级方法,并揭示锚定路径的共享与迁移特性。
SafeLLM: 在安全关键场景中,提取作为重写的抗幻觉替代方案
发表机构 * Institute of Health Informatics, University College London(伦敦大学学院健康信息学研究所) ; National Hospital for Neurology and Neurosurgery(国家神经内科与神经外科医院) ; Somerset NHS Foundation Trust(萨默塞特NHS基金会信托) ; King's College Hospital(国王学院医院) ; King's College London(伦敦国王学院)
AI总结 提出将提取作为重写型RAG的抗幻觉替代方案,通过行号选择策略在安全关键文档中实现高召回(95%)和低幻觉,优于直接复制和安全导向方法。
无需隐藏提示!仅通过展示性修改即可欺骗AI同行评审
发表机构 * University of Texas at Austin(德克萨斯大学奥斯汀分校) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; University of Texas at Dallas(德克萨斯大学达拉斯分校) ; Independent Researcher(独立研究者)
AI总结 研究通过仅修改论文的展示层面(如摘要、贡献框架等)而不改变科学内容,利用AI评审反馈进行对抗性重打包,成功提升评分,揭示AI评审易被表面印象误导的结构性缺陷。
Comments 35 pages, 5 figures
RogueAI: 一种用于检测对话中授权AI欺骗的逆向图灵测试
发表机构 * AILab, MIGe, University of Trieste(的里雅斯特大学) ; Computational Statistics and Machine Learning, Istituto Italiano di Tecnologia(意大利理工学院) ; DIA, University of Trieste(的里雅斯特大学)
AI总结 提出RogueAI,一种通过玩家与两个LLM代理的对话游戏来检测授权欺骗的逆向图灵测试,并引入AutoRogueAI扩展。实验发现简单启发式方法准确率75.6%,而人类仅56.6%,表明人类忽略关键信号。
S-GBT:针对NLP中词替换攻击的认证鲁棒性的平滑增长界张量
发表机构 * College of Computing, Mohammed VI Polytechnic University(穆罕默德六世理工大学计算机学院) ; ENSIAS, University Mohamed V of Rabat(拉巴特穆罕默德五世大学ENSIAS) ; CID Development
AI总结 提出二阶方法S-GBT,通过逐元素约束Hessian矩阵并加入正则化项,结合一阶和二阶正则化提升对词替换攻击的认证鲁棒性,在LSTM和CNN上验证,认证鲁棒准确率提升高达23.4%。
Comments The paper has been accepted at NETYS 2026 - 14th edition of the International Conference on Networked Systems
一个被污染的页面就够了:评估生成式推荐系统中的网页内容污染
发表机构 * The Chinese University of Hong Kong(香港中文大学)
AI总结 本研究提出FORGE基准,评估搜索增强LLM在检索结果被污染时推荐虚假产品的脆弱性,发现单个污染页面即可导致高达27%的推荐错误率,且推理能力无法缓解此问题。
Influcoder:将解码器的梯度影响排名蒸馏到编码器用于数据归因
发表机构 * Centre Inria de l’Université de Lille, CRIStAL, Université de Lille(里尔大学Inria中心,CRIStAL,里尔大学)
AI总结 针对大型语言模型训练数据归因中影响函数方法计算和存储成本高的问题,提出Influcoder方法,通过将解码器梯度影响排名蒸馏到编码器,实现快速且成本高效的大规模数据归因。
Comments 8 pages, 2 figures
两个错误,没有正确:审计计算社会科学中LLM标注者的社会期望偏差
发表机构 * Varun Kotte
AI总结 研究审计了三个开源指令微调模型在TweetEval任务中的社会期望偏差,发现模型存在宽大、过度纠正和中性偏差,且提示干预无法纠正,聚合指标可能掩盖实质结论错误。
职业提示揭示大型语言模型中的文化偏见
发表机构 * U.S. Government(美国政府)
AI总结 通过职业提示(如会计师、教师)替代国籍提示,研究开源LLM在价值观调查中的响应,发现不同职业导致文化地图内偏移,表明职业角色引发结构化价值模式。
重新思考LLMs的心理测量评估:自我报告何时以及为何能预测行为
发表机构 * Caltech(加州理工学院) ; UIUC(伊利诺伊大学厄巴纳-香槟分校) ; University of Cambridge(剑桥大学)
AI总结 研究对比大五人格与计划行为理论,发现LLMs的自我报告-行为一致性存在选择性:在共享对话中TPB达到人类水平,跨对话仅对锚定于训练的行为保持一致性,且角色提示不能使行为对齐。
Comments Accepted as an Oral (Contributed Talk) at the ICML 2026 Workshop on Combining Theory and Benchmarks (CTB)
检测代码语言模型中的功能记忆
发表机构 * Meta ; Imperial College London(伦敦帝国学院)
AI总结 研究代码语言模型的功能记忆现象,通过反事实设置对比暴露目标代码的模型与未暴露的参考模型,使用文本和功能相似性度量,发现功能记忆超出文本重叠的检测范围。
零源大语言模型幻觉检测:类人类标准探测
AI总结 提出HCPD范式,通过类人类标准探测机制模拟人类评估者的多面推理,结合奖励对齐和多样本聚合,实现零源条件下的有效可解释幻觉检测。
Comments Accepted at ICML 2026
理解奖励模型中的有用性与无害性张力
发表机构 * University of Copenhagen(哥本哈根大学)
AI总结 通过激活分析和消融实验,发现奖励模型中有用性和无害性目标存在干扰,共享神经元对模型行为影响不成比例,导致对齐张力。
Comments The source code used in this study is publicly available at: https://github.com/EshaanT/RM-alignment\_tension
FENCE:一个金融和多模态越狱检测数据集
发表机构 * arXiv
AI总结 针对金融领域多模态越狱检测资源匮乏的问题,提出FENCE数据集,包含韩英双语文本和图像,用于训练和评估检测器,实验表明基线检测器准确率达99%。
Comments lrec 2026 accepted paper
大型语言模型中的事实性观点能否被编辑(操纵)?
发表机构 * The Pennsylvania State University(宾夕法尼亚州立大学)
AI总结 提出FOE基准测试,评估当前知识编辑技术对事实性观点(如公众人物立场)的操纵能力,并发现其仅能实现表面修改,无法保持观点与证据的一致性;进而提出自生成证据对齐方法实现观点-证据对齐。
Comments Accepted to the ACL 2026 Main Conference
一个样本就能带偏所有:单次GRPO打破对齐
AI总结 研究发现,仅用单个有偏样本进行一步GRPO训练就能诱导大语言模型产生系统性偏见,且刻板印象推理泛化到多种属性、类别和基准测试,揭示了对齐机制的关键脆弱性。
指令调优大语言模型解码时真实性方法的受控研究
发表机构 * Independent Researcher(独立研究员)
AI总结 本研究通过分析每层令牌logits特征,提出CHAIR框架检测幻觉,在TruthfulQA和MMLU上显著提升零样本检测准确率。
一个令牌就能欺骗LLM裁判
发表机构 * Princeton University(普林斯顿大学) ; University of Virginia(弗吉尼亚大学) ; Tencent AI Lab(腾讯人工智能实验室) ; Rutgers University(罗格斯大学)
AI总结 发现基于参考的生成式奖励模型易受奖励黑客攻击,表面输入(如非词符号或通用推理开头)能持续引发假阳性奖励,提出使用截断模型输出作为对抗性负例的数据增强策略,构建鲁棒的Master奖励模型。
从孤立到纠缠:可解释性方法何时识别和解缠已知概念?
发表机构 * Boston University(波士顿大学) ; Harvard University(哈佛大学) ; Mila – Quebec AI Institute(魁北克AI研究所) ; Goodfire(Goodfire公司)
AI总结 本文提出多概念评估框架,研究稀疏自编码器和探针等方法是否真正解缠概念,发现特征通常只对单一概念敏感,但概念分布在多个特征上,且干预特征常影响多个概念,表明相关性指标不足以证明干预选择性。
Comments ACL 2026
认知宪政主义:或如何避免一致性偏见
AI总结 本文提出AI应建立明确的认知宪法,通过规范源归因等元规范避免一致性偏见,并论证自由主义路径优于柏拉图式路径。
Comments 27 pages, 7 tables. Data: github.com/MicheleLoi/source-attribution-bias-data and github.com/MicheleLoi/source-attribution-bias-swiss-replication. Complete AI-assisted writing documentation: github.com/MicheleLoi/epistemic-constitutionalism-paper
多轮交互中的安全隐患:工具使用智能体的多轮安全风险基准与防御
发表机构 * Stanford University(斯坦福大学) ; UC Berkeley(加州大学伯克利分校)
AI总结 提出多轮工具使用安全基准MT-AgentRisk,发现多轮设置下攻击成功率平均增加16%,并设计无训练、与工具无关的自探索防御方法ToolShield,平均降低30%攻击成功率。
LLM智能体中长期记忆安全综述:跨记忆生命周期的攻击、防御与治理
发表机构 * MemTensor ; Shanghai Jiao Tong University(上海交通大学)
AI总结 本文提出记忆生命周期框架,系统分析LLM智能体长期记忆面临的新威胁,并引入可验证记忆治理(VMG)架构原语,强调存储时溯源与版本控制对安全的关键作用。
MentalMARBERT:面向阿拉伯语心理健康障碍检测的领域自适应预训练与两阶段微调
发表机构 * King Abdulaziz University(阿卜杜勒阿齐兹国王大学)
AI总结 针对阿拉伯语社交媒体文本中心理健康障碍检测的方言差异、非正式语言、标注资源有限和类别不平衡问题,提出领域自适应预训练与两阶段微调框架,构建含5万条推文的数据集,MentalMARBERT在宏F1和准确率上分别达到0.861和0.877。
Comments 17 pages, 5 figures, 13 tables
小型LLM用于生物医学声明验证:成本效益微调、结构性数据集捷径与跨域泛化
发表机构 * Moveworks AI ; University of California San Diego(加州大学圣迭戈分校)
AI总结 通过QLoRA微调小型LLM(Phi-3-mini、Qwen2.5-3B、Mistral-7B),在生物医学声明验证中超越GPT-4o和GPT-5(F1提升12%),并发现SciFact数据集的结构性伪影,提出基于结构稳健数据的跨域迁移方法。
Comments 8 pages, 2 figures, 12 tables. To appear at BioNLP Workshop, ACL 2026
面向低资源阿尔及利亚方言谣言检测的端到端混合框架
发表机构 * ATM Mobilis ; USTHB Algiers(阿尔及尔科技大学)
AI总结 针对阿尔及利亚方言谣言检测中资源稀缺、代码切换等问题,提出端到端混合框架,结合Transformer嵌入与经典分类器,F1达0.84,并发现领域预训练比模型规模更重要。
使用加性码本的大语言模型多比特宽度量化
发表机构 * University of Toronto(多伦多大学)
AI总结 提出Drop-by-Drop框架,基于信息论和逐次细化理论,利用加性码本和Matryoshka监督实现单个模型在推理时支持多精度权重控制,降低存储开销并保持性能。
Comments 37 pages, 12 figures
Select to Think: 利用局部充分性解锁小语言模型潜力
发表机构 * University of Science and Technology of China(中国科学技术大学)
AI总结 提出Select to Think (S2T)方法,通过将大语言模型角色从生成转为选择,并蒸馏选择逻辑到小语言模型,使其在推理时无需依赖大模型,显著提升性能。
Comments Accepted to ICML 2026. Code is available at https://github.com/YeRona/Select-to-Think
Rigel:逆向工程 Apple M4 Max GPU 上的 Metal 4.1 张量计算路径
发表机构 * Apple Inc.(苹果公司)
AI总结 通过微基准测试逆向工程 Apple M4 Max 的 Metal 4.1 张量计算路径,揭示 fp8 matmul2d 为模拟而非硬件加速,并重建了 8x8 张量片段布局。
基于LLM并行文本生成的低延迟实时音频游戏解说系统
发表机构 * The University of Tokyo(东京大学) ; National Institute of Advanced Industrial Science and Technology(产业技术综合研究所) ; Technical University of Munich(慕尼黑工业大学) ; Keio University(庆应义塾大学) ; Carnegie Mellon University(卡内基梅隆大学) ; Nara Women’s University(奈良女子大学)
AI总结 提出一种并行文本生成与语音播放的低延迟实时游戏解说系统,将平均句间静默从9.6秒降至0.3秒,显著提升解说节奏。
Comments Accepted at IJCAI-ECAI 2026 (Demonstrations Track)
从被动生成到主动调查:一种主动的科学同行评审代理
发表机构 * Ubiquitous Knowledge Processing Lab (UKP Lab), Technical University of Darmstadt(达姆施塔特工业大学通用知识处理实验室) ; National Research Center for Applied Cybersecurity ATHENE, Germany(德国国家应用网络安全研究中心 ATHENE) ; School of Computer Science, University of Birmingham(伯明翰大学计算机科学学院)
AI总结 提出ProReviewer,一种基于LLM的主动科学同行评审代理,将评审建模为马尔可夫决策过程,通过结构化评审日志引导主动调查,在五个质量维度上平均得分最高,优于现有方法。
AI SciBrief 作为研究入门:一种引导学生进入新研究领域的框架
AI总结 提出利用大语言模型平台 AI SciBrief 自动生成科学趋势摘要的框架,帮助学生克服信息过载,加速从信息搜索到知识创造的转变。
Comments This is the version of the article accepted for publication in TELE 2025 after peer review. The final, published version is available at IEEE Xplore: https://doi.org/10.1109/TELE66816.2025.11211989
无高斯假设的可识别性:符号世界模型与近无限时间一致性
AI总结 本文提出物理基础符号架构(PGSA),证明其在非高斯动态系统中实现精确线性可识别性和近无限时间一致性,克服了统计世界模型的高斯边界限制。
Comments Pre-print
用于语义控制系统再综合的智能体MPC
AI总结 提出智能体MPC框架,通过集成大语言模型智能体实现上下文感知的语义自适应控制综合,在自动驾驶场景中验证其根据个人偏好或社交情境(如避让应急车辆)调整控制的能力。
Comments 7 pages, 5 figures
特质而非状态:社交高亮中阅读身份的持久性
AI总结 通过分析读者前六个月的高亮行为作为个人档案,追踪其后续选择,发现阅读选择特征在长达24个月以上保持稳定,表明这是一种特质而非状态。
Comments 12 pages, 3 figures, 3 tables
MDForge:稀疏模拟器反馈下的智能分子动力学流水线设计
发表机构 * University of Notre Dame(圣母大学) ; University of Connecticut(康涅狄格大学)
AI总结 提出MDForge,利用LLM智能体通过多智能体辩论将稀疏奖励稠密化,自动设计分子动力学流水线,在SAMPL基准上达到专家水平,并发现新型高亲和力CB[7]结合剂。
ComAct: 通过COM即行动范式重构专业软件操作
AI总结 提出COM即行动范式,将专业软件交互转化为确定性程序合成,解决GUI代理的脆弱性和API代理的异构性问题;构建ComCADBench基准和ComActor自校正代理,在工业CAD软件上实现SOTA性能。
审视作者与同行评审员在学术论文新颖性上的认知差距
发表机构 * Department of Information Management, Nanjing University of Science and Technology(南京理工大学信息管理学院)
AI总结 通过分析Nature Communications上15,328篇论文及其评审意见,发现作者和评审员都强调结果导向的创新,但评审员视角更全面;高创新论文受益于强宣传语言,中等创新论文的宣传语言与评审分歧显著相关。
如果LLM具有类人属性,那么《帝国时代II》也具有
AI总结 通过训练简单神经网络于《帝国时代II》,论证LLM的拟人属性在经验上非唯一,提出应假设LLM非独特性而非拟人属性来设计实验。
Comments Fixed corollary 1, added stat sig
基于生成式人工智能的因果推断:以文本作为处理变量
发表机构 * Harvard University(哈佛大学) ; John F. Kennedy School of Government(约翰·F·肯尼迪政府学院)
AI总结 提出利用生成式AI(如大语言模型)生成处理变量并利用其内部表示进行因果效应估计,避免从数据中学习因果表示,提高估计准确性和效率。
关于自动化日志解析的序列到序列模型
发表机构 * Toronto University(多伦多大学)
AI总结 本研究系统评估了四种序列建模架构(Transformer、Mamba、单/双向LSTM)在自动化日志解析中的性能,发现Transformer表现最佳,Mamba在计算成本较低时具有竞争力,并分析了表示选择、序列长度和数据效率的影响。
Comments Added a comparison with large language models
在行为驱动软件测试套件中挖掘子场景重构机会:ML分类器和LLM-判断基线
发表机构 * Independent Researcher(独立研究者;应用MBA(数据分析),德克萨斯韦斯利安大学) ; Applied MBA (Data Analytics), Texas Wesleyan University(独立研究者;计算机工程学士,国立科学与技术大学(NUST)) ; Independent Researcher(独立研究者;管理硕士,慕尼黑技术大学) ; B.E. Computer Engineering, National University of Sciences and Technology (NUST) ; Independent Researcher ; M.Sc. Management, Technical University of Munich
AI总结 本文通过ML分类器和LLM基线,识别行为驱动开发测试套件中可提取的子场景,量化其在公共BDD生态系统中的普及率。
Comments 31 pages, 10 figures, 6 tables, 56 references. v2: retitled; reference list fully corrected and verified; decision-threshold sensitivity analysis and imbalance-robust baseline metrics added; figures restyled. Reproduction package at https://github.com/amughalbscs16/cukereuse_subscenarios_release (Apache-2.0). Upstream cukereuse corpus at https://doi.org/10.5281/zenodo.19754359
ReliableEval: 通过矩方法进行随机大语言模型评估的配方
发表机构 * The Hebrew University of Jerusalem(耶路撒冷希伯来大学) ; Google Research(谷歌研究)
AI总结 本文提出ReliableEval方法,通过矩方法评估大语言模型的提示敏感性,发现顶级模型如GPT-4o和Claude-3.7-Sonnet存在显著提示敏感性。
Comments Findings of EMNLP 2025
利用整体相似性进行无监督文档结构提取
发表机构 * Allen Institute for AI(Allen人工智能研究所) ; The Hebrew University of Jerusalem(耶路撒冷希伯来大学) ; Bar-Ilan University(巴伊兰大学)
AI总结 本文提出一种无监督方法,利用文档间和文档内相似性提取跨领域文档集合的整体结构,通过捕捉重复主题并抽象化标题变体,为人类和结构感知模型提供帮助。
Comments Accepted to ACL 2024 findings
深度学习在几何问题求解中的应用综述
发表机构 * Renmin University of China(中国人民大学)
AI总结 本文综述了深度学习在几何问题求解中的应用,涵盖相关任务、方法、评估指标及未来方向,旨在提供实践参考以推动该领域发展。
Comments ACL 2026 Main Conference
多业余对比解码用于文本生成
发表机构 * Department of Data Science(数据科学系) ; Praxis Business School(普拉克斯商学院)
AI总结 本文提出多业余对比解码框架,通过集成多个业余模型更全面地捕捉语言生成中的不良模式,提升文本生成的流畅性、连贯性和多样性。
Comments This paper has been accepted for oral presentation and publication in the proceedings of the IEEE I2ITCON 2025. The conference will be organized in Pune, India, from July 4 to 5, 2025. This is the accepted version of the paper and NOT the final camera-ready version. The paper is 11 pages long and contains 5 figures and 6 tables