Tokenisation via Convex Relaxations
基于凸松弛的分词
发表机构 * ETH Zurich(苏黎世联邦理工学院) ; Kensho Technologies(Kensho科技公司)
AI总结 本文提出了一种基于凸松弛的分词方法ConvexTok,通过将分词构建问题转化为线性规划并利用凸优化工具求解,改进了分词指标和语言模型的bits-per-byte性能,并提升了下游任务表现。
基于凸松弛的分词
发表机构 * ETH Zurich(苏黎世联邦理工学院) ; Kensho Technologies(Kensho科技公司)
AI总结 本文提出了一种基于凸松弛的分词方法ConvexTok,通过将分词构建问题转化为线性规划并利用凸优化工具求解,改进了分词指标和语言模型的bits-per-byte性能,并提升了下游任务表现。
向量策略优化:为多样性训练改进测试时间搜索
发表机构 * MIT(麻省理工学院) ; Improbable AI Lab(Improbable AI 实验室) ; MIT-IBM Computing Research Lab(麻省理工-IBM 计算研究实验室) ; Sakana AI
AI总结 本文提出向量策略优化(VPO)方法,通过训练策略以预测多样化的下游奖励函数,从而产生多样化的解决方案,以改进测试时间搜索的性能。
Comments 24 pages
评估商业AI聊天机器人作为新闻中介
发表机构 * Stanford University(斯坦福大学) ; Independent Researcher(独立研究者) ; Together AI
AI总结 本研究评估了AI聊天机器人在跨语言和区域处理新兴事实的准确性,发现其在多选题中表现良好,但在自由回答和复杂问题上存在显著误差,揭示了区域不平等和依赖检索基础设施的问题。
ChronoMedKG:一个具有时间基础的生物医学知识图谱和用于临床推理的基准
发表机构 * University of Southern Denmark(丹麦南部大学) ; University of Hamburg(汉堡大学)
AI总结 本文提出ChronoMedKG,一个包含460,497个证据链接三元组的生物医学知识图谱,覆盖13,431种疾病,通过时间组件如发病窗口或进展阶段,为临床推理提供时间基础,并引入ChronoTQA基准测试,验证了其在时间推理任务中的有效性。
Comments 9 pages main text plus appendices, 8 figures. Dataset and benchmark paper. ChronoMedKG released under CC BY 4.0 and ChronoTQA/code under MIT (Zenodo: 10.5281/zenodo.19697542). Under review
超越语音情感识别:利用基于LLM和语音情感模型的政治演讲多模态Pathos分析
发表机构 * Democracy Intelligence gGmbH(民主智能有限责任公司)
AI总结 本文研究了语音情感识别模型是否能作为政治演讲分析中Pathos维度的代理,通过TRUST多智能体大语言模型(LLM)管道进行操作。使用德国议会全体会议中Felix Banaszak的演讲作为案例研究,比较了三种分析模式:(1) emotion2vec_plus_large,一个通过后验Russell Circumplex投影得到连续唤醒度和估值的语音情感识别(SER)模型;(2) Gemini 2.5 Flash,一个分析完整演讲音频及其转录文本的LLM,以开放和上下文感知的方式进行;(3) TRUST-Pathos分数,来自三个倡导者LLM监督集合。斯皮尔曼等级相关性显示,Gemini估值与TRUST-Pathos高度相关(rho = +0.664,p < 0.001),而emotion2vec估值不相关(rho = +0.097,p = 0.499)。我们进一步通过系统评估柏林情感语音数据库(EMO-DB)使用Gemini在开放注释范式下,证明标准SER基准语料库存在表演性演讲、文化偏见和类别不兼容性。我们的结果表明,基于LLM的多模态分析在捕捉语义定义的政治情感方面比单独的语音模型更有效,而语音特征仍对低层次唤醒度估计有帮助。未来的工作将扩展这种方法到视频分析中,结合面部表情和眼神。
Comments 13 pages, 1 figure
通过能力选择性子空间投影实现自我策略蒸馏
发表机构 * University of Cambridge(剑桥大学) ; HKUST(香港科技大学) ; University of Chicago(芝加哥大学)
AI总结 本文提出Self-Policy Distillation(SPD),通过从模型自身梯度中提取低维能力子空间,将关键值(KV)激活投影到该子空间,并在标准下一项预测损失下进行微调,实现了无需外部信号的通用且能力选择性的自我蒸馏方法。
道德语义在机器翻译中得以保留:来自道德基础语料库的跨语言证据
发表机构 * University of Luxembourg(卢森堡大学)
AI总结 本研究探讨了基于LLM的翻译是否能弥合道德价值观分类中语言特定标注语料库的差距,通过波兰语案例展示直接翻译能有效保留微妙的道德线索,为资源匮乏语言的道德研究提供了可行路径。
看见诗歌:基于大语言模型的AI生成现代汉语诗歌的图像-语义检测
发表机构 * Department of Computer and Information Science, University of Macau(澳门大学计算机与信息科学系) ; University of Rochester(罗切斯特大学) ; Sichuan University(四川大学) ; Department of Portuguese, Faculty of Arts and Humanities, University of Macau(澳门大学人文学院葡萄牙语系)
AI总结 本文提出了一种图像-语义引导的诗歌检测方法,通过整合图像内容与诗歌文本信息,提升大语言模型在检测现代汉语诗歌中的性能,实验结果表明该方法在多个数据集上均优于传统方法。
谁的声音被听见?通过美国政府公开提交的材料映射利益相关者的AI观点
发表机构 * Leiden University Centre for Linguistics, Leiden University(莱顿大学语言学中心,莱顿大学) ; Department of Linguistics and Communication, University of Birmingham(伯明翰大学语言学与交流系) ; School of Journalism and Mass Communication, University of Wisconsin-Madison(威斯康星大学麦迪逊分校新闻与大众传播学院)
AI总结 本文通过分析美国政府AI行动计划公众咨询期间提交的信件,探讨不同利益相关者对AI的看法,发现个人更关注AI对生活的影响,而其他群体更关注AI发展,揭示了AI行动计划主要反映私营部门的关切。
两个优于一个:一种无崩溃的多奖励RLIF训练框架
发表机构 * Bangladesh University of Engineering and Technology(孟加拉工程科技大学) ; West Virginia University(西弗吉尼亚大学) ; University of Aberdeen(阿伯丁大学) ; Fogsphere (Redev.AI Ltd, UK)(Fogsphere(Redev.AI Ltd,英国)) ; University College London(伦敦大学学院)
AI总结 本文提出一种多奖励RLIF框架,通过分解训练信号为答案级奖励和完成级奖励,并结合GDPO归一化和KL-Cov正则化,提升稳定性和鲁棒性,同时在数学推理和代码生成任务中接近监督RLVR方法的性能。
Agentic CLEAR: 自动化多层级评估LLM代理
发表机构 * IBM Research(IBM研究院)
AI总结 本研究提出Agentic CLEAR框架,通过多层级细粒度分析实现LLM代理的自动化评估,提供高质量的数据驱动反馈并预测任务成功率。
Comments ACL
超越温度:超拟合作为晚期几何扩展
发表机构 * Department of Statistics, LMU Munich(慕尼黑大学统计系) ; Munich Center for Machine Learning (MCML)(慕尼黑机器学习中心(MCML)) ; School of Computer and Information Engineering, Henan University(河南大学计算机与信息工程学院)
AI总结 本文研究了超拟合现象,发现其与分布锐化不同,通过实验表明超拟合依赖于动态的上下文相关排名重排机制,并在Transformer最后一层的终端扩展中实现了特征空间的几何扩展,提出了Late-Stage LoRA方法以提升生成质量。
Comments Accepted at ICML 2026
LANG: 用于多语言推理的强化学习与语言自适应提示引导
发表机构 * NLP Lab, School of Computer Science and Engineering, Northeastern University, Shenyang, China(东北大学计算机科学与工程学院自然语言处理实验室) ; Meituan Inc.(美团公司) ; NiuTrans Research, Shenyang, China(牛译研所)
AI总结 本文提出LANG框架,通过语言条件提示引导非英语推理任务的探索,解决了多语言环境下强化学习在输入语言一致性与推理质量之间的权衡问题,提升了推理性能而不影响语言一致性。
Comments Accepted to ACL 2026 (main conference)
SynAE: 一个用于评估工具调用代理合成数据质量的框架
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Microsoft Research(微软研究院)
AI总结 本文提出SynAE框架,用于评估多轮工具调用代理合成数据的质量,通过四个指标类别评估合成数据的有效性、保真度和多样性,揭示单一指标不足以全面表征合成数据质量。
一个提示不够:指令敏感性削弱了嵌入模型评估
发表机构 * Aarhus University(奥胡斯大学)
AI总结 本文研究了单提示评估在指令调优嵌入模型中的不足,发现默认提示可能系统性低估或高估性能,并指出排行榜对提示选择不鲁棒,建议通过多提示评估或报告敏感性来改进基准测试。
SpaceDG: 在视觉退化下评估空间智能的基准测试
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; University of Electronic Science and Technology of China(电子科技大学) ; Chongqing University(重庆大学) ; The University of Tokyo(东京大学) ; Beihang University(北航) ; Northwestern Polytechnical University(西北工业大学)
AI总结 本文提出SpaceDG,首个针对退化感知空间理解的大型数据集,通过物理基础的退化合成引擎生成9种退化类型,评估多模态大语言模型在视觉退化下的空间推理能力,并展示在退化条件下微调可提升模型鲁棒性。
BeLink: 生物医学实体链接结合生成性重新排序
发表机构 * University of Milan(米兰大学) ; University of Chicago(芝加哥大学)
AI总结 本文提出了一种基于生成模型的重新排序方法,通过指令微调提高生物医学实体链接的效率和准确性,在多个基准测试中实现了3%-24%的链接准确率提升,同时减少了推理时间。
Comments Accepted to ACM SIGIR 2026
表面礼貌,实践错误:一个用于修复多语言孟加拉语生成中敬语失误的定制数据集
发表机构 * United International University(国际大学)
AI总结 本文提出了一个定制数据集BLADE,用于改进多语言孟加拉语生成中敬语处理的准确性,通过系统微调和评估领先的开源架构,如DeepSeek-8B和LLaMA-3.2-3B,以提高结构忠实度和敬语对齐度。
结构稀疏注意力用于具有次二次序列复杂度的实体跟踪
发表机构 * ESPCI PSL(ESPCI 法国巴黎大学) ; LAMSADE, Université Paris Dauphine - PSL(LAMSADE 巴黎dauphine大学-巴黎科学实验室)
AI总结 本文提出了一种结构稀疏注意力机制,用于在长序列中高效维护和更新实体和属性的潜在状态,通过减少计算复杂度提升实体跟踪的效率和准确性。
Comments 12 pages, 1 figure, 9 tables
RAMPHO缓冲区的计算机模拟:通过语音熵在深度神经网络中分离信息性和能量性遮蔽
发表机构 * Institute of Sound and Vibration Research (ISVR), University of Southampton(声学与振动研究所(ISVR),南安普顿大学)
AI总结 本文提出了一种基于wav2vec 2.0的自监督声学模型的计算机模拟,通过语音熵分离信息性和能量性遮蔽,揭示了认知-听觉帕累托优化问题。
从相关性到因果:一种五阶段方法用于Transformer语言模型中的特征分析
发表机构 * Independent Researcher(独立研究者)
AI总结 本文提出了一种五阶段方法用于Transformer语言模型中的因果特征分析,并在GPT-2小型模型上端到端地展示了其在间接宾语识别任务中的应用,通过激活补丁恢复经典IOI电路,稀疏自编码器恢复特定名称的特征,因果验证发现这些特征具有特定但部分因果性,鲁棒性测试揭示了检测鲁棒性与因果鲁棒性之间的差距,部署评估显示了最优监控配置带来的成本节省。
Cohesion-6K: 一个用于分析在线讨论中社会凝聚力与冲突的阿拉伯语数据集
发表机构 * Hamad Bin Khalifa University(哈马德·本·拉希德大学) ; Northwestern University in Qatar(卡塔尔西北大学)
AI总结 本研究通过Cohesion-6K数据集探讨在线讨论中的社会凝聚力与冲突,采用五类话语分类揭示冲突与凝聚力的动态平衡,并通过公开资源支持未来计算社会科学、数字通信和阿拉伯语自然语言处理的研究。
在仇恨言论与虚假信息交汇处的辅助反诽谤写作
发表机构 * Fondazione Bruno Kessler(布鲁诺·克塞勒基金会) ; Università Cattolica del Sacro Cuore(天主教圣心大学)
AI总结 本文研究了在仇恨言论和虚假信息共存的背景下,利用大型语言模型辅助专家反诽谤写作的方法,通过三种知识驱动的生成策略,结合事实核查和非政府组织的指南,提高了反诽谤文本的质量和有效性。
DeferMem: 通过强化学习进行长时记忆问答的查询时证据蒸馏
发表机构 * State Key Lab of CAD&CG(计算机辅助设计与图形学国家重点实验室)
AI总结 本文提出DeferMem,一种长时记忆框架,通过分离问题为高召回候选检索和查询条件证据蒸馏,以提升长时记忆问答的准确性和效率。
Comments 31 pages, 3 figures
Epicure:探索食品成分嵌入的涌现几何
AI总结 本文提出Epicure,一种基于三兄弟skip-gram模型重新训练的食品成分嵌入方法,通过多语言食谱语料库构建了包含1790个标准成分的嵌入模型,并通过三种不同的随机游走方案生成了不同侧重的模型。
统一的数据选择用于LLM推理
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Alibaba Group(阿里巴巴集团) ; National University of Singapore(新加坡国立大学)
AI总结 本文提出了一种无需训练的高熵和(HES)指标,用于评估和选择高质量的推理样本,通过在三种主流训练范式(监督微调、拒绝微调和强化学习)中验证,证明了其在提高LLM推理性能和减少计算开销方面的有效性。
Comments Under Review
印地语中辱骂评论检测的多阶段训练
发表机构 * Department of CSE, JIIT Noida(计算机科学与工程系,印度尼泊尔理工学院诺伊达) ; Department of ICE, NSUT Delhi(电子与计算机工程系,NSUT德里) ; Department of IT, VIT Vellore(信息科技系,维杰学院维洛雷) ; Department of CSE, IIIT Delhi(计算机科学与工程系,德里理工学院)
AI总结 本文提出了一种多阶段训练方法,通过语言预处理和多个模型的集成,提高印地语中辱骂评论检测的准确性,减少误报率以保护言论自由。
Comments 4 pages, EAM2021 selected
通过行为微调建模病理样行为模式
发表机构 * University of Naples Federico II(那不勒斯费德里科二世大学) ; Natural and Artificial Cognition Laboratory(自然与人工认知实验室) ; Department of Humanities(人文学部)
AI总结 本文研究了通过行为微调在语言模型中建模病理样行为模式,采用结构化决策任务进行微调,发现模型在不同上下文中产生稳定的生成分布变化,表明行为优化能影响语言生成的分布特性。
TransitLM: 一个大规模数据集和基准,用于无地图的公共交通路线生成
发表机构 * Alibaba Group(阿里巴巴集团) ; AMAP
AI总结 本文提出TransitLM,一个包含1300万条公共交通路线规划记录的数据集,用于无地图的公共交通路线生成,展示了通过数据训练模型生成有效路线的能力。
词形和根的屈折形态:阿拉伯语的破碎复数
发表机构 * LIGM, Université Paris-Est(LIGM,巴黎-est大学) ; DLL, Universidade Federal do Espírito Santo(DLL,弗拉门杜斯皮里霍萨联邦大学)
AI总结 本文提出了一种对阿拉伯语名词屈折形态的描述模型,重点在于阿拉伯语学者在管理词典和其他语言资源时的处理方式。其突破在于将传统的根-词形塞语模型反转为词形-根模型,优先考虑词形。该模型包括破碎复数(BPs),即通过修改词干形成的复数。它基于传统的塞语形态学中的根和词形概念。与传统阿拉伯语形态学相比,它将屈折的正式描述与派生和语义分开。如同传统阿拉伯语词典,可更新的词典以词形的词典条目结构进行组织,并且参考拼写完全带变音符号。在我们的模型中,阿拉伯语文本的形态分析直接使用词典进行,而无需形态音律规则。我们对名词屈折的分类是简单、有序且详细的。我们通过指定元音数量为v或vv,并忽略元音质量来简化单数词形的分类。根交替和正字法变化是独立于词形并以事实方式编码的,而不涉及深根或形态音律或正字法规则。具有三重词干BPs的名词根据22个词形细分到90个类别中进行分类,而具有四重词干BPs的名词根据3个词形细分到70个类别中进行分类。这些160个类别在考虑只影响单数的屈折变化时,变为300个屈折类别。我们提供了一种直接的编码方案,该方案应用于3200个BPs名词条目。
更难防御:通过隐含增强和模糊重写实现中文毒性攻击
发表机构 * Dalian University of Technology(大连理工大学) ; The University of Tokyo(东京大学) ; Singapore University of Technology and Design(新加坡科技设计大学)
AI总结 本研究提出了一种针对中文毒性攻击的框架CITA,通过隐含增强和模糊重写技术生成攻击样本,揭示了现有检测器在识别隐含毒性内容时的不足,并展示了通过训练防御模型提升鲁棒性的效果。
Comments 16 pages, 5 figures
IdioLink: 超越词语的语义检索:在隐喻和直述表达之间
发表机构 * Data Science Institute, Reichman University(雷赫曼大学数据科学学院) ; Efi Arazi School of Computer Science, Reichman University(雷赫曼大学埃菲·阿拉兹计算机科学学院) ; Vrije Universiteit Amsterdam(阿姆斯特丹自由大学)
AI总结 本文提出IdioLink检索基准,旨在测试模型能否将隐喻表达与直述或改写形式的概念等价意义联系起来,揭示当前模型在隐喻语义检索中的不足。
GHI: 图ormer over Conditioned Hypergraph Incidence 用于基于方面的情感分析
发表机构 * Qiqihar University(齐齐哈尔大学)
AI总结 本文提出GHI框架,通过构建基于双分拓扑的 incidence 结构推理层,实现对基于方面的情感分析任务中不同结构信号的统一处理,实验表明GHI在多个标准基准上优于现有方法,且在参数较少的情况下表现优异。
Comments 15 pages, 8 figures, 7 tables
生存或崩溃:自我博弈强化学习中数据门控与奖励基础的不对称作用
发表机构 * University of California, Santa Barbara(加州大学圣巴巴拉分校) ; Cisco Research(思科研究)
AI总结 本文研究了自我博弈强化学习中数据门控和奖励基础的不对称作用,发现数据门控是维持稳定的关键因素,而奖励信号在门控移除后无法单独保证稳定性,揭示了'基础提出者悖论'。
阿拉伯女性社会赋权与福祉的受众参与:一个十年语料库
发表机构 * Northwestern University in Qatar(卡塔尔西北大学) ; Hamad bin Khalifa University(哈利法大学)
AI总结 本文提出阿拉伯女性与社会语料库,包含2013至2024年间252,487条阿拉伯语Facebook公开帖子,涵盖女性赋权和社会福祉主题,通过自动化流程处理后,为阿拉伯方言的性别话语、社会改革和情感参与的大规模分析提供了数据支持。
对低资源语言农业文档中有效文本嵌入的分块策略评估
发表机构 * Department of Big Data, Chungbuk National University, Cheongju-si, South Korea(大数据系, Chungbuk国立大学,韩国Cheongju市) ; Department of Computer Science, Chungbuk National University, Cheongju-si, South Korea(计算机科学系, Chungbuk国立大学,韩国Cheongju市) ; BigDataLabs Co., Ltd. Department of Management Information Systems, Chungbuk National University, South Korea(BigDataLabs公司 管理信息系, Chungbuk国立大学,韩国)
AI总结 本研究比较了四种文本分块方法在Khmer农业文档中的性能,通过检索增强生成(RAG)框架评估分块策略对密集检索优化的影响,发现基于字符的递归分块方法在低资源语言中表现最佳。
Comments 11 pages, 1 figure
嵌入空间中的结构保留作为基准性能预测因子
发表机构 * TurkuNLP, University of Turku, Finland(图尔库大学TurkuNLP实验室,图尔库大学,芬兰) ; ELLIS Institute Finland(芬兰ELLIS研究所)
AI总结 本文研究了高表现嵌入模型在嵌入空间中的一致性组织方式,通过评估25种现代嵌入模型在五个MTEB任务上的表现,发现最近邻重叠和独立成分分析(ICA)中成对文本实例的幅度差异与任务性能高度相关,揭示了嵌入任务在线性度和局部信息保留依赖性方面的差异。
Maestro:通过强化学习协调分层模型-技能集合
发表机构 * Tsinghua University(清华大学) ; Zhejiang University(浙江大学) ; The Chinese University of Hong Kong(香港中文大学) ; Nanyang Technological University(南洋理工大学) ; Tongji University(同济大学)
AI总结 本文提出Maestro框架,通过强化学习协调多模态任务,利用分层模型-技能集合提升多模态任务性能,实现高效且通用的协调策略。
事实回忆机制在文本到语音的多模态语言模型中是否延续?
发表机构 * Zenseact ; Unbox AI ; Chalmers University of Technology(楚德斯大学) ; University of Gothenburg(哥德堡大学) ; KTH Royal Institute of Technology(皇家理工学院)
AI总结 研究探讨了多模态语言模型中事实回忆机制在文本和语音模态间的延续性,通过因果中介分析揭示了语音到文本与文本到文本在事实存储和回忆中的差异。
Comments In *SEM 2026, the 15th Joint Conference on Lexical and Computational Semantics
Ratchet:一种最小化卫生的自演化LLM代理技能库
发表机构 * AWS Generative AI Innovation Center(AWS 生成式人工智能创新中心) ; HSBC Holdings Plc.(汇丰控股有限公司) ; HSBC Technology Center, China(汇丰技术中心,中国)
AI总结 本文提出Ratchet,一种单代理循环,使冻结的LLM能够自行编写、检索、整理和淘汰其自然语言技能,通过整合四个卫生机制提升技能库的生命周期管理,从而在MBPP+ hard-100数据集上显著提升性能。
Comments 16 pages, 2 figures, 6 tables. Extends arXiv:2605.19576 with the SWE-bench Verified evaluation and a non-divergence analysis (Proposition 1)
Psy-Chronicle: 一个用于合成长周期校园心理辅导对话的结构化流水线
发表机构 * University of Science and Technology Beijing(北京科技大学)
AI总结 本文提出Psy-Chronicle,一种结构化数据生成框架,用于合成长周期校园心理辅导对话,通过生成学期跨度的时间压力事件图和学生与辅导员代理的交互模拟,构建了包含100个学生档案和9万条对话的CPCD数据集,并通过CPCD-Bench评估模型的长周期校园辅导能力,实验结果表明CPCD有效提升了模型的会话级响应生成和长周期记忆召回能力。
通过自我调节模拟规划实现高效的代理推理
发表机构 * Institute of Foundation Models (IFM)(基础模型研究所) ; Carnegie Mellon University(卡内基梅隆大学)
AI总结 本文提出通过分解决策过程为三个系统:模拟推理、自我调节和反应执行,来提升代理推理的效率,并展示了SR$^2$AM模型在不同任务中的表现。
Comments Code and model artifacts are available at https://github.com/sailing-lab/sr2am
一种用于柬埔寨检索增强问答的语言模型比较研究
发表机构 * Department of Computer Science, Chungbuk National University(Chungbuk National University 计算机科学系) ; Department of Big Data, Chungbuk National University(Chungbuk National University 大数据系) ; General Department of Information and Communication Technology, Ministry of Post and Telecommunications(邮电部信息和通信技术总局) ; Department of Management Information Systems, Chungbuk National University(Chungbuk National University 管理信息系统系) ; BigDatalabs Co., Ltd(BigDatalabs 公司)
AI总结 本文针对低资源非拉丁语种柬埔寨语言,比较了多种语言模型在检索增强问答任务中的性能,发现检索器选择是影响效果的关键因素,生成器在不同指标上表现各异。
Comments 14 pages, 1 figure,
在CRAC 2026上缩小差距:基于LLM的多语言核心指代解析的两阶段适应
发表机构 * Lattice (CNRS UMR 8094 & ENS-PSL & Université Sorbonne Nouvelle)(Lattice(CNRS UMR 8094 和 ENS-PSL 和 索邦学院新欧))
AI总结 本文提出了一种基于LLM的多语言核心指代解析方法,通过两阶段适应策略,在CRAC 2026共享任务中取得了74.32的平均CoNLL F1分数,排名第一。
Symphony for Speech-to-Text: 支持实时医疗语音接口
发表机构 * Corti
AI总结 本文提出Symphony for Speech-to-Text,一种医疗级实时语音识别系统,通过分解转录过程为识别、格式化和上下文校正等专业化组件,优化医学术语召回,实现实时临床结构文本生成,并在医疗场景中显著优于现有系统,同时在通用领域表现不逊。
Comments Updated with a correction and improvement to Symphony's performance in spoken punctuation evaluation (R_punct, P_punct)
Orchard:一个开源的智能体建模框架
发表机构 * Microsoft Research(微软研究院) ; Columbia University(哥伦比亚大学) ; UIUC(伊利诺伊大学香槟分校)
AI总结 本文提出Orchard,一个开源的智能体建模框架,通过轻量级环境服务和三种智能体建模食谱,实现了跨领域可重用的智能体数据、训练和评估。
BEA 2026 共同任务 1:什么使词汇困难?
发表机构 * RIKEN ; The University of Osaka(大阪大学) ; Nara Institute of Science and Technology(奈良科学技術大學) ; National Tsing Hua University(國立清華大學) ; The University of Tokyo(東京大學) ; Tohoku University(東北大學)
AI总结 本文提出两种模型用于预测词汇难度:一种高精度的黑盒模型,在公开赛道取得最佳成绩,另一种可解释模型,优于微调编码器基线。黑盒模型通过软目标损失函数微调LLM,在评分任务中达到r>0.91的精度,而可解释模型在保持强相关性(r>0.77)的同时,揭示了影响每个项目难度的因素。进一步分析显示,英国理事会知识型词汇列表(KVL)中词汇难度常受拼写难度或测试项目构造影响,而不仅仅是词汇本身的生产难度。
Comments To be published in Proceedings of the 21st Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2026)
VectraYX-Nano: 一个具有课程学习和原生工具使用的4200万参数西班牙语网络安全语言模型
发表机构 * Globant
AI总结 本文提出了一种基于西班牙语的网络安全语言模型VectraYX-Nano,通过课程学习和原生工具调用,展示了在网络安全领域的应用与改进。
Comments 24 pages, 5 figures, 12 tables. v3: post-Chinchilla compute ablation (v8-v15), Globant affiliation finalized, EMNLP Findings 2026 submission. Released model: VectraYX-Nano v7 (42M params, GGUF Q4 ~20 MB, native MCP)
TextSeal: 一种用于溯源与蒸馏保护的本地化大语言模型水印
发表机构 * FAIR, Meta Superintelligence Labs(FAIR,Meta超智能实验室)
AI总结 本文提出TextSeal,一种先进的大语言模型水印技术,通过Gumbel-max采样引入双密钥生成以恢复输出多样性,并结合熵加权评分和多区域定位提升检测性能。该方法支持推测解码和多令牌预测等服务优化,不增加推理开销。在检测强度上严格优于基线方法SynthID-text,并对稀释具有鲁棒性,即使在混合的人类/AI文档中也能保持自信的本地化检测。理论上该方案无失真,经推理基准评估证实其保持下游性能;同时通过多语言人工评估(6000次A/B对比,5种语言)显示无明显质量差异。除了用于溯源检测外,TextSeal还具有'放射性'特性:其水印信号通过模型蒸馏传递,可检测未经授权的使用。
学习预见:揭示在线蒸馏的解锁效率
发表机构 * USTC(中国科学技术大学) ; Tencent(腾讯) ; NUS(新加坡国立大学) ; HKUST(GZ)(香港科技大学(广州)) ; UCAS-IIE(中国科学技术大学国际交流学院) ; SHU(上海大学)
AI总结 本文研究了在线蒸馏(OPD)的效率来源,提出EffOPD方法通过适应性选择 extrapolation 步长和沿当前更新方向移动来加速OPD,实现了3倍的训练加速同时保持最终性能。
SimCT: 通过跨分词器策略进行监督恢复
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Large Language Model Department, Tencent(腾讯大语言模型部门) ; Shanghai Innovation Institute(上海创新研究院) ; Zhongguancun Academy(中关村学院)
AI总结 本文提出SimCT,一种改进的在线策略蒸馏方法,通过扩展监督空间来恢复因分词差异而丢失的监督信号,从而在数学推理和代码生成任务中提升了性能。
Comments 4 figures, 6 tables, 28 pages
SpecBlock:带有动态树草案的块迭代推测解码
发表机构 * Hong Kong University of Science and Technology(香港科技大学) ; MetaX ; Zhejiang Normal University(浙江师范大学) ; Soochow University(苏州大学)
AI总结 该研究提出了一种结合路径依赖性和低成本草案的块迭代草案方法SpecBlock,通过动态树草案和路径依赖机制提高LLM推理效率,同时在部署时利用验证器反馈进行成本感知适应,从而在速度和成本上均优于现有方法。
UniSD:面向大语言模型的统一自蒸馏框架
发表机构 * Georgia Institute of Technology(佐治亚理工学院) ; University of California, Los Angeles(加州大学洛杉矶分校) ; Carnegie Mellon University(卡内基梅隆大学) ; William & Mary(威廉与玛丽大学)
AI总结 本文提出UniSD框架,系统研究自蒸馏方法,通过整合多种机制提升监督可靠性、表征对齐和训练稳定性,从而在多个基准和模型上验证自蒸馏的有效性,并构建出性能最优的UniSDfull流水线。
Comments Website: https://unifiedsd.github.io/ Code: https://github.com/Ahren09/UniSD
Jordan-RoPE: 通过复Jordan块实现非半单相对位置编码
发表机构 * School of Physics, Ningxia University(宁夏大学物理学院)
AI总结 本文提出了一种非半单相对位置编码Jordan-RoPE,通过复旋转特征和Nilpotent响应在同一缺陷Jordan块中实现距离调制的相位基,从而生成振荡-多项式特征,如e^{-γd}cos(ωd)、e^{-γd}sin(ωd)等,并在语言模型中验证了其有效性。
Comments 15 pages, 4 figures, 6 tables; code available at https://github.com/ybzhang-nxu/jordan_rope
MemEvoBench: 评估LLM代理中内存误进化带来的安全风险
发表机构 * Shanghai Jiao Tong University(上海交通大学) ; East China Normal University(华东师范大学) ; Shandong University(山东大学) ; Duke University(杜克大学)
AI总结 本文提出MemEvoBench,首个评估LLM代理长期内存安全性的基准,针对对抗性内存注入、噪声工具输出和偏见反馈,通过7个领域36种风险类型的问题任务和20个Agent-SafetyBench环境改编的工作流任务,验证了内存进化对安全性的重大影响,指出静态提示防御不足,亟需加强LLM代理内存进化的安全性。
迈向真实世界的人类行为模拟:在长时间跨度、跨场景、异质行为轨迹上对大语言模型进行基准测试
发表机构 * Chinese Information Processing Laboratory, Institute of Software, Chinese Academy of Sciences(中国科学院软件研究所信息处理实验室) ; University of Chinese Academy of Sciences(中国科学院大学) ; Kuaishou Technology(快手科技)
AI总结 本文提出OmniBehavior基准测试,通过真实世界数据整合长周期、跨场景和异质行为模式,揭示现有模型在模拟复杂人类行为时的局限性,包括对正向平均人的趋同、人格同质化和乌托邦偏见,为未来高保真模拟研究指明方向。
Comments Project page: https://OmniBehavior.github.io
LLM Readiness Harness: 评估、可观测性和持续集成门禁用于LLM/RAG应用
发表机构 * Lumytics
AI总结 本文提出了一种LLM和RAG应用的准备性框架,通过自动化基准测试、OpenTelemetry可观测性和持续集成质量门禁,将评估转化为部署决策流程,并通过帕累托前沿计算场景加权的准备度分数,展示了在票务路由工作流和BEIR接地任务上的评估结果。
Comments 19 pages, 4 figures, 15 tables
使用 Opus 4.6 和 Rocq-MCP 的 2025 年 Putnam 问题
发表机构 * IRIF, Université Paris Cité, Inria, CNRS(IRIF,巴黎Cité大学,法国国家信息与自动化研究所,法国国家科学研究中心) ; DI ENS, PSL University, Inria(ENS巴黎大学DI,巴黎科学实验室大学,法国国家信息与自动化研究所)
AI总结 研究探讨了使用 Opus 4.6 配合 Rocq-MCP 工具自主证明 2025 年 Putnam 数学竞赛中 12 个问题中的 10 个,展示了基于模型上下文协议 (MCP) 的自动证明方法及公开可用的证明过程。
CritiSense: 关键数字素养与对抗虚假信息的韧性
发表机构 * Qatar Computing Research Institute(卡塔尔计算研究所) ; University of Padova(帕多瓦大学) ; Hamad Bin Khalifa University(哈马德·本·卡西姆大学)
AI总结 本研究提出CritiSense,一个多功能的移动媒体素养应用,通过短而互动的挑战提升用户识别操纵手段的能力,为多语言的预警告平台和微学习效果评估提供测试环境。
Comments resilience, disinformation, misinformation, fake news, propaganda
SiameseNorm: 突破预规范与后规范之间的障碍
发表机构 * Leap Lab, Tsinghua University(清华大学 Leap 实验室) ; Qwen Large Model Application Team, Alibaba(阿里巴巴 Qwen 大模型应用团队) ; Institute for Interdisciplinary Information Sciences, Tsinghua University(清华大学交叉信息学研究院)
AI总结 本文提出SiameseNorm,一种双流架构,通过共享残差块将预规范和后规范结合,从而在保持训练稳定性的同时提升模型性能,适用于多种架构和模态。
Comments Accepted to ICML 2026; camera-ready version; revised presentation and added additional experimental results
当共享知识有害:模型融合中的谱过积累
发表机构 * National Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210023, China.(新型软件技术国家重点实验室,南京大学,南京210023,中国。) ; Institute of Brain-Computer Interface, Nanjing University, Nanjing 210023, China.(脑机接口研究院,南京大学,南京210023,中国。)
AI总结 本文研究了模型融合中共享知识过积累的问题,提出SVC方法通过校准奇异值来恢复谱平衡,提升了模型融合和任务算术的性能。
Comments Accepted by ICML 2026
修复结构瓶颈:通过显式信息传输进行上下文压缩
发表机构 * King’s College London(伦敦国王学院) ; Tsinghua University(清华大学) ; Imperial College London(伦敦帝国学院) ; The Alan Turing Institute(艾伦·图灵研究所)
AI总结 本文通过从结构角度重新审视上下文压缩,识别出标准LLM压缩方法中的两个关键瓶颈,并提出ComprExIT框架,通过显式信息传输提升压缩效率,实验表明其在多个数据集上表现优异,提升了F1分数并降低了计算成本。
统一多种生成顺序及超越的掩码扩散模型
发表机构 * Graduate School of AI, KAIST, South Korea(韩国延世大学人工智能研究生院)
AI总结 本文提出Order-Expressive Masked Diffusion Model (OeMDM)和Learnable-Order Masked Diffusion Model (LoMDM),统一了不同生成顺序的扩散生成过程,并通过单目标学习生成顺序和扩散骨干,提升了文本生成性能。
Comments Accepted at ICML 2026
结构锚点剪枝:用于视觉文档检索的无训练多向量压缩
发表机构 * Aalto University(阿alto大学)
AI总结 本文提出结构锚点剪枝(SAP),一种无需训练的多向量压缩方法,通过保留评分、指导窗口选择和视觉入度中心性评分三个组件,在不进行模型参数调整的情况下,实现了超过90%的视觉token剪枝同时保持NDCG@5超过90%的性能。
Comments methodology revision and new title
在大语言模型RLVR训练中的线性动力学
发表机构 * Department of Data Science, City University of Hong Kong(香港城市大学数据科学系) ; Hong Kong Institute of AI for Science, City University of Hong Kong(香港城市大学人工智能科学研究院) ; Li Auto Inc. ; Beihang University(北航大学)
AI总结 本文研究了强化学习可验证奖励(RLVR)在大语言模型训练中的内部动态,发现RLVR在多种模型和训练配置下均进入线性区域,通过实验和理论分析证明这种线性特性源于训练信号的高方差和噪声,且具有预测性和实用性。
Comments Major revision: substantially reorganized the manuscript and added a theoretical explanation section. The replacement is intended for the same arXiv paper; the core topic and contribution remain the same
复杂系统中的亚指数增长动力学:一种用于新词汇和名称扩散的分段幂律模型
发表机构 * Department of Economics, Seijo University, Setagaya-ku, Tokyo 157-8511, Japan(早稻田大学经济学部) ; The Institute of Statistical Mathematics, Tachikawa-shi, Tokyo 190-8562,Japan(统计数学研究所)
AI总结 本文提出了一种分段幂律模型,用于描述复杂增长曲线,通过分析大规模数据集发现亚指数增长是社会扩散的常见模式。
MAP4TS: 一个用于基于大语言模型的时间序列预测的多方面提示框架
AI总结 本文提出MAP4TS框架,通过将经典时间序列分析融入提示设计,提升大语言模型在时间序列预测中的性能,实验表明其在多个数据集上均优于现有方法。
Comments There is a error in modeling. Thereafter, paper will be revised and re-uploaded
RAGCap-Bench: 评估代理检索增强生成系统中LLM能力的基准测试
发表机构 * National University of Singapore(新加坡国立大学) ; The Chinese University of Hong Kong(香港中文大学)
AI总结 本文提出RAGCap-Bench,用于评估代理检索增强生成系统中中间任务的细粒度能力,通过分析现有系统输出识别常见任务和核心能力,设计针对性评估问题,实验表明增强中间能力的模型能获得更好的整体性能。
通过世界模型的模拟推理实现通用代理规划
发表机构 * Institute of Foundation Models (IFM)(基础模型研究所) ; Carnegie Mellon University(卡内基梅隆大学) ; UC San Diego(南加州大学)
AI总结 本文提出通过模拟推理实现通用代理规划,利用世界模型进行未来状态预测,提升决策能力,通过SiRA架构在不同任务中取得更高任务完成率。
Comments Winner of Berkeley LLM Agents Hackathon (Fundamentals Track); code available at https://github.com/sailing-lab/sira
Optimus: 一种用于在微调对话AI时缓解毒性行为的稳健防御框架
发表机构 * University of Texas at San Antonio(德克萨斯大学圣安东尼奥分校)
AI总结 本研究提出Optimus框架,通过整合训练无关的毒性分类方案和双重策略对齐过程,有效缓解微调过程中的毒性问题,并在有毒性分类器偏差时仍能保持高召回率,优于现有最佳防御方法StarDSS。
Comments Accepted at ACM CODASPY 2026
评估LLM作为裁判的评分偏见
发表机构 * Ant Group(蚂蚁集团)
AI总结 本文研究了LLM作为裁判在评分任务中的偏见问题,提出了三种新的评分偏见类型,并开发了一个框架来量化这些偏见,以改进评分提示设计。
Comments Accepted by DASFAA 2026
加速测试时间缩放与模型无关的推测采样
发表机构 * KAIST(韩国科学技术院) ; Amazon AGI(亚马逊人工智能实验室) ; AirSignal
AI总结 本文提出STAND,一种无需模型的推测解码方法,通过利用推理轨迹中的冗余性,显著提升推理效率而不牺牲准确性,经多个模型和任务评估,STAND在保持准确性的同时将推理延迟降低了60-65%。
Comments EMNLP 2025 Oral
MTR-Bench:多轮推理评估的综合性基准
发表机构 * University of Science and Technology of China(中国科学技术大学) ; Alibaba Group(阿里巴巴集团) ; National University of Singapore(新加坡国立大学)
AI总结 本文提出MTR-Bench,一个包含4类、40个任务和3600个实例的综合性基准,用于评估大型语言模型的多轮推理能力,通过自动化框架实现大规模评估,并揭示了当前先进推理模型在多轮交互任务中的不足。
Comments ACL 2026 Main Conference
框入框出:衡量LLM生成新闻摘要中的框架偏差
发表机构 * Department of Computer Science University of Sheffield (UK)(计算机科学系谢菲尔德大学(英国))
AI总结 本文提出FIFO基准测试,用于衡量LLM生成的新闻摘要中的框架存在性,发现LLM生成的摘要在科学和公共卫生领域显示出较高的框架率,表明框架是摘要质量的一个被忽视但重要的维度。
Comments Accepted to The 15th Joint Conference on Lexical and Computational Semantics (*SEM 2026) co-located with ACL 2026
利用通用医疗基准评估大型语言模型的临床能力
发表机构 * The Sixth Affiliated Hospital of Sun Yat-sen University(中山大学第六附属医院) ; Guangdong Laboratory of Artificial Intelligence and Digital Economy (SZ)(广东省人工智能与数字经济发展实验室(深圳)) ; Xinyi People’s Hospital(新一人民医院) ; The Fifth Affiliated Hospital of Sun Yat-sen University(中山大学第五附属医院) ; School of Public Health of Sun Yat-sen University(中山大学公共卫生学院)
AI总结 本文提出了一种新的评估框架,通过通用医疗基准(GPBench)评估大型语言模型在医疗实践中的能力,发现当前LLM无法独立应用于临床医疗,需持续的人类监督。
你希望有一个AI导师吗?理解基于大语言模型的系统在课堂中的利益相关者观点
发表机构 * Khan Academy ; New York City Department of Education(纽约市教育部) ; Learning Innovation Catalyst(学习创新催化剂)
AI总结 本文研究了在课堂中部署基于大语言模型(LLM)系统的利益相关者观点,提出了一种以利益相关者为中心的框架,以支持更谨慎的决策。
ArabDiscrim: 一个十年的阿拉伯语Facebook语料库,涉及种族主义和歧视
发表机构 * Northwestern University in Qatar(卡塔尔西北大学) ; Carnegie Mellon University in Qatar(卡塔尔卡内基梅隆大学)
AI总结 本文提出了ArabDiscrim,一个包含293,000条阿拉伯语Facebook公开帖子的十年长的词料库(2014-2024年),用于研究种族主义和歧视。该语料库整合了平台原生的互动信号,如反应、分享、评论和页面元数据,支持语言和受众反应的联合分析。该资源包括200个精心挑选的术语(100个与种族主义相关,100个与歧视相关)以及20个歧视轴,捕捉基于身份的不平等对待。它还提供了显式的归属模式。ArabDiscrim在伦理合规的限制研究使用许可下发布,支持弱监督、轴感知采样和平台生态研究。通过连接词法深度和生态效度,它为公平导向、平台意识的阿拉伯语NLP建立了基础。
Comments Accepted at LREC 2026 Main Conference
从推理链到可验证子问题:课程强化学习使LLM推理能够进行信用分配
发表机构 * LeapLab, Tsinghua University(清华大学 LeapLab) ; Qiuzhen College, Tsinghua University(清华大学 旗正学院)
AI总结 该研究提出SCRL框架,通过从参考推理链中生成可验证子问题,解决LLM推理中信用分配问题,提升了在数学推理任务中的性能。
Faithful-MR1: 通过锚定和强化视觉注意力实现忠实的多模态推理
发表机构 * AMAP, Alibaba Group(阿里云实验室,阿里巴巴集团) ; University of Chinese Academy of Sciences(中国科学院大学) ; Tsinghua University(清华大学) ; Nanyang Technological University(南洋理工大学)
AI总结 本文提出Faithful-MR1框架,通过锚定和强化视觉注意力解决多模态推理中的忠实性问题,提升模型在多模态基准上的表现。
Comments 20 pages, 7 figures, 3 tables. Preprint
FlyRoute: 通过数据飞轮实现自进化代理配置以实现适应性任务路由
发表机构 * IT Innovation and Research Center, Huawei Technologies(华为技术有限公司信息技术创新与研究中心)
AI总结 本文提出FlyRoute,一种自进化配置框架,通过真实流量增长能力证据,提高适应性任务路由的性能。
Comments 13 pages, 5 figures, 5 tables
HyLoVQA: 动态超网络生成低秩适应用于连续视觉问答
发表机构 * School of Computer Science, Hubei University, Wuhan 430062, China(湖北大学计算机学院,武汉430062,中国) ; Hubei Key Laboratory of Big Data Intelligent Analysis and Application (Hubei University), Wuhan 430062, China(湖北省大数据智能分析与应用重点实验室(湖北大学),武汉430062,中国) ; Key Laboratory of Intelligent Sensing System and Security (Hubei University), Ministry of Education, Wuhan 430062, China(智能感知系统与安全重点实验室(湖北大学),教育部,武汉430062,中国)
AI总结 HyLoVQA通过动态超网络生成低秩适应,解决连续视觉问答中任务干扰问题,提升模型对当前任务和对象的适应能力。
Comments Accepted by IJCAI 2026
LatentOmni: 通过统一的音频-视觉潜在推理重新思考多模态理解
发表机构 * School of AI, Shanghai Jiao Tong University(上海交通大学人工智能学院) ; Kling Team, Kuaishou Technology(快手科技 Kling 团队) ; Peking University(北京大学) ; HKUST(香港科技大学) ; CASIA(中国科学院自动化研究所) ; Nanjing University(南京大学) ; Renmin University of China(中国人民大学) ; Tsinghua University(清华大学)
AI总结 本文提出LatentOmni框架,通过统一的音频-视觉潜在空间进行多模态推理,利用特征级监督和Omni-Sync Position Embedding保持时间一致性,从而在多个音频-视觉推理基准测试中取得最佳性能。
Comments 21 pages, 15 figures
幻觉作为承诺失败:更大的LLM在知道答案的情况下仍会出错
发表机构 * Graduate School of Data Science(数据科学研究生院) ; Department of Rural Systems Engineering(农村系统工程系) ; Electrical Engineering and Computer Science(电子工程与计算机科学) ; Department of Aerospace Engineering(航空航天工程系)
AI总结 本文研究了大型LLM在知道正确答案的情况下仍出现幻觉的现象,发现模型在生成答案时,正确概念的概率分布方式决定了幻觉的发生,而非是否包含正确概念。
从TF-IDF到Transformer:一种比较和集成的方法用于情感分类
发表机构 * School of Computer Engineering KIIT Deemed to be University(计算机工程学院 KIIT 被认定大学)
AI总结 本文比较了多种机器学习模型,包括Naive Bayes、逻辑回归、SVM、LightGBM、LSTM以及基于Transformer的RoBERTa和DistilBERT,旨在对电影评论进行情感分类,并发现RoBERTa在准确率上表现最佳,同时集成所有模型的软投票方法进一步提升了分类性能。
Comments 6 pages, 9 figures. This is the author's accepted manuscript, presented at the International Conference on Intelligent Computing, Networks and Security (IC-ICNS 2026), March 26-28, Bhubaneswar, India. Proceedings publication pending
守卫中的盲区:如何域伪装注入攻击在多智能体大语言模型系统中逃避检测
发表机构 * Data Science Institute(数据科学研究所) ; Columbia University(哥伦比亚大学)
AI总结 本文研究了在多智能体大语言模型系统中,域伪装注入攻击如何通过模仿目标文档的领域词汇和权威结构来逃避检测,揭示了检测器在静态和伪装负载之间的检测率差异(Camouflage Detection Gap, CDG),并展示了多智能体辩论架构对静态注入攻击的放大效应以及检测器增强的有限有效性。
Comments 8 pages, 3 figures, 2 tables. Submitted to EMNLP 2026 ARR cycle
Echo:通过用户驱动的细化学习经验数据
发表机构 * Core Contributors(核心贡献者) ; Qiang Lin is the team leader(Qiang Lin 是团队负责人)
AI总结 本文提出Echo框架,通过用户驱动的细化过程将原始经验数据转化为可学习的知识,提升模型性能,实验表明其能将接受率从25.7%提升至35.7%。
SpecHop:连续推测用于加速多跳检索代理
发表机构 * University of Maryland, College Park(马里兰大学学院公园分校)
AI总结 本文研究如何在不改变最终轨迹的情况下加速多跳工具使用过程,提出了一种连续推测框架SpecHop,通过维护多个推测线程和异步验证预测观测来减少延迟。
诊断并非处方:语言共适应解释了LLM流水线中的修补危害
发表机构 * KAIST (Korea Advanced Institute of Science and Technology)(韩国科学技术院) ; NAVER Corp.(NAVER公司)
AI总结 本文研究了多模块LLM代理失败时,诊断与修补之间的矛盾,发现路由模块虽为瓶颈,但注入修正示例反而降低性能,而修正查询重写模块则更有效,提出了语言合同假说解释这种现象。
Comments Preprint. Under review at EMNLP 2026 (ARR)
面向高风险医疗检索增强生成的声明选择性认证
发表机构 * Jinglue Technology Development (Nanjing) Co., Ltd.(Jinglue 技术发展(南京)有限公司)
AI总结 本文研究了高风险医疗问答场景中检索增强生成系统中声明选择性认证问题,通过将响应分解为可验证的声明并根据检索证据评分,结合意图感知选择器映射到{完整、部分、冲突、回避},在弱标签证书协议上实现了高准确率的认证结果。
Comments 22 pages, 7 figures, 11 tables
在大语言模型时代进行规划:构建可靠性与效率
AI总结 本文探讨了在大语言模型时代规划领域的发展,重点介绍了通过生成可验证的符号求解器来提高规划的可靠性和效率的方法。
Comments Published at ICAPS 2026
超图作为语言
发表机构 * Tsinghua University(清华大学) ; Yangtze Delta Region Institute(长江三角洲研究院) ; Shanghai Institute of Applied Mathematics and Mechanics(上海应用数学和力学研究所) ; State Key Laboratory of Human-Machine Hybrid Augmented Intelligence(人机混合增强智能国家重点实验室) ; National Engineering Research Center for Visual Information and Applications(视觉信息与应用国家工程研究中心) ; Institute of Artificial Intelligence and Robotics(人工智能与机器人研究所)
AI总结 本文提出了一种基于超图的语言模型对齐框架Hyper-Align,通过将超图结构转换为可被大语言模型理解的超图令牌,以更有效地处理高阶关联关系,从而在结构建模任务中取得显著优势。
基于几何适应的解释器:在分布偏移下字典基础可解释性的忠实性
发表机构 * Yonsei University(延世大学) ; Harvard University(哈佛大学)
AI总结 本文提出了一种几何适应解释器(GAE),用于在分布偏移下提高基于字典的可解释性。通过重新对齐解释器的字典与偏移活跃子空间,同时保持原始特征结构,GAE在无监督的情况下减少了分布偏移下的忠实性差距。
对比LLM和微调模型在不同提示复杂度下的NVDRS情境提取性能
发表机构 * Department of Population Health Sciences, Weill Cornell Medicine(人群健康科学系,威尔·康奈尔医学学院) ; Systems Engineering, Cornell University(系统工程,康奈尔大学)
AI总结 本文研究了在不同提示复杂度下,LLM与微调模型在NVDRS情境提取任务中的表现差异,提出了一种复杂度评分算法,并展示了一个混合方法,通过不同情境选择提示策略,发现LLM在低 prevalence 情境中表现更优,且框架能跨不同前沿LLM通用。
Comments Accepted at IEEE ICHI 2026
能量门控注意力:频谱显著性作为Transformer注意力的归纳偏置
发表机构 * Independent Researcher, Athens, Greece(雅典,希腊独立研究者)
AI总结 本文提出能量门控注意力(EGA),通过频谱显著性作为归纳偏置来改进Transformer注意力机制,通过在键嵌入的频谱能量上进行门控,提高了信息密集位置的注意力权重,实验结果显示在多个数据集上均取得显著效果。
Comments 12 pages, 4 figures
‘稍微’意味着‘ somewhat’吗?在LLM数值行为中测量模糊强度词
发表机构 * Georgia Institute of Technology(佐治亚理工学院)
AI总结 本文研究了语言模型在必须生成数值行为时是否保留强度词的顺序意义,发现模型在数值输出中压缩了模糊强度词,其解释依赖于状态并接近操作边界时出现不连续性。
Comments 9 figures, 2 tables, 16 references
当案例变得稀少时:一个用于偏离指南临床问答的检索基准
发表机构 * The Ohio State University(俄亥俄州立大学) ; The Ohio State University Wexner Medical Center(俄亥俄州立大学韦克斯纳医学中心) ; University of Chicago Medical Center(芝加哥大学医学中心)
AI总结 本文提出OGCaReBench基准,用于评估医疗问答中超越常规指南的开放性推理能力,通过检索医学文献提升模型在真实世界医疗场景中的表现。
Comments 34 pages, 20 figures
为何语义熵失效:面向策略优化的几何感知与校准不确定性
发表机构 * University of Notre Dame(诺丁汉大学)
AI总结 本文提出了一种新的策略优化框架GCPO,通过几何感知措施捕捉语义分歧,并利用基于奖励的校准对齐不确定性与学习信号强度,从而更准确地跟踪梯度变化并提升训练后性能。
MM-Conv: 一种多模态数据集和基准,用于上下文感知的3D对话中指代解析
发表机构 * KTH Royal Institute of Technology(皇家理工学院)
AI总结 本文提出了一种多模态数据集和基准,用于在动态3D环境中实现上下文感知的指代解析,通过引入包含6.7小时第一人称VR交互的同步语音、动作、注视和3D场景几何数据的基准,以及一个两阶段的指代解析流水线,改进了对话中的指代解析性能。
Comments Extended version of the paper published at LREC 2026 (Palma de Mallorca, Spain), with expanded VLM baselines and inter-annotator agreement analysis
残差技能优化用于文本到SQL集成
发表机构 * University of California, San Diego(加州大学圣地亚哥分校) ; Snowflake AI Research(Snowflake人工智能研究)
AI总结 本文提出DivSkill-SQL,一种残差技能优化框架,通过在当前技能集成失败的示例上优化新技能,从而构建互补的文本到SQL集成,提升Pass@K性能,在Spider2-Lite上实现了显著的准确性提升,同时在不同方言和任务上表现出一致的改进。
通过语言模型功能调用实现反思式提示调优
发表机构 * Megagon Labs(梅加穹实验室)
AI总结 本文提出了一种名为Reflective Prompt Tuning (RPT)的框架,利用语言模型功能调用模拟人类提示工程师的迭代工作流程,通过诊断函数评估目标模型,生成结构化诊断报告,并利用历史报告优化提示,从而提升提示效果和置信度校准。
Comments 17 pages, 6 figures
PromptNCE:仅使用LLM和对比估计提示进行点互信息预测
发表机构 * Department of Computer Science Stanford University(计算机科学系 斯坦福大学)
AI总结 本文提出PromptNCE方法,通过将条件概率估计转化为对比任务,并引入显式的OTHER类别来恢复真实的条件概率,从而在低数据情况下实现零样本点互信息估计。
RankJudge: 一个多轮LLM-as-a-Judge合成基准生成器
发表机构 * Layer 6 AI
AI总结 本文提出RankJudge,一种用于评估LLM作为评判者在多轮对话中表现的合成基准生成器,通过生成带有单个缺陷的对话对,实现对评判准确性的严格评估,并通过领域覆盖和21个前沿LLM评判者评估,验证了评判排名的稳定性。
BEiTScore: 一种基于高效交叉编码器的无参考图像描述评估方法
发表机构 * Instituto Superior Técnico(里斯本大学理工学院) ; INESC-ID ; Instituto de Telecomunicações(电信机构)
AI总结 本文提出了一种无参考图像描述评估方法BEiTScore,通过高效的交叉编码器模型解决传统评估方法在计算成本和敏感性方面的不足,提出了一种新的评估指标,并在多种场景下验证了其优越的性能。
基于概率的大型语言模型归因
发表机构 * Argonne Leadership Computing Facility(阿贡领导计算设施) ; Argonne National Laboratory(阿贡国家实验室) ; Mathematics and Computer Science Division(数学与计算机科学 division) ; Department of Computer Science(计算机科学系)
AI总结 本文提出了一种模型无关的概率性token归因度量,通过贝叶斯法则反向计算下一个token的对数概率,以捕捉模型对token序列分布的内部表示,从而提高大型语言模型的可解释性。
Comments 29 pages, 13 figures
Sem-Detect:基于语义层面的AI生成同行评审检测
发表机构 * Language Technologies Institute, Carnegie Mellon University(卡内基梅隆大学语言技术研究所)
AI总结 本文提出Sem-Detect方法,通过结合文本特征和语义分析,区分AI生成与人类撰写的同行评审,实验表明其在二分类和三分类场景下均表现出色,准确率显著提升。
通过生成式AI拓宽交通安全管理数据的可及性:一种基于模式的时空自然语言查询框架
发表机构 * Department of Civil and Environmental Engineering, University of Massachusetts Amherst(麻省大学阿姆赫斯特分校土木与环境工程系)
AI总结 本文提出了一种基于模式的自然语言接口,利用大型语言模型解释用户意图,同时保持确定性和可审查的执行,以解决交通安全管理数据访问不均的问题,通过整合事故记录、道路属性和地理空间数据,提升公共部门的安全规划能力。
Comments 30 pages, 5 figures
X-Token: 通过投影引导的跨分词器知识蒸馏
发表机构 * NVIDIA
AI总结 本文提出X-Token,一种通过投影引导的跨分词器知识蒸馏方法,解决传统方法在处理不同分词器间知识迁移时的不足,通过两个互补的损失函数改进知识蒸馏效果。
强化学习中大语言模型的价值-梯度假说
发表机构 * MBZUAI(穆斯林人工智能研究所)
AI总结 本文提出了一种价值-梯度视角来解释无评论强化学习方法在大语言模型后训练中的有效性,并通过分析actor更新和注意力机制中的自适应微分,提出了价值梯度信号和可达奖励空间的分解方法。
放大而非学习:微调的AI文本检测器放大了预训练的方向
发表机构 * University College London(伦敦大学学院)
AI总结 该研究探讨了通过微调AI文本检测器来放大预训练方向而非学习AI与人类边界的问题,发现微调在某些情况下会降低辨别能力,但在非母语写作中表现不同,并展示了闭合形式雅可比预测器在不同架构中的有效性。
EntmaxKV: 基于支持的解码方法用于Entmax注意力
发表机构 * Instituto Superior Técnico, Universidade de Lisboa(里斯本大学理工学院) ; ELLIS Unit Lisbon(里斯本ELLIS单位) ; INESC-ID ; Instituto de Telecomunicações(电信研究所)
AI总结 本文提出EntmaxKV,一种基于支持的解码框架,利用熵最大注意力的稀疏性在KV页面加载前进行稀疏解码,通过查询感知的页面评分、支持感知的候选选择和稀疏熵最大注意力,减少概率质量丢失,提高长上下文语言模型的效率。
Flat-Pack Bench: 通过家具组装评估大视觉-语言模型的时空理解
发表机构 * Cornell University(康奈尔大学) ; Cornell Tech(康奈尔科技) ; MBZUAI(麦吉尔-伯克利-浙江大学人工智能研究院) ; UC Berkeley(伯克利大学)
AI总结 本文提出Flat-Pack Bench基准,用于评估大视觉-语言模型在复杂视频场景中的时空理解能力,发现当前模型在细粒度时空推理上存在显著不足。
Comments CVPR 2026
CR4T:基于重写的青少年LLM安全机制
发表机构 * Virginia Tech(弗吉尼亚理工大学)
AI总结 本文提出CR4T框架,通过选择性响应重构替代拒绝导向的安全机制,以更符合青少年发展需求的方式提升LLM的安全性。
从参数到数据:一种任务参数引导的微调流水线用于高效的LLM对齐
发表机构 * Zhejiang University(浙江大学) ; Eastern Institute of Technology(东部技术研究所)
AI总结 本研究提出了一种任务参数引导的微调流水线,通过任务敏感的注意力头作为双指南,实现样本挖掘和结构剪枝,从而提高LLM对齐的效率。
Comments Accepted@ICML26, 28 pages, 11 figures, 26 tables
在跨平台社交媒体讨论中检测合成政治叙述
发表机构 * Institute of Computer Science, Foundation for Research and Technology(计算机科学研究所,希腊研究与技术基金会) ; Technical University of Crete(希腊克里特技术大学)
AI总结 本文提出了一种跨平台框架,通过四个协调信号(词汇多样性、时间爆发性、修辞重复和语义同质性)组合成合成叙述协调评分SNC(C),以检测合成政治叙述,研究发现IntelSlava在四个事件窗口中排名第一,而Rybar尽管语义同质性高但因语言差异导致表现不佳。
HealthCraft: 一种用于急救医学的强化学习安全环境
发表机构 * GOATnote Inc.(GOATnote公司)
AI总结 本文提出HealthCraft,首个公开的强化学习环境,用于在真实急救医学条件下奖励轨迹级安全,通过FHIR R4世界状态、24个MCP工具和双层评估标准,评估模型在急救任务中的安全性和性能,揭示了模型在多步骤工作流中的安全失败问题。
Comments 16 pages, 5 figures, 6 tables. Code, task suite, and Docker bundle: https://github.com/GOATnote-Inc/healthcraft
通过比较想法评估教授语言模型预测研究成功的技巧
发表机构 * IISER Pune(印度理工学院帕内尔)
AI总结 本研究探讨了语言模型能否在无需实验的情况下预测研究想法的实证成功,通过构建基于PapersWithCode客观结果的11488对想法数据集,发现通过强化学习可提升模型性能至71.35%,证明小型语言模型可以作为有效的客观验证器,为自主科学发现提供可扩展路径。
Comments ACL 2026 Findings
通用偏好强化学习
发表机构 * Stanford University(斯坦福大学) ; The University of Oklahoma(俄克拉荷马大学)
AI总结 本文提出通用偏好强化学习(GPRL),通过引入通用偏好模型(GPM)解决传统强化学习在开放任务中连续探索不足的问题,通过多维偏好比较提升模型性能。
通过语义层面奖励校准大型语言模型
发表机构 * Department of Computer Science and Engineering, University of California San Diego, La Jolla, California, USA(加州大学圣地亚哥分校计算机科学与工程系,拉贾尔,加利福尼亚州,美国) ; Halıcıoğlu Data Science Institute, University of California San Diego, La Jolla, California, USA(加州大学圣地亚哥分校Halıcıoğlu数据科学研究所,拉贾尔,加利福尼亚州,美国) ; Department of Statistics, Stanford University, Stanford, California, USA(斯坦福大学统计学系,斯坦福,加利福尼亚州,美国)
AI总结 本文提出了一种新的校准框架CSR,通过在语义空间中直接校准语言模型,避免了传统方法中因词汇化置信度导致的不一致问题,实验显示CSR在多个数据集上均能有效降低ECE并提高AUROC。
DocAtlas: 跨80多种语言的多语言文档理解
发表机构 * MBZUAI(穆罕默德·本·拉谢德人工智能研究所) ; IBM Research(IBM研究院)
AI总结 本文提出DocAtlas框架,通过构建高保真的OCR数据集和基准测试,覆盖82种语言和9个评估任务,利用双重管道生成精确的结构注解,展示了直接偏好优化在多语言适应中的有效性,提升了领域内和领域外的准确率。
Comments Under submission
LLM Agents Already Know When to Call Tools -- Even Without Reasoning
发表机构 * University of California, San Diego(加州大学圣地亚哥分校)
AI总结 本文提出When2Tool基准,通过18个环境研究工具调用的必要性,发现模型已能识别何时需要调用工具,但生成时未能有效利用此知识,提出Probe&Prefill方法显著减少工具调用。
鲁棒推理基准
发表机构 * University of Toronto(多伦多大学) ; Vector Institute(向量研究所)
AI总结 本研究提出鲁棒推理基准(RRB),通过13种确定性文本扰动评估8种前沿模型,发现Claude在面对变换提示时表现出异常拒绝行为,而开放权重模型在结构噪声下出现多种失败模式,如认知冲刷、分词崩溃和推理崩溃,导致平均准确率下降高达54%。研究进一步发现由模型自身推理链引起的注意力稀释问题,并提出Intra-Query Attention Dilution概念,表明中间推理步骤会污染标准密集注意力机制,未来架构需整合显式上下文重置以实现可靠推理。
超越基准岛屿:面向代理AI的代表性可信度评估
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; Macao Polytechnic University(澳门理工学院) ; Jilin University(吉林大学)
AI总结 本文提出了一种基于五属性的代理可信度定义,并引入了Holographic Agent Assessment Framework(HAAF)框架,通过场景 manifold 的静态策略分析、沙盒模拟、社会伦理对齐评估和分布感知采样,实现对代理系统在社会技术场景中的可信度评估,展示了其在13个模型家族上的跨家族迁移实验结果。
Comments 9 pages, 3 figures, 8 tables. Submitted to the Agent4IR Workshop at KDD 2026
InnerQ: 一种面向硬件的无需调优的KV缓存量化方法用于大语言模型
发表机构 * Department of Electrical and Computer Engineering(电气与计算机工程系)
AI总结 本文提出InnerQ,一种面向硬件的KV缓存量化方法,旨在减少解码延迟而不影响评估性能,通过分组量化策略提高数据重用率,从而在Llama和Mistral模型上提升了少样本评估得分。
Comments 18 pages, 5 figures, 7 tables
非自回归生成的离散随机定位
发表机构 * University of California Riverside(加州大学河滨分校) ; New York University(纽约大学)
AI总结 本文提出了一种名为离散随机定位(DSL)的连续状态框架,通过单位球体令牌嵌入实现最优去噪,从而在离散序列生成中提升分布忠实度,并展示了其在OpenWebText上的有效性。
发现隐式大语言模型对齐目标
发表机构 * Stanford University(斯坦福大学)
AI总结 本文提出Obj-Disco框架,通过自动分解对齐奖励信号为可解释的目标,解决现有方法的不足,验证了框架在多种任务和模型上的鲁棒性,并发现潜在的对齐偏差。
Comments ICML 2026
基于训练轨迹的token选择
发表机构 * Zhejiang University(浙江大学) ; Hong Kong University of Science and Technology(香港科技大学)
AI总结 本文提出T3S方法,通过在token层面重构训练目标,清除未学习token的优化路径,从而在连续蒸馏中提升性能,实验表明在AR和dLLM设置中均取得显著效果。
Comments Accepted by ICML 2026
对Whisper-small的量化:设计选择如何影响语音识别性能
发表机构 * Copenhagen Business School(哥本哈根商学院) ; Danske Bank(丹麦银行) ; Jabra (GN Group)(Jabra(GN集团))
AI总结 本文研究了不同量化方案对Whisper-small模型性能的影响,发现动态int8量化在模型压缩和识别准确率之间取得了最佳平衡,同时展示了通过精心选择量化方法可以显著减少模型大小和推理成本,从而在受限硬件上实现高效部署。
Comments Accepted to SPEAKABLE workshop at LREC 2026
每瓦智能:衡量本地AI的智能效率
发表机构 * Stanford University(斯坦福大学) ; Together AI
AI总结 本文研究了本地AI在能源效率和性能上的表现,提出了一种统一的衡量指标IPW,展示了本地推理在重新分配需求方面的能力,并揭示了本地加速器的优化潜力。
LightReasoner: 小型语言模型能否教会大型语言模型推理?
发表机构 * University of Hong Kong(香港大学) ; University of Chicago(芝加哥大学)
AI总结 本文提出LightReasoner框架,通过利用强专家模型与弱业余模型之间的行为差异,发现高价值推理时刻,从而提升大型语言模型的推理能力,同时减少资源消耗。
Comments Updated to ACL 2026 camera-ready version with improved method presentation, expanded related work discussion, additional analyses, and presentation refinements
用于问答任务的实体链接代理
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; McGill University(麦吉尔大学) ; Mila - Quebec AI Institute(魁北克AI研究院) ; Huawei Noah’s Ark Lab(华为诺亚实验室)
AI总结 本文提出了一种基于大语言模型的实体链接代理,用于解决问答任务中短且模糊用户问题的实体链接问题,通过两个实验验证了其有效性。
Comments 12 pages, 2 figures
STRUCTSENSE:一种任务无关的代理框架,用于结构化信息提取,具有人机协同评估和基准测试
发表机构 * McGovern Institute for Brain Research, Massachusetts Institute of Technology, Cambridge, MA, USA(麦戈文脑科学研究所,麻省理工学院,马萨诸塞州剑桥市) ; Fylo Labs Inc., New York, NY, USA(Fylo实验室公司,纽约州纽约市) ; Allen Institute for Brain Science, Seattle, WA, USA(艾伦脑科学研究所,华盛顿州西雅图市)
AI总结 本文提出STRUCTSENSE框架,通过整合本体引导的符号知识、代理自我评估细化和人机协同验证,实现了结构化信息提取的鲁棒性,并在三个领域展示了其跨任务泛化能力。
Comments -
NaviAgent: 一种基于图的双层规划用于可扩展的工具编排
发表机构 * Department of Electrical and Computer Engineering, The Ohio State University, USA(电气与计算机工程系,俄亥俄州立大学,美国)
AI总结 本文提出NaviAgent,一种基于图的双层规划框架,通过解耦任务规划与工具执行,提升大规模工具编排的可扩展性和鲁棒性,实验表明其在任务成功率和实际应用中表现优异。
Comments Accepted to ICML 2026
内部叙事参数化情感状态
发表机构 * Applied Computational Psychiatry Lab(应用计算精神病学实验室) ; Max Planck UCL Centre for Computational Psychiatry and Ageing Research(马克斯·普朗克UCL计算精神病学与衰老研究中心) ; Queen Square Institute of Neurology and Mental Health(圣夸克广场神经病学与心理健康研究所) ; Neuroscience Department(神经科学系) ; Division of Psychiatry(精神病学系)
AI总结 本文通过量化参与者内部叙事的大语言模型表示及其子空间,研究了叙事与情感状态之间的关系,发现特定症状的描述性思维能够预测标准化的抑郁评分,并强调保持症状间的协方差对构建效度至关重要。
ImProver:基于代理的自动证明优化
发表机构 * Carnegie Mellon University(卡内基梅隆大学)
AI总结 本文研究了自动证明优化问题,提出ImProver这一基于大语言模型的代理,用于重写证明以优化长度、可读性等任意标准,实验表明其能显著缩短证明并提高其模块化和可读性。
Comments Published as a conference paper at ICLR 2025
提升教学质量:利用计算机辅助文本分析从教育资料中生成深入见解
发表机构 * University of Washington(华盛顿大学) ; University of Maryland(马里兰大学)
AI总结 本文探讨了计算机辅助文本分析在通过教育资料的深入分析提升教学质量的变革潜力,结合Richard Elmore的Instructional Core Framework,分析AI和机器学习方法,特别是自然语言处理(NLP),如何分析教育内容、教师话语和学生回答以促进教学改进,并指出AI/ML在教师指导、学生支持和内容开发中的关键优势。
解码新闻叙述:对大型语言模型在框架检测中的关键分析
AI总结 本文研究了大型语言模型在框架检测中的应用,分析了不同模型在零样本、少样本和解释性提示设置下的表现,指出模型性能对提示设计敏感且易在模糊案例中出现系统性错误,并提出了一种新的跨领域新闻标题数据集以提高评估的现实性。
增强大语言模型中的因果推理:一种用于精确微调的因果归因模型
发表机构 * University of California, Irvine(加州大学尔湾分校) ; North Carolina State University(北卡罗来纳州立大学) ; Amazon(亚马逊公司)
AI总结 本文提出一种因果归因模型,通过精确微调提升大语言模型的可解释性和因果推理能力,展示了模型在不同领域中的因果发现任务中的有效性。
Comments A Python implementation of our proposed method is available at https://github.com/ncsulsj/Causal_LLM
通过灵活的术语定义实现语境变化的表示
AI总结 本文研究了如何通过灵活的术语定义来反映环境领域中专业概念在不同语境下的变化,提出了灵活的术语定义方法,并通过实证研究分析了语境变化对术语定义的影响。
Comments PhD Thesis. in Spanish. University of Granada. 2016