arXivDaily arXiv每日学术速递 周一至周五更新

AI 大模型

语言大模型 / LLM

大语言模型、预训练、指令微调、后训练和语言模型应用。

今日/当前日期收录 83 信号源:cs.CL, cs.AI, cs.LG
2606.20493 2026-06-19 cs.LG cs.AI cs.MA 新提交 专题 85

Contagion Networks: Evaluator Bias Propagation in Multi-Agent LLM Systems

传染网络:多智能体LLM系统中的评估者偏见传播

Zewen Liu

专题命中 其他LLM :研究多智能体LLM系统中评估者偏见传播

AI总结 提出传染网络框架,量化评估者偏见在多智能体LLM系统中的传播,发现同模型智能体间偏见传播系数为0.157-0.352,且增大评估委员会规模可减少72.4%的传播效应。

Comments 20 pages, 4 figures, 4 tables

2606.19746 2026-06-19 cs.DC 新提交 专题 85

SAC: Disaggregated KV Cache System for Sparse Attention LLMs with CXL

SAC: 面向稀疏注意力LLM的基于CXL的解耦KV缓存系统

Ruiyang Ma, Teng Ma, Junru Li, Hantian Zha, Xuchun Shang, Qingda Hu, Zheng Liu, Xinjun Yang, Tao Ma, Guojie Luo

专题命中 其他LLM :提出面向稀疏注意力LLM的解耦KV缓存系统SAC,优化长上下文推理性能。

AI总结 针对稀疏注意力模型在长上下文推理中全量KV缓存传输导致的瓶颈,提出基于CXL按需获取top-k KV条目的解耦缓存系统SAC,相比RDMA方案吞吐提升2.1倍、TTFT降低9.7倍。

2606.19605 2026-06-19 cs.SE cs.AI 新提交 专题 85

FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines

FAPO:多步骤LLM流水线的全自动提示优化

Paul Kassianik, Baturay Saglam, Huaibo Zhao, Blaine Nelson, Supriti Vijay, Aman Priyanshu, Amin Karbasi

专题命中 其他LLM :提出FAPO框架自动优化多步LLM流水线的提示和链结构

AI总结 提出FAPO框架,通过自动诊断流水线瓶颈并迭代优化提示或链结构,在18个模型-基准比较中15次优于基线GEPA,平均提升14.1个百分点。

2606.19475 2026-06-19 cs.AI cs.CL 新提交 专题 85

Diffusion Language Models: An Experimental Analysis

扩散语言模型:一项实验分析

Thomas Bertolani, Davide Bucciarelli, Leonardo Zini, Marcella Cornia, Lorenzo Baraldi

专题命中 其他LLM :系统比较扩散语言模型在多种任务上的表现。

AI总结 本文系统比较了八种扩散语言模型在推理、编码、翻译等任务上的表现,分析了去噪步数、上下文长度等推理因素对性能与效率的影响,揭示了扩散语言模型在不同任务和预算下的权衡。

2606.19351 2026-06-19 cs.CL cs.AI 新提交 专题 85

Detecting Hallucinations for Large Language Model-based Knowledge Graph Reasoning

基于大语言模型的知识图谱推理中的幻觉检测

Xinyan Zhu, Yaoqi Liu, Yue Gao, Huadong Ma, Cheng Yang, Chuan Shi

专题命中 其他LLM :检测LLM在知识图谱推理中的幻觉

AI总结 提出LUCID方法,结合LLM注意力分数、知识图谱语义和结构信息,利用图神经网络检测LLM在知识图谱推理中的幻觉,在九个数据集上达到最优性能。

2606.17165 2026-06-19 stat.ME cs.AI econ.EM math.ST stat.TH 新提交 专题 85

Statistical Foundations of LLM-based A/B Testing: A Surrogacy Framework for Human Causal Inference

基于LLM的A/B测试的统计基础:用于人类因果推断的替代指标框架

Joel Persson, Mårten Schultzberg, Sebastian Ankargren

专题命中 其他LLM :提出LLM替代人类进行A/B测试的统计框架

AI总结 提出替代指标理论框架,证明在弱于分布等价条件下,校准LLM输出可识别平均处理效应,并分析随机性带来的偏差与方差。

2606.07822 2026-06-19 cs.CL cs.AI cs.LG 新提交 专题 85

The ACUTE Protocol: Operationalizing Language Model Activations for Better Calibration, Utility, and Trust

ACUTE协议:操作语言模型激活以实现更好的校准、效用和信任

Nishant Subramani, Palash Goyal, Yiwen Song, Mani Malek, Yuan Xue, Tomas Pfister, Hamid Palangi

专题命中 其他LLM :提出激活置信度估计协议,提升校准与信任

AI总结 提出ACUTE协议,通过操作语言模型激活来估计置信度,平衡校准与信息性,在多项选择问答、工具调用和科学文档摘要等任务上优于强基线,提升校准、效用和可信度。

Comments ICML 2026

2512.06899 2026-06-19 cs.CR 版本更新 专题 85

Patronus: Identifying and Mitigating Transferable Backdoors in Pre-trained Language Models

Patronus: 识别和缓解预训练语言模型中的可迁移后门

Tianhang Zhao, Haodong Zhao, Wei Du, Pengzhou Cheng, Junxian Li, Sufeng Duan, Haojin Zhu, Gongshen Liu

专题命中 其他LLM :针对预训练语言模型后门攻击的防御框架,涉及LLM安全。

AI总结 针对预训练语言模型供应链中可迁移后门的安全威胁,提出Patronus防御框架,通过输入侧不变性检测和双阶段缓解策略,在15个模型和9个任务上实现≥98.3%后门检测召回率。

Comments Work in progress

2606.20517 2026-06-19 cs.AI cs.PL 新提交 专题 80

Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

Multi-LCB: 将 LiveCodeBench 扩展到多种编程语言

Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev

专题命中 其他LLM :评估LLM跨语言代码生成能力,涉及预训练模型

AI总结 提出 Multi-LCB 基准,将 LiveCodeBench 的 Python 任务扩展到 12 种编程语言,评估 LLM 跨语言代码生成能力,发现 Python 过拟合和语言特定污染等问题。

Comments ICLR 2026

2606.20245 2026-06-19 cs.AI 新提交 专题 80

Navigating Unreliable Parametric and Contextual Knowledge: Explicit Knowledge Conflict Resolution for LLM Inference

导航不可靠的参数化与上下文知识:面向LLM推理的显式知识冲突解决

Huang Peng, Jiuyang Tang, Weixin Zeng, Hao Xu, Xiang Zhao

专题命中 其他LLM :解决LLM参数知识与上下文冲突

AI总结 提出MACR框架,通过自适应知识评估与多智能体推理,显式解决大语言模型内部参数知识与外部上下文之间的冲突,超越传统二元选择范式。

Comments 12 pages, 3 figures

2606.20152 2026-06-19 cs.CL cs.AI 新提交 专题 80

From Texts to Scores: Tracing the Emergence of Essay Quality Representations in Large Language Models

从文本到分数:追踪大型语言模型中作文质量表征的出现

Jiaxu Zuo, Mu You, Kaixin Lan, Tao Fang, Yujia Huo, Henghua Shen, Lidia S. Chao, Derek F. Wong

专题命中 其他LLM :分析LLM内部表征用于自动作文评分。

AI总结 通过线性探测等方法分析8个LLM在三个数据集上的隐藏表征,发现作文质量信息以线性可解码形式存在,并识别出与分数相关的神经元,揭示了LLM评分的内在机制。

Comments This is a preprint of a manuscript currently under peer review

2606.19868 2026-06-19 cs.AI 新提交 专题 80

A Systematic Evaluation of Black-Box Uncertainty Estimation Methods for Large Language Models

大型语言模型黑盒不确定性估计方法的系统评估

Jiayi Wang, Xu-Yao Zhang

专题命中 其他LLM :系统评估LLM黑盒不确定性估计方法。

AI总结 系统评估了24种黑盒不确定性估计方法在4个模型和4个数据集上的表现,发现无单一方法普遍最优,但基于答案空间推理和比较的方法通常有效,混合方法在多数条件下表现良好。

2606.19735 2026-06-19 cs.AI cs.CV 新提交 专题 80

GLARE: A Natural Language Interface for Querying Global Explanations

GLARE: 用于查询全局解释的自然语言接口

Bhavan Vasu, Rajesh Mangannavar

专题命中 其他LLM :基于LLM的接口将自然语言转换为SQL查询。

AI总结 提出基于LLM的交互接口GLARE,将自然语言问题转换为SQL查询以聚合局部解释数据,提升全局解释的可访问性和可用性。

Comments 16 pages, 2 figures

2606.19727 2026-06-19 cs.CL cs.AI 新提交 专题 80

NRITYAM: Language Models Meet Art and Heritage of Dance

NRITYAM:语言模型遇见舞蹈的艺术与遗产

Punit Kumar Singh, Niladri Ghosh, Advait Joshiınst, Shailee Choudhary, Michael Färber, Haiqin Yang

专题命中 其他LLM :评估语言模型对全球舞蹈文化的理解能力。

AI总结 提出NRITYAM基准,包含9,260个跨12语言的文化问答对,评估语言模型对全球舞蹈传统的文化理解能力,涵盖多种模型类型。

Comments 18 pages, 12 figures, in ECML_PKDD'26

2606.19698 2026-06-19 cs.CL 新提交 专题 80

What sentiment analysis can't see: Measuring whether customers were helped, and what went wrong, across 70,000 support conversations

情感分析看不到的:衡量客户是否得到帮助以及出了什么问题——基于70,000次客服对话

Jason Potteiger

专题命中 其他LLM :使用GPT-5.4估计客户满意度并标记问题。

AI总结 本研究使用GPT-5.4从70,450次客服对话中估计客户满意度并标记具体问题,发现满意度估计比情感分析更准确,且能揭示情感分析无法捕捉的客户状态和问题原因。

Comments 25 pages, 6 figures

2606.19668 2026-06-19 cs.CL 新提交 专题 80

Code-Switching Reveals Language Anchoring in Multilingual LLMs

代码切换揭示多语言大模型中的语言锚定

Jeonghyun Park, Seunghyun Yoon, Yonghyun Jun, Hwanhee Lee

专题命中 其他LLM :研究多语言大模型中的代码切换和语言锚定现象

AI总结 通过语法强制代码切换诊断多语言大模型中的语言锚定现象,提出锚定偏差度量并设计CANVAS干预方法,有效缓解代码切换导致的问答性能下降。

Comments 36 pages, 13 figures, 27 tables

2606.19353 2026-06-19 cs.CL cs.LG 新提交 专题 80

Quantifying Aleatoric Uncertainty of In-Context Learning for Robust Measure of LLM Prediction Confidence

量化上下文学习中的偶然不确定性以稳健衡量LLM预测置信度

Jinseok Chung, Minkyoung Song, Hyunji Jung, Namhoon Lee

专题命中 其他LLM :量化上下文学习中的不确定性,提升置信度

AI总结 针对上下文学习(ICL)中预测对提示设计敏感的问题,提出基于贝叶斯观点和机制可解释性的自函数向量,直接估计偶然不确定性,并设计严格评估协议,在合成和真实数据集上验证了方法的可靠性及在幻觉检测等应用中的实用性。

Comments Accepted to ACL 2026

2606.19349 2026-06-19 cs.CL cs.AI 新提交 专题 80

Where to Place the Query? Unveiling and Mitigating Positional Bias in In-Context Learning for Diffusion LLMs via Decoding Dynamics

查询应置于何处?通过解码动力学揭示并缓解扩散大语言模型中上下文学习的位置偏差

Zhengheng Li, Panrui Li, Xuyang Liu, Puzhi Xia

专题命中 其他LLM :研究扩散LLM中上下文学习的位置偏差

AI总结 本文系统分析了扩散大语言模型中查询位置对生成质量的影响,发现其与示例语义质量同等重要,并提出基于平均置信度的无训练自适应路由策略Auto-ICL以优化查询放置。

Comments 9 figures, 4 tables

2606.19346 2026-06-19 cs.CL cs.AI 新提交 专题 80

Disentangling Linguistic Relatedness from Task Alignment in Cross-Lingual Transfer

跨语言迁移中语言相关性与任务对齐的解耦

Ahmed Haj Ahmed, Ruochen Zhang, Alvin Grissom

专题命中 其他LLM :跨语言迁移中任务对齐与语言相关性解耦

AI总结 通过微调大语言模型并在闪语族与非闪语族语言上评估零样本阅读理解,发现跨语言迁移主要提升任务格式对齐而非语言特定知识。

2603.25702 2026-06-19 cs.CL 版本更新 专题 80

S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation

S2D2:通过免训练自我推测实现扩散LLM的快速解码

Ligong Han, Hao Wang, Han Gao, Kai Xu, Akash Srivastava

专题命中 其他LLM :扩散LLM解码加速,属于语言模型方法

AI总结 提出S2D2,一种免训练的自我推测解码框架,通过将块扩散模型在块大小为1时变为自回归模型,实现草稿与验证角色复用,在不增加训练或测试计算下提升解码速度与准确性。

Comments Code is available at https://github.com/phymhan/S2D2

2603.16606 2026-06-19 cs.CL 版本更新 专题 80

Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech

Omnilingual SONAR:跨语言与跨模态句子嵌入,连接大规模多语言文本与语音

Omnilingual SONAR Team, João Maria Janeiro, Pere-Lluís Huguet Cabot, Ioannis Tsiamas, Yen Meng, Vivek Iyer, Guillem Ramírez, Loic Barrault, Belen Alastruey, Xiang "Tony" Cao, Yu-An Chung, Marta R. Costa-Jussa, David Dale, Kevin Heffernan, Jaehyeong Jo, Artyom Kozhevnikov, Alexandre Mourachko, Christophe Ropers, Holger Schwenk, Paul-Ambroise Duquenne

专题命中 其他LLM :跨语言跨模态句子嵌入模型

AI总结 提出OmniSONAR模型,通过渐进式训练和教师-学生蒸馏,在数千种语言上实现文本、语音、代码和数学表达式的统一语义嵌入,在跨语言检索和翻译任务上显著降低错误率,并支持零样本语音翻译。

2512.03818 2026-06-19 cs.CL 版本更新 专题 80

Improving Alignment Between Human and Machine Codes: An Empirical Assessment of Prompt Engineering for Construct Identification in Psychology

改善人机编码对齐:心理学构念识别中提示工程的实证评估

Kylie L. Anglin, Stephanie Milan, Brittney Hernandez, Claudia Ventura

专题命中 其他LLM :优化LLM在心理学文本中识别构念的提示工程。

AI总结 本研究提出一个实证框架,通过提示工程优化大语言模型在心理学文本中识别构念的性能。实验评估五种提示策略,发现构念定义和任务框架最关键,结合代码簿引导和自动提示工程的少样本方法最接近专家判断。

Comments 22 pages, 2 figures

2606.20560 2026-06-19 cs.LG cs.AI 新提交 专题 75

How Transparent is DiffusionGemma?

DiffusionGemma 的透明度如何?

Joshua Engels, Callum McDougall, Bilal Chughtai, Janos Kramar, Senthoran Rajamanoharan, Cindy Wu, Arthur Conmy, Asic Q Chen, Jean Tarbouriech, Min Ma, Brendan O'Donoghue, João Gabriel Lopes de Oliveira, Rohin Shah, Neel Nanda

专题命中 其他LLM :研究DiffusionGemma推理透明度

AI总结 研究DiffusionGemma在连续潜空间中的推理透明度,通过变量透明度和算法透明度分解,发现可解释的令牌瓶颈将不透明串行深度降至Gemma 4的1.1倍,并揭示扩散特有现象。

Comments 20 main text pages and 6 pages of references and appendices

2606.20400 2026-06-19 cs.LG 新提交 专题 75

The Significance of Style Diversity in Annotation-Free Synthetic Data Generation

无标注合成数据生成中风格多样性的重要性

Zahra Abbasiantaeb, Zeno Belligoli, Omar Essam, Mohammad Aliannejadi

专题命中 其他LLM :利用LLM生成合成对话数据,提升意图分类性能

AI总结 提出无需人工标注的对话生成框架,利用主题和风格属性增强多样性,并设计两种后处理风格化模型,实验表明风格多样性比主题多样性更关键,性能可达人工标注数据的93.3%。

2606.19831 2026-06-19 cs.CL cs.LG 新提交 专题 75

Leverage Is Not Reach: A Control-Window Law for Single-Neuron Steering in Language Models

杠杆不等于可达性:语言模型中单神经元操控的控制窗口定律

Hongliang Liu

专题命中 其他LLM :研究语言模型中单神经元干预的控制窗口理论。

AI总结 提出预算归一化控制窗口框架,通过残差范数与写入范数之比定义的相干预算,预测单神经元干预何时产生连贯行为控制,并在15个神经元上验证了预测精度。

2606.18933 2026-06-19 cs.LG cs.IR stat.ME 新提交 专题 75

Zero-Shot Active Feature Acquisition via LLM-Elicitation

基于LLM启发式的零样本主动特征获取

Binyamin Perets, Natalie Mendelson, Shiran Vainberg, Yehuda Chowers, Shai Shen-Orr, Shie Mannor

专题命中 其他LLM :LLM启发式用于主动特征获取

AI总结 提出通过LLM启发式获取马尔可夫随机场充分统计量的零样本主动特征获取框架,解决数据标注不足问题,在IBD患者诊断中优于现有方法。

2606.17832 2026-06-19 cs.LG 新提交 专题 75

From Drift to Coherence: Stabilizing Beliefs in LLMs

从漂移到一致:稳定LLM中的信念

SongEun Kim, Seungyoo Lee, Edwin Fong, Hyungi Lee, Juho Lee

专题命中 其他LLM :研究LLM信念稳定性,提出预测重采样方法

AI总结 研究LLM在多项选择问答中的信念漂移问题,提出提示式预测重采样(PPR)方法,发现信念过程会自稳定并收敛,进而提出种子答案提示策略和自一致性损失以加速稳定并提高预测一致性。

2606.20544 2026-06-19 cs.AI cs.LG 新提交 专题 70

Toward Calibrated Mixture-of-Experts Under Distribution Shift

面向分布偏移下的校准混合专家模型

Gina Wong, Drew Prinster, Suchi Saria, Rama Chellappa, Anqi Liu

专题命中 其他LLM :研究混合专家模型的校准问题,属于大语言模型应用

AI总结 研究混合专家模型在分布偏移下的校准问题,提出对抗性重加权方法以改善路由聚合的校准误差,提升准确率-校准权衡。

Journal ref ICML 2026

2606.20538 2026-06-19 cs.LG 新提交 专题 70

Multi-Task Bayesian In-Context Learning

多任务贝叶斯上下文学习

Qingyang Zhu, Eric Karl Oermann, Kyunghyun Cho

专题命中 其他LLM :提出多任务上下文学习框架,属于LLM方法

AI总结 提出多任务上下文学习框架,通过将先验信息表示为上下文数据集前缀,训练Transformer实现分层贝叶斯预测推理,在多种分布偏移下匹配最优贝叶斯性能且速度提升数个数量级。

Comments ICML 2026

2606.20502 2026-06-19 cs.CR cs.AI cs.SE 新提交 专题 70

Calibration Without Comprehension: Diagnosing the Limits of Fine-Tuning LLMs for Vulnerability Detection in Systems Software

无理解的校准:诊断微调大语言模型在系统软件漏洞检测中的局限性

Arastoo Zibaeirad, Marco Vieira

专题命中 其他LLM :诊断微调LLM在漏洞检测中的局限性

AI总结 提出CWE-Trace框架,通过834个Linux内核样本和两个诊断指标(DFI和HDD)评估LLM漏洞检测能力,发现数据污染无实质帮助,微调仅改变输出阈值而非决策策略,模型缺乏真正的安全推理能力。