语言大模型 / LLM

2604.00626 2026-06-19 cs.LG cs.CL 版本更新专题 90

A Survey of On-Policy Distillation for Large Language Models

大型语言模型的在线策略蒸馏综述

Mingyang Song, Mao Zheng

专题命中后训练：综述在线策略蒸馏方法，涉及LLM后训练

AI总结本文综述了大型语言模型的在线策略蒸馏方法，探讨了蒸馏过程中如何通过反馈减少累积误差，提出了基于f-散度最小化的蒸馏框架，并分析了蒸馏与强化学习之间的联系。

Comments Ongoing Work

URL PDF HTML

2602.22495 2026-06-19 cs.LG cs.AI 版本更新专题 90

Reinforcement-aware Knowledge Distillation for LLM Reasoning

面向LLM推理的强化学习感知知识蒸馏

Zhaoyang Zhang, Shuli Jiang, Yantao Shen, Yuting Zhang, Dhananjay Ram, Shuo Yang, Zhuowen Tu, Wei Xia, Stefano Soatto

专题命中后训练：强化学习感知知识蒸馏用于LLM推理

AI总结提出RL感知蒸馏（RLAD），通过信任区域比率蒸馏（TRRD）在强化学习后训练中实现选择性模仿，解决分布不匹配和目标干扰问题，在逻辑推理和数学基准上优于现有方法。

URL PDF HTML

2509.25148 2026-06-19 cs.AI 版本更新专题 90

AAPA: Adversarially Anchored Preference Alignment for Post-Training of Large Language Models

AAPA：用于大型语言模型后训练的对抗锚定偏好对齐

Faqiang Qian, Kang An, Weikun Zhang, Ziliang Wang, Xuhui Zheng, Liangjian Wen, Yong Dai, Mengya Gao, Yichao Wu

专题命中后训练：提出对抗锚定偏好对齐框架，增强后训练目标

AI总结提出AAPA框架，通过固定轻量判别器对策略输出与专家响应进行句子级对抗锚定，增强SFT、GRPO等后训练目标，在指令遵循基准上持续提升性能。

URL PDF HTML

2602.09689 2026-06-19 cs.LG 版本更新专题 80

Model soups need only one ingredient

模型汤只需一种成分

Alireza Abdollahpoorrostam, Nikolaos Dimitriadis, Adam Hazimeh, Pascal Frossard

专题命中后训练：MonoSoup方法通过SVD实现单检查点模型汤

AI总结提出MonoSoup方法，利用SVD分解单检查点的层更新，通过熵有效秩自动重加权成分，实现强分布内-分布外平衡，无需多检查点。

URL PDF HTML

2602.14696 2026-06-19 cs.LG 版本更新专题 90

A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't)

对目标指令选择的批判性审视：厘清什么重要（以及什么不重要）

Nihal V. Nayak, Paula Rodriguez-Diaz, Neha Hulkund, Sara Beery, David Alvarez-Melis

专题命中指令微调：系统分析指令微调中目标指令选择的核心要素

AI总结本文系统解构指令微调中目标指令选择的两大核心要素——数据表示与选择算法，发现基于梯度的表示结合贪心轮询选择在低预算下表现最佳，但收益随预算增加而减弱，并统一了多种算法为近似距离最小化。

Comments ICML 2026

URL PDF HTML

2602.04306 2026-06-19 cs.CL cs.AI 版本更新专题 85

DeFrame: Debiasing Large Language Models Against Framing Effects

DeFrame: 消除大语言模型中的框架效应偏差

Kahee Lim, Soyeon Kim, Steven Euijong Whang

专题命中指令微调：提出框架感知去偏方法，增强LLM跨框架一致性

AI总结针对大语言模型在语义等价但不同表述的提示下产生不一致偏见的问题，提出框架感知的去偏方法，通过量化框架差异并增强跨框架一致性，有效降低整体偏见并提升鲁棒性。

Comments Accepted to Findings of ACL 2026

URL PDF HTML

2605.16865 2026-06-19 cs.CL 版本更新专题 80

MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

MixSD: 混合上下文自蒸馏用于知识注入

Jiarui Liu, Lechen Zhang, Yongjin Yang, Yinghui He, Yingheng Wang, Weihao Xuan, Zhijing Jin, Mona Diab

专题命中指令微调：混合上下文自蒸馏用于知识注入

AI总结本文提出MixSD方法，通过混合模型自身条件下的token来实现与模型生成分布对齐的知识注入，从而在保持预训练能力的同时提升事实记忆和推理能力。

URL PDF HTML

2605.31393 2026-06-19 cs.CL cs.AI 版本更新专题 70

Target-Side Paraphrase Augmentation for Sign Language Translation with Large Language Models

面向手语翻译的大语言模型目标端释义增强

Pedro Dal Bianco, Jean Paul Nunes Reinhold, Oscar Stanchi, Facundo Quiroga, Franco Ronchetti, Ulisses Brisolara Corrêa

专题命中指令微调：使用GPT-4o生成释义增强手语翻译。

AI总结针对手语翻译中平行语料稀缺和目标词汇长尾分布的问题，提出利用GPT-4o生成参考句子的受控释义变体进行目标端增强，并在三种手语数据集上验证了方法的有效性。

Comments Accepted at GenSign @ CVPR 2026. Non-Proceedings Track (https://genai4sl.github.io/)

URL PDF HTML

2510.06048 2026-06-19 cs.LG 版本更新专题 85

BLISS: A Lightweight Bilevel Influence Scoring Method for Data Selection in Language Model Pretraining

BLISS: 一种用于语言模型预训练数据选择的轻量级双层影响评分方法

Jie Hao, Rui Yu, Wei Zhang, Huixia Wang, Jie Xu, Mingrui Liu

专题命中预训练：提出数据选择方法用于语言模型预训练

AI总结提出一种无需外部预训练模型的轻量级数据选择方法BLISS，通过双层优化和代理模型估计训练样本的长期影响，实现高效数据筛选，在C4数据集上预训练多种规模模型，显著加速收敛并提升下游任务性能。

URL PDF HTML

2602.04396 2026-06-19 cs.LG cs.AI 版本更新专题 80

LoRDO: Distributed Low-Rank Optimization with Infrequent Communication

LoRDO: 分布式低秩优化与低频通信

Andrej Jovanović, Alex Iacob, Mher Safaryan, Ionut-Vlad Modoranu, Lorenzo Sani, William F. Shen, Xinchi Qiu, Dan Alistarh, Nicholas D. Lane

专题命中预训练：LoRDO框架实现分布式低秩优化与低频通信

AI总结提出LoRDO框架，统一低秩优化与低频同步，通过全秩准双曲更新恢复子空间探索，在125M-720M模型规模下实现与低秩DDP近似的性能，通信量减少约10倍。

Comments Accepted at ICML 2026

URL PDF HTML

2512.06899 2026-06-19 cs.CR 版本更新专题 85

Patronus: Identifying and Mitigating Transferable Backdoors in Pre-trained Language Models

Patronus: 识别和缓解预训练语言模型中的可迁移后门

Tianhang Zhao, Haodong Zhao, Wei Du, Pengzhou Cheng, Junxian Li, Sufeng Duan, Haojin Zhu, Gongshen Liu

专题命中其他LLM ：针对预训练语言模型后门攻击的防御框架，涉及LLM安全。

AI总结针对预训练语言模型供应链中可迁移后门的安全威胁，提出Patronus防御框架，通过输入侧不变性检测和双阶段缓解策略，在15个模型和9个任务上实现≥98.3%后门检测召回率。

Comments Work in progress

URL PDF HTML

2603.25702 2026-06-19 cs.CL 版本更新专题 80

S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation

S2D2：通过免训练自我推测实现扩散LLM的快速解码

Ligong Han, Hao Wang, Han Gao, Kai Xu, Akash Srivastava

专题命中其他LLM ：扩散LLM解码加速，属于语言模型方法

AI总结提出S2D2，一种免训练的自我推测解码框架，通过将块扩散模型在块大小为1时变为自回归模型，实现草稿与验证角色复用，在不增加训练或测试计算下提升解码速度与准确性。

Comments Code is available at https://github.com/phymhan/S2D2

URL PDF HTML

2603.16606 2026-06-19 cs.CL 版本更新专题 80

Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech

Omnilingual SONAR：跨语言与跨模态句子嵌入，连接大规模多语言文本与语音

Omnilingual SONAR Team, João Maria Janeiro, Pere-Lluís Huguet Cabot, Ioannis Tsiamas, Yen Meng, Vivek Iyer, Guillem Ramírez, Loic Barrault, Belen Alastruey, Xiang "Tony" Cao, Yu-An Chung, Marta R. Costa-Jussa, David Dale, Kevin Heffernan, Jaehyeong Jo, Artyom Kozhevnikov, Alexandre Mourachko, Christophe Ropers, Holger Schwenk, Paul-Ambroise Duquenne

专题命中其他LLM ：跨语言跨模态句子嵌入模型

AI总结提出OmniSONAR模型，通过渐进式训练和教师-学生蒸馏，在数千种语言上实现文本、语音、代码和数学表达式的统一语义嵌入，在跨语言检索和翻译任务上显著降低错误率，并支持零样本语音翻译。

URL PDF HTML

2512.03818 2026-06-19 cs.CL 版本更新专题 80

Improving Alignment Between Human and Machine Codes: An Empirical Assessment of Prompt Engineering for Construct Identification in Psychology

改善人机编码对齐：心理学构念识别中提示工程的实证评估

Kylie L. Anglin, Stephanie Milan, Brittney Hernandez, Claudia Ventura

专题命中其他LLM ：优化LLM在心理学文本中识别构念的提示工程。

AI总结本研究提出一个实证框架，通过提示工程优化大语言模型在心理学文本中识别构念的性能。实验评估五种提示策略，发现构念定义和任务框架最关键，结合代码簿引导和自动提示工程的少样本方法最接近专家判断。

Comments 22 pages, 2 figures

URL PDF HTML

2606.06971 2026-06-19 cs.MA cs.SI 版本更新专题 70

Modeling U.S. Attitudes Toward China via an Event-Steered Multi-Agent Simulator

通过事件驱动的多智能体模拟器建模美国对华态度

Chenxu Zhu, Hantao Yao, Wu Liu, Junbo Guo, Yongdong Zhang

专题命中其他LLM ：基于LLM的多智能体模拟，驱动舆论演化

AI总结提出事件驱动多智能体模拟器（ES-MAS），利用CURE数据集和双流数据集成引擎（DSDIE）及新闻驱动动态交互模块（NDDI），模拟美国对华舆论的动态演化，实验表明优于现有模型。

URL PDF HTML

2604.07593 2026-06-19 cs.AI 版本更新专题 70

Too long; didn't solve

太长；没解决

Lucía M. Cabrera, Isaac Saxton-Knight, Jocelyn D'Arcy

专题命中其他LLM ：提示长度与数学推理性能关系研究

AI总结研究提示长度和解答长度与大型语言模型在数学问题上的性能关系，发现两者与模型失败率正相关。

URL PDF HTML

2604.01955 2026-06-19 cs.CY 版本更新专题 70

Teaching Students to Question the Machine: An AI Literacy Intervention Improves Students' Regulation of LLM Use in a Science Task

教导学生质疑机器：一项AI素养干预措施提升学生在科学任务中调节LLM使用的能力

O. Clerc, R. Abdelghani, C. Desvaux, E. Poisson, P. Y. Oudeyer, H. Sauzéon

专题命中其他LLM ：AI素养干预提升学生LLM使用能力

AI总结本研究通过两小时的AI素养工作坊，训练中学生（8-9年级）在科学问题解决中更有效地使用大语言模型，减少盲目依赖并提高答案质量。

Comments Workshop paper accepted at ALIT4ALL 2026: 2nd International Workshop on AI Literacy Education For All, co-located with AIED 2026

URL PDF HTML

2603.16941 2026-06-19 eess.AS cs.CL cs.SD 版本更新专题 70

The Voice Behind the Words: Quantifying Intersectional Bias in SpeechLLMs

言语背后的声音：量化语音大语言模型中的交叉偏见

Shree Harsha Bokkahalli Satish, Christoph Minixhofer, Maria Teleki, James Caverlee, Ondřej Klejch, Peter Bell, Gustav Eje Henter, Éva Székely

专题命中其他LLM ：语音大语言模型中的交叉偏见量化

AI总结本研究通过2880次受控交互，评估三种语音大语言模型在六种英语口音和两种性别呈现中的口音与性别交叉偏见，发现东欧口音（尤其女性）获得更低有用性评分，且人类评估者比LLM评判更敏感。

Comments 5 pages, 3 figures, 1 table, Accepted to Interspeech 2026

URL PDF HTML

2603.16357 2026-06-19 cs.CY cs.SE 版本更新专题 70

Beyond Grading Accuracy: Exploring Alignment of TAs and LLMs

超越评分准确性：探索助教与LLMs的一致性

Matthijs Jansen op de Haar, Nacir Bouali, Faizan Ahmed

专题命中其他LLM ：开源LLM用于UML类图评分评估

AI总结本文提出一个评估管道，通过定量研究92个UML类图，比较助教与六个开源LLMs在单个评分标准上的表现，发现开源LLMs在评分准确性上接近助教，为混合主动评分系统提供了可能。

Comments 7 pages, 3 figures

URL PDF HTML

2502.19193 2026-06-19 cs.SI cs.AI cs.NE 版本更新专题 70

Simulation of Language Evolution under Regulated Social Media Platforms: A Synergistic Approach of Large Language Models and Genetic Algorithms

受监管社交媒体平台下的语言演化模拟：大语言模型与遗传算法的协同方法

Jinyu Cai, Yusei Ishimizu, Mingyue Zhang, Munan Li, Jialong Li, Kenji Tei

专题命中其他LLM ：用LLM模拟语言演化，结合遗传算法

AI总结提出基于大语言模型的多智能体框架，结合遗传算法模拟用户语言策略在监管下的迭代演化，实验表明对话轮次增加可提升信息传递准确性和对话持续性。

Comments The manuscript has been accepted to IEEE Transactions on Computational Social Systems

URL PDF HTML

2605.05481 2026-06-19 cs.LG 版本更新专题 60

Approximate Next Policy Sampling: Replacing Conservative Target Policy Updates in Deep RL

近似下一策略采样：替代深度强化学习中的保守目标策略更新

Dillon Sandhu, Ronald Parr

专题命中其他LLM ：提出近似下一策略采样方法，属于强化学习，非LLM核心内容

AI总结提出近似下一策略采样（ANPS）方法，通过修改训练分布而非约束策略更新来解决强化学习中的“鸡生蛋”问题，并基于此设计稳定值近似策略迭代（SV-API）算法，在Atari和连续控制任务上实现更大目标策略更新且性能匹配或提升。

URL PDF HTML

2604.07328 2026-06-19 cs.LG 版本更新专题 60

How to sketch a learning algorithm

如何勾勒学习算法

Sam Gunn

专题命中其他LLM ：提出数据删除方案用于深度学习模型

AI总结提出一种数据删除方案，基于稳定性假设，通过随机复方向的高阶导数局部勾勒算术电路，实现深度学习模型输出预测的误差和失败概率可忽略，且预计算和推理仅慢对数因子。

Comments Improved presentation and simplified Algorithm 4

URL PDF HTML

2604.06464 2026-06-19 cs.LG physics.app-ph stat.ML 版本更新专题 60

Weighted Bayesian Conformal Prediction

加权贝叶斯共形预测

Xiayin Lou, Peng Luo

专题命中其他LLM ：加权贝叶斯共形预测方法

AI总结提出加权贝叶斯共形预测（WBCP），通过加权Dirichlet先验推广贝叶斯共形预测到重要性加权设置，理论证明有效样本量决定后验方差，并提供更丰富的条件覆盖不确定性。

URL PDF HTML

2605.17443 2026-06-19 cs.CL cs.SD eess.AS 版本更新专题 80

Analyzing Error Propagation in Korean Spoken QA with ASR-LLM Cascades

分析韩语语音问答中ASR-LLM级联中的误差传播

Donghyuk Jung, Youngwon Choi

专题命中领域大模型：研究ASR-LLM级联在韩语语音问答中的误差传播

AI总结本文研究了韩语语音问答中ASR-LLM级联中误差传播的问题，通过分析下游语义失败，揭示了传统ASR指标无法完全捕捉的误差影响，发现不同性能的LLM在级联降级上的一致性，识别出单字符ASR错误作为语义失败通道，并通过辅助比较表明大音频语言模型在噪声韩语SQA中优于匹配语言模型的ASR-LLM流水线。

Comments Preprint. Submitted to APSIPA ASC 2026

URL PDF HTML

2604.18105 2026-06-19 eess.AS cs.CL cs.SD 版本更新专题 80

NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR

NIM4-ASR：迈向高效、鲁棒且可定制的实时基于LLM的语音识别

Yuan Xie, Jiaqi Song, Guang Qiu, Xianliang Wang, Kai Qiao, Junfeng Yuan, Shengqing Liu, Yi Zhang, Bowen Chen, Ming Lei, Jie Gao, Jie Wu

专题命中领域大模型：提出基于LLM的语音识别框架NIM4-ASR

AI总结提出NIM4-ASR框架，通过重新设计多阶段训练范式（包括预训练架构优化、迭代异步SFT和ASR专用强化学习）以及生产优化（噪声鲁棒性、流式推理和RAG热词定制），在2.3B参数下实现SOTA性能。

URL PDF HTML

2507.00875 2026-06-19 cs.CL cs.HC cs.MA 版本更新专题 80

TransLaw: A Large-Scale Dataset and Multi-Agent Benchmark Simulating Professional Translation of Hong Kong Case Law

TransLaw：模拟香港判例法专业翻译的大规模数据集与多智能体基准

Xi Xuan, Chunyu Kit

专题命中领域大模型：多智能体框架用于法律翻译

AI总结针对香港判例法英译中资源匮乏、法律术语和格式要求严格的问题，构建了首个大规模句对齐平行语料库HKCFA Judgment 97-22，并提出多智能体框架TransLaw，通过分解翻译任务、集成法律词汇库和检索增强生成，显著提升翻译质量，但仍未达到人类专家的风格自然度。

Comments Accepted at ICML 2026 - AI for Law

URL PDF HTML

2509.03391 2026-06-19 cs.DL cs.CY 版本更新专题 80

More Parameters Than Populations: A Systematic Literature Review of Large Language Models within Survey Research

参数多于总体：调查研究中的大语言模型系统文献综述

Trent D. Buskirk, Florian Keusch, Leah von der Heyde, Adam Eck

专题命中领域大模型：系统综述LLM在调查研究中的应用，涵盖三个阶段。

AI总结通过系统文献综述，评估大语言模型在调查研究三个阶段（数据收集前、中、后）的应用，讨论其潜力与陷阱，并展望调查研究对LLM发展的贡献。

Comments This working paper is outdated as of June 2026 - please refer to the full version with substantive changes here: https://doi.org/10.31235/osf.io/eubj4_v1 This work was presented at NLPOR 2025 (non-archival): https://openreview.net/forum?id=0Hxhwa56Yg

URL PDF HTML

2512.18859 2026-06-19 cs.CL 版本更新专题 75

Toward Human-Centered AI-Assisted Terminology Work

迈向以人为中心的AI辅助术语工作

Antonio San Martin

专题命中领域大模型：讨论生成式AI在术语工作中的应用，属于领域大模型

AI总结本文提出以人为中心的人工智能框架，在利用生成式AI自动化术语工作的同时，通过增强术语学家能力、保持人类控制权来确保术语数据的准确性和可靠性。

Comments Accepted for publication in the journal Terminology

URL PDF HTML

2604.23938 2026-06-19 cs.CL 版本更新专题 70

TSAssistant: A Human-in-the-Loop Agentic Framework for Automated Target Safety Assessment

TSAssistant: 一种人在回路中的自动化靶点安全性评估智能体框架

Xiaochen Zheng, Zhiwen Jiang, David Tokar, Yexiang Cheng, Alvaro Serra, Melanie Guerard, Klas Hatje, Tatyana Doktorova

专题命中领域大模型：利用LLM进行生物医学文献检索与综合

AI总结提出TSAssistant多智能体框架，通过分层指令架构和交互式优化循环，将靶点安全性评估报告生成分解为专业子任务，实现高可重复性和证据溯源。

Comments Updated with quantitative and expert evaluations

URL PDF HTML

2402.14035 2026-06-19 cs.LG cs.AI 版本更新专题 70

Wisdom of Committee: Diverse Distillation from Large Foundation Models and Domain Experts

委员会智慧：来自大型基础模型和领域专家的多样化蒸馏

Zichang Liu, Qingyun Liu, Yuening Li, Liang Liu, Anshumali Shrivastava, Shuchao Bi, Lichan Hong, Ed H. Chi, Zhe Zhao

专题命中领域大模型：蒸馏基础模型到紧凑领域模型，涉及推荐和视觉

AI总结针对基础模型向紧凑领域模型蒸馏时能力、架构和模态差异大的问题，提出DiverseDistill框架，通过可学习的问答机制和对齐异构教师输出，在推荐和视觉任务上恢复73-114%的性能差距。

Comments Accepted at the 1st Workshop on Resource-Efficient Learning and Knowledge Discovery (RelKD), KDD 2026

Journal ref Proceedings of the RelKD Workshop at KDD 2026

URL PDF HTML

1. 后训练 4 篇

A Survey of On-Policy Distillation for Large Language Models

Reinforcement-aware Knowledge Distillation for LLM Reasoning

AAPA: Adversarially Anchored Preference Alignment for Post-Training of Large Language Models

Model soups need only one ingredient

2. 指令微调 4 篇

A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't)

DeFrame: Debiasing Large Language Models Against Framing Effects

MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

Target-Side Paraphrase Augmentation for Sign Language Translation with Large Language Models

3. 预训练 2 篇

BLISS: A Lightweight Bilevel Influence Scoring Method for Data Selection in Language Model Pretraining

LoRDO: Distributed Low-Rank Optimization with Infrequent Communication

4. 其他LLM 13 篇

Patronus: Identifying and Mitigating Transferable Backdoors in Pre-trained Language Models

S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation

Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech

Improving Alignment Between Human and Machine Codes: An Empirical Assessment of Prompt Engineering for Construct Identification in Psychology

Modeling U.S. Attitudes Toward China via an Event-Steered Multi-Agent Simulator

Too long; didn't solve

Teaching Students to Question the Machine: An AI Literacy Intervention Improves Students' Regulation of LLM Use in a Science Task

The Voice Behind the Words: Quantifying Intersectional Bias in SpeechLLMs

Beyond Grading Accuracy: Exploring Alignment of TAs and LLMs

Simulation of Language Evolution under Regulated Social Media Platforms: A Synergistic Approach of Large Language Models and Genetic Algorithms

Approximate Next Policy Sampling: Replacing Conservative Target Policy Updates in Deep RL

How to sketch a learning algorithm

Weighted Bayesian Conformal Prediction

5. 领域大模型 7 篇

Analyzing Error Propagation in Korean Spoken QA with ASR-LLM Cascades

NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR

TransLaw: A Large-Scale Dataset and Multi-Agent Benchmark Simulating Professional Translation of Hong Kong Case Law

More Parameters Than Populations: A Systematic Literature Review of Large Language Models within Survey Research

Toward Human-Centered AI-Assisted Terminology Work

TSAssistant: A Human-in-the-Loop Agentic Framework for Automated Target Safety Assessment

Wisdom of Committee: Diverse Distillation from Large Foundation Models and Domain Experts