A Survey of On-Policy Distillation for Large Language Models
大型语言模型的在线策略蒸馏综述
发表机构 * Tencent, China(腾讯,中国)
专题命中 后训练 :综述在线策略蒸馏方法,涉及LLM后训练
AI总结 本文综述了大型语言模型的在线策略蒸馏方法,探讨了蒸馏过程中如何通过反馈减少累积误差,提出了基于f-散度最小化的蒸馏框架,并分析了蒸馏与强化学习之间的联系。
Comments Ongoing Work
AI 大模型
大语言模型、预训练、指令微调、后训练和语言模型应用。
大型语言模型的在线策略蒸馏综述
发表机构 * Tencent, China(腾讯,中国)
专题命中 后训练 :综述在线策略蒸馏方法,涉及LLM后训练
AI总结 本文综述了大型语言模型的在线策略蒸馏方法,探讨了蒸馏过程中如何通过反馈减少累积误差,提出了基于f-散度最小化的蒸馏框架,并分析了蒸馏与强化学习之间的联系。
Comments Ongoing Work
面向LLM推理的强化学习感知知识蒸馏
发表机构 * Meta ; Guo et al. ; Lin et al. ; Xu et al. ; Shao et al. ; Schulman et al. ; Xie et al.
专题命中 后训练 :强化学习感知知识蒸馏用于LLM推理
AI总结 提出RL感知蒸馏(RLAD),通过信任区域比率蒸馏(TRRD)在强化学习后训练中实现选择性模仿,解决分布不匹配和目标干扰问题,在逻辑推理和数学基准上优于现有方法。
AAPA:用于大型语言模型后训练的对抗锚定偏好对齐
发表机构 * Southwest University of Finance and Economics(西南财经大学)
专题命中 后训练 :提出对抗锚定偏好对齐框架,增强后训练目标
AI总结 提出AAPA框架,通过固定轻量判别器对策略输出与专家响应进行句子级对抗锚定,增强SFT、GRPO等后训练目标,在指令遵循基准上持续提升性能。
模型汤只需一种成分
发表机构 * EPFL(瑞士联邦理工学院) ; EPFL LTS4(瑞士联邦理工学院 LTS4)
专题命中 后训练 :MonoSoup方法通过SVD实现单检查点模型汤
AI总结 提出MonoSoup方法,利用SVD分解单检查点的层更新,通过熵有效秩自动重加权成分,实现强分布内-分布外平衡,无需多检查点。
对目标指令选择的批判性审视:厘清什么重要(以及什么不重要)
发表机构 * Harvard University(哈佛大学) ; MIT(麻省理工学院) ; Kempner Institute(凯门研究所)
专题命中 指令微调 :系统分析指令微调中目标指令选择的核心要素
AI总结 本文系统解构指令微调中目标指令选择的两大核心要素——数据表示与选择算法,发现基于梯度的表示结合贪心轮询选择在低预算下表现最佳,但收益随预算增加而减弱,并统一了多种算法为近似距离最小化。
Comments ICML 2026
DeFrame: 消除大语言模型中的框架效应偏差
发表机构 * KAIST(韩国科学技术院)
专题命中 指令微调 :提出框架感知去偏方法,增强LLM跨框架一致性
AI总结 针对大语言模型在语义等价但不同表述的提示下产生不一致偏见的问题,提出框架感知的去偏方法,通过量化框架差异并增强跨框架一致性,有效降低整体偏见并提升鲁棒性。
Comments Accepted to Findings of ACL 2026
MixSD: 混合上下文自蒸馏用于知识注入
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; Jinesis Lab, University of Toronto & Vector Institute(Jinesis实验室,多伦多大学及向量研究所) ; University of Illinois Urbana-Champaign(伊利诺伊大学厄巴纳-香槟分校) ; Princeton University(普林斯顿大学) ; Cornell University(康奈尔大学) ; The University of Tokyo(东京大学) ; RIKEN AIP(日本理化学研究所AIP) ; Max Planck Institute for Intelligent Systems, Tübingen, Germany(德国图宾根最大计划智能系统研究所) ; EuroSafeAI
专题命中 指令微调 :混合上下文自蒸馏用于知识注入
AI总结 本文提出MixSD方法,通过混合模型自身条件下的token来实现与模型生成分布对齐的知识注入,从而在保持预训练能力的同时提升事实记忆和推理能力。
面向手语翻译的大语言模型目标端释义增强
发表机构 * III-LIDI Universidad Nacional de La Plata(III-LIDI国立拉普拉塔大学) ; CDTEC, Federal University of Pelotas(CDTEC,联邦 Pelotas 大学) ; CONICET III-LIDI ; Comision de Investigaciones Cientificas Universidad Nacional de La Plata(科学委员会国立拉普拉塔大学) ; Universidade Federal de Pelotas(联邦 Pelotas 大学)
专题命中 指令微调 :使用GPT-4o生成释义增强手语翻译。
AI总结 针对手语翻译中平行语料稀缺和目标词汇长尾分布的问题,提出利用GPT-4o生成参考句子的受控释义变体进行目标端增强,并在三种手语数据集上验证了方法的有效性。
Comments Accepted at GenSign @ CVPR 2026. Non-Proceedings Track (https://genai4sl.github.io/)
BLISS: 一种用于语言模型预训练数据选择的轻量级双层影响评分方法
发表机构 * Department of Computer Science, George Mason University, USA(乔治·马歇尔大学计算机科学系) ; IBM T.J. Watson Research Center, USA(IBM T.J. Watson研究部) ; Department of Statistics, Rice University(里士大学统计系) ; Department of System Engineering & Operations Research, George Mason University, USA(乔治·马歇尔大学系统工程与运营管理系)
专题命中 预训练 :提出数据选择方法用于语言模型预训练
AI总结 提出一种无需外部预训练模型的轻量级数据选择方法BLISS,通过双层优化和代理模型估计训练样本的长期影响,实现高效数据筛选,在C4数据集上预训练多种规模模型,显著加速收敛并提升下游任务性能。
LoRDO: 分布式低秩优化与低频通信
发表机构 * University of Cambridge(剑桥大学) ; Institute of Science and Technology Austria(奥地利科学与技术研究院) ; Lancaster University(兰卡斯特大学) ; Flower Labs(Flower实验室)
专题命中 预训练 :LoRDO框架实现分布式低秩优化与低频通信
AI总结 提出LoRDO框架,统一低秩优化与低频同步,通过全秩准双曲更新恢复子空间探索,在125M-720M模型规模下实现与低秩DDP近似的性能,通信量减少约10倍。
Comments Accepted at ICML 2026
Patronus: 识别和缓解预训练语言模型中的可迁移后门
专题命中 其他LLM :针对预训练语言模型后门攻击的防御框架,涉及LLM安全。
AI总结 针对预训练语言模型供应链中可迁移后门的安全威胁,提出Patronus防御框架,通过输入侧不变性检测和双阶段缓解策略,在15个模型和9个任务上实现≥98.3%后门检测召回率。
Comments Work in progress
S2D2:通过免训练自我推测实现扩散LLM的快速解码
发表机构 * Red Hat AI Innovation(红帽AI创新) ; MIT-IBM Watson AI Lab(MIT-IBM沃森人工智能实验室) ; Iowa State University(爱荷华州立大学) ; Core AI, IBM(IBM核心AI)
专题命中 其他LLM :扩散LLM解码加速,属于语言模型方法
AI总结 提出S2D2,一种免训练的自我推测解码框架,通过将块扩散模型在块大小为1时变为自回归模型,实现草稿与验证角色复用,在不增加训练或测试计算下提升解码速度与准确性。
Comments Code is available at https://github.com/phymhan/S2D2
Omnilingual SONAR:跨语言与跨模态句子嵌入,连接大规模多语言文本与语音
发表机构 * FAIR at Meta(Meta的FAIR)
专题命中 其他LLM :跨语言跨模态句子嵌入模型
AI总结 提出OmniSONAR模型,通过渐进式训练和教师-学生蒸馏,在数千种语言上实现文本、语音、代码和数学表达式的统一语义嵌入,在跨语言检索和翻译任务上显著降低错误率,并支持零样本语音翻译。
改善人机编码对齐:心理学构念识别中提示工程的实证评估
发表机构 * Department of Educational Psychology, Neag School of Education, University of Connecticut(教育心理学系,教育学院,康涅狄格大学) ; Department of Psychological Sciences, College of Liberal Arts and Sciences, University of Connecticut(心理学系,文理学院,康涅狄格大学)
专题命中 其他LLM :优化LLM在心理学文本中识别构念的提示工程。
AI总结 本研究提出一个实证框架,通过提示工程优化大语言模型在心理学文本中识别构念的性能。实验评估五种提示策略,发现构念定义和任务框架最关键,结合代码簿引导和自动提示工程的少样本方法最接近专家判断。
Comments 22 pages, 2 figures
通过事件驱动的多智能体模拟器建模美国对华态度
专题命中 其他LLM :基于LLM的多智能体模拟,驱动舆论演化
AI总结 提出事件驱动多智能体模拟器(ES-MAS),利用CURE数据集和双流数据集成引擎(DSDIE)及新闻驱动动态交互模块(NDDI),模拟美国对华舆论的动态演化,实验表明优于现有模型。
太长;没解决
发表机构 * Instituto Balseiro(巴塞罗那研究所) ; Poindexter Labs(波因迪克斯实验室)
专题命中 其他LLM :提示长度与数学推理性能关系研究
AI总结 研究提示长度和解答长度与大型语言模型在数学问题上的性能关系,发现两者与模型失败率正相关。
教导学生质疑机器:一项AI素养干预措施提升学生在科学任务中调节LLM使用的能力
专题命中 其他LLM :AI素养干预提升学生LLM使用能力
AI总结 本研究通过两小时的AI素养工作坊,训练中学生(8-9年级)在科学问题解决中更有效地使用大语言模型,减少盲目依赖并提高答案质量。
Comments Workshop paper accepted at ALIT4ALL 2026: 2nd International Workshop on AI Literacy Education For All, co-located with AIED 2026
言语背后的声音:量化语音大语言模型中的交叉偏见
发表机构 * 1 Department of Speech, Music ; Hearing, KTH Royal Institute of Technology, Sweden 2 Centre for Speech Technology Research, University of Edinburgh, UK 3 Texas A\&M University, USA
专题命中 其他LLM :语音大语言模型中的交叉偏见量化
AI总结 本研究通过2880次受控交互,评估三种语音大语言模型在六种英语口音和两种性别呈现中的口音与性别交叉偏见,发现东欧口音(尤其女性)获得更低有用性评分,且人类评估者比LLM评判更敏感。
Comments 5 pages, 3 figures, 1 table, Accepted to Interspeech 2026
超越评分准确性:探索助教与LLMs的一致性
专题命中 其他LLM :开源LLM用于UML类图评分评估
AI总结 本文提出一个评估管道,通过定量研究92个UML类图,比较助教与六个开源LLMs在单个评分标准上的表现,发现开源LLMs在评分准确性上接近助教,为混合主动评分系统提供了可能。
Comments 7 pages, 3 figures
受监管社交媒体平台下的语言演化模拟:大语言模型与遗传算法的协同方法
专题命中 其他LLM :用LLM模拟语言演化,结合遗传算法
AI总结 提出基于大语言模型的多智能体框架,结合遗传算法模拟用户语言策略在监管下的迭代演化,实验表明对话轮次增加可提升信息传递准确性和对话持续性。
Comments The manuscript has been accepted to IEEE Transactions on Computational Social Systems
近似下一策略采样:替代深度强化学习中的保守目标策略更新
专题命中 其他LLM :提出近似下一策略采样方法,属于强化学习,非LLM核心内容
AI总结 提出近似下一策略采样(ANPS)方法,通过修改训练分布而非约束策略更新来解决强化学习中的“鸡生蛋”问题,并基于此设计稳定值近似策略迭代(SV-API)算法,在Atari和连续控制任务上实现更大目标策略更新且性能匹配或提升。
如何勾勒学习算法
发表机构 * UC Berkeley(伯克利大学)
专题命中 其他LLM :提出数据删除方案用于深度学习模型
AI总结 提出一种数据删除方案,基于稳定性假设,通过随机复方向的高阶导数局部勾勒算术电路,实现深度学习模型输出预测的误差和失败概率可忽略,且预计算和推理仅慢对数因子。
Comments Improved presentation and simplified Algorithm 4
加权贝叶斯共形预测
发表机构 * Technical University of Munich(慕尼黑技术大学) ; Massachusetts Institute of Technology(麻省理工学院)
专题命中 其他LLM :加权贝叶斯共形预测方法
AI总结 提出加权贝叶斯共形预测(WBCP),通过加权Dirichlet先验推广贝叶斯共形预测到重要性加权设置,理论证明有效样本量决定后验方差,并提供更丰富的条件覆盖不确定性。
分析韩语语音问答中ASR-LLM级联中的误差传播
发表机构 * Korea Culture Technology Institute, Republic of Korea(韩国文化科技研究所) ; Maum AI Inc., Republic of Korea(马姆人工智能公司)
专题命中 领域大模型 :研究ASR-LLM级联在韩语语音问答中的误差传播
AI总结 本文研究了韩语语音问答中ASR-LLM级联中误差传播的问题,通过分析下游语义失败,揭示了传统ASR指标无法完全捕捉的误差影响,发现不同性能的LLM在级联降级上的一致性,识别出单字符ASR错误作为语义失败通道,并通过辅助比较表明大音频语言模型在噪声韩语SQA中优于匹配语言模型的ASR-LLM流水线。
Comments Preprint. Submitted to APSIPA ASC 2026
NIM4-ASR:迈向高效、鲁棒且可定制的实时基于LLM的语音识别
发表机构 * Advanced Intelligent Systems Group, NIO(蔚来智能系统集团)
专题命中 领域大模型 :提出基于LLM的语音识别框架NIM4-ASR
AI总结 提出NIM4-ASR框架,通过重新设计多阶段训练范式(包括预训练架构优化、迭代异步SFT和ASR专用强化学习)以及生产优化(噪声鲁棒性、流式推理和RAG热词定制),在2.3B参数下实现SOTA性能。
TransLaw:模拟香港判例法专业翻译的大规模数据集与多智能体基准
发表机构 * City University of Hong Kong, Hong Kong SAR, China(香港城市大学)
专题命中 领域大模型 :多智能体框架用于法律翻译
AI总结 针对香港判例法英译中资源匮乏、法律术语和格式要求严格的问题,构建了首个大规模句对齐平行语料库HKCFA Judgment 97-22,并提出多智能体框架TransLaw,通过分解翻译任务、集成法律词汇库和检索增强生成,显著提升翻译质量,但仍未达到人类专家的风格自然度。
Comments Accepted at ICML 2026 - AI for Law
参数多于总体:调查研究中的大语言模型系统文献综述
专题命中 领域大模型 :系统综述LLM在调查研究中的应用,涵盖三个阶段。
AI总结 通过系统文献综述,评估大语言模型在调查研究三个阶段(数据收集前、中、后)的应用,讨论其潜力与陷阱,并展望调查研究对LLM发展的贡献。
Comments This working paper is outdated as of June 2026 - please refer to the full version with substantive changes here: https://doi.org/10.31235/osf.io/eubj4_v1 This work was presented at NLPOR 2025 (non-archival): https://openreview.net/forum?id=0Hxhwa56Yg
迈向以人为中心的AI辅助术语工作
发表机构 * Universite du Quebec à Trois-Rivieres(魁北克大学三河分校)
专题命中 领域大模型 :讨论生成式AI在术语工作中的应用,属于领域大模型
AI总结 本文提出以人为中心的人工智能框架,在利用生成式AI自动化术语工作的同时,通过增强术语学家能力、保持人类控制权来确保术语数据的准确性和可靠性。
Comments Accepted for publication in the journal Terminology
TSAssistant: 一种人在回路中的自动化靶点安全性评估智能体框架
发表机构 * Computational Sciences Center of Excellence(计算科学卓越中心)
专题命中 领域大模型 :利用LLM进行生物医学文献检索与综合
AI总结 提出TSAssistant多智能体框架,通过分层指令架构和交互式优化循环,将靶点安全性评估报告生成分解为专业子任务,实现高可重复性和证据溯源。
Comments Updated with quantitative and expert evaluations
委员会智慧:来自大型基础模型和领域专家的多样化蒸馏
发表机构 * Rice University(Rice大学) ; Google DeepMind(谷歌DeepMind) ; Google Inc(谷歌公司) ; University of California, Davis(加州大学戴维斯分校)
专题命中 领域大模型 :蒸馏基础模型到紧凑领域模型,涉及推荐和视觉
AI总结 针对基础模型向紧凑领域模型蒸馏时能力、架构和模态差异大的问题,提出DiverseDistill框架,通过可学习的问答机制和对齐异构教师输出,在推荐和视觉任务上恢复73-114%的性能差距。
Comments Accepted at the 1st Workshop on Resource-Efficient Learning and Knowledge Discovery (RelKD), KDD 2026
Journal ref Proceedings of the RelKD Workshop at KDD 2026