Calibrating Generative Models to Feature Distributions with MMD Finetuning
使用MMD微调将生成模型校准到特征分布
发表机构 * Stanford University(斯坦福大学)
AI总结 提出kCGM方法,通过最小化生成与目标特征分布的最大均值差异(MMD)并加入KL正则化,在不牺牲有效性的前提下校准生成模型的特征分布,适用于多种生成模型。
使用MMD微调将生成模型校准到特征分布
发表机构 * Stanford University(斯坦福大学)
AI总结 提出kCGM方法,通过最小化生成与目标特征分布的最大均值差异(MMD)并加入KL正则化,在不牺牲有效性的前提下校准生成模型的特征分布,适用于多种生成模型。
LooseControlVideo: 使用空间分块进行导演式视频控制
发表机构 * Adobe Research(Adobe研究院)
AI总结 提出LooseControlVideo框架,通过稀疏定向3D框作为“分块”代理,实现文本到视频生成中多对象场景的直观布局与轨迹控制,显著优于现有2D框和流方法。
Comments Project page at https://shariqfarooq123.github.io/LooseControlVideo/
多智能体LLM协商中的隐藏锚点
发表机构 * University of North Texas(北德克萨斯大学)
AI总结 将多智能体LLM协商建模为闭环动力系统,每个智能体有隐藏内部信念(锚点),解释协商如何超越初始信念凸包,并通过恢复锚点预测模型行为。
Comments 13 pages, 6 figures, 7 tables
LayerNorm Transformer 中的代数死方向:一种仅需前向传播的大语言模型规模诊断方法
发表机构 * IIIT, Hyderabad(海得拉巴国际信息技术学院)
AI总结 本文发现 LayerNorm 的逆尺度方向是后最终归一化中心激活协方差矩阵的精确代数核,可仅从参数中读取死方向,无需前向或后向传播,并在 14 个预训练模型上验证了其有效性。
Comments 34 pages, 7 figures, 6 tables. Empirical companion to arXiv:2606.05957
概念流模型:通过层次瓶颈锚定基于概念的推理
发表机构 * Fraunhofer Institute for Open Communication Systems(弗劳恩霍夫开放通信系统研究所) ; Freie Universität Berlin(柏林自由大学)
AI总结 提出概念流模型(CFM),用层次化概念决策树替代扁平瓶颈,通过逐步缩小预测范围减少信息泄露,在保持预测性能的同时提升可解释性。
Journal ref Transaction on Machine Learning Research, 2/2026
LEAP: 通过自适应进度实现视觉Transformer蒸馏的层跳过效率
发表机构 * Brown University(布朗大学) ; Rice University(莱斯大学)
AI总结 提出LEAP训练课程,通过自适应选择教师中间特征图作为渐进式目标,加速学生ViT的知识蒸馏,在ImageNet-100上提升12.24%准确率,并节省25.1%训练FLOPs。
Insulin4RL:面向离线强化学习的重症监护室实时胰岛素管理
发表机构 * Institute of Health Informatics(健康信息学研究所) ; University College London(伦敦大学学院)
AI总结 针对电子健康记录离散化导致模型泛化性差的问题,提出基于真实临床轨迹的离线强化学习数据集Insulin4RL,包含375,000+决策和12,209名患者,用于评估模型在真实采样假设下的性能。
Comments Under submission
上下文学习能否支持内在好奇心?
发表机构 * Google – Paradigms of Intelligence Team(Google – 智能范式团队) ; Google DeepMind
AI总结 研究利用序列模型的上下文学习能力作为即时无更新世界模型,以消除传统内在好奇心方法中梯度下降的计算瓶颈,理论证明在非时间设置下可渐近收敛到真实学习进度。
扩散语言模型:一项实验分析
发表机构 * University of Modena and Reggio Emilia(摩德纳和雷焦艾米利亚大学) ; University of Pisa(比萨大学)
AI总结 本文系统比较了八种扩散语言模型在推理、编码、翻译等任务上的表现,分析了去噪步数、上下文长度等推理因素对性能与效率的影响,揭示了扩散语言模型在不同任务和预算下的权衡。
LLM辅助后量子密码开发中的安全编码漂移:一种游戏化修复方案
发表机构 * University of Moratuwa(摩图瓦大学) ; University of Ruhuna(鲁胡纳大学) ; RMIT University(皇家墨尔本理工大学)
AI总结 提出LLM辅助PQC开发中的安全编码漂移模型,通过游戏化框架将LLM转变为主动安全协作者,以缓解长期依赖LLM导致的安全退化。
Comments Accepted for 2026 SIGIR Workshop on Vulnerabilities in Generative Systems for Information Retrieval track
衡量课程在主题覆盖、能力与认知深度上的一致性:应用于CS2013和CS2023的纵向框架
发表机构 * United Arab Emirates University(阿联酋大学) ; Abu Dhabi Polytechnic(阿布扎比理工学院)
AI总结 提出一种人机协同流程,通过语义检索与人工确认,纵向衡量计算机科学课程对CS2013和CS2023指南的覆盖情况,发现课程覆盖稳定但新指南对认知深度要求更高。
Comments 24 pages, 5 figures, 8 tables
网络规模LLM预训练数据中的叙事内容特征化
发表机构 * University of Colorado Boulder(科罗拉多大学波尔德分校) ; ETH Zürich(苏黎世联邦理工学院) ; McGill University(麦吉尔大学)
AI总结 首次细粒度研究LLM预训练语料库Dolma的叙事特征,提出涵盖三个核心叙事元素(能动性、场景、事件)的框架,构建NarraBERT模型并发布NarraDolma数据集,揭示叙事结构在异构数据中可测量且分布不均。
Comments 8 pages of main content, 28 total pages. 30 figures
面向自主AI系统运行时治理的道义策略
发表机构 * CSEE Department UMBC Baltimore, MD, USA ; Center for AI UMBC Baltimore, MD, USA ; Information Systems Department UMBC Baltimore, MD, USA ; CSAIL MIT Cambridge, MA, USA
AI总结 针对大语言模型驱动的自主AI系统在安全、隐私和合规方面的治理挑战,提出AgenticRei框架,利用基于Rei的道义策略语言(OWL表示)在运行时通过逻辑引擎强制执行义务、豁免、冲突解决等治理约束,并兼容A2AS等标准。
Comments 10 pages, 1 figure. To be published in the 2026 IEEE Symposium on Agentic Services which is part of the IEEE Conference on Web Services
使用整流流变换器扩展胸部X光片的生成式基础模型
发表机构 * Imperial College London(帝国理工学院) ; Causality in Healthcare AI Hub(医疗AI因果关系中心) ; University of Edinburgh(爱丁堡大学) ; Cleveland Clinic London(克利夫兰诊所伦敦) ; Department of Perioperative Medicine, CHU Clermont-Ferrand(克莱蒙费朗大学医院围手术期医学科) ; Department of Medicine, Massachusetts General Hospital(麻省总医院医学部) ; Broad Institute of MIT and Harvard(麻省理工学院与哈佛大学博德研究所)
AI总结 提出首个十亿参数级胸部X光片生成基础模型,通过整流流变换器实现高保真可控合成,显著提升合成图像与真实图像的不可区分性。
Comments Project page: https://RadiT-project.github.io
MonaVec: 一种面向边缘和离线AI系统的免训练嵌入式向量搜索内核
AI总结 提出MonaVec,一种无需训练、数据无关的嵌入式向量搜索内核,通过随机哈达玛变换和预计算Lloyd-Max量化实现4位压缩,在边缘和离线场景下提供确定性结果,支持单文件部署。
Comments 27 pages, 11 figures. Code and artifacts: https://github.com/mona-hq/monavec (PyPI: monavec; crates.io: monavec-core). Zenodo: doi:10.5281/zenodo.20559587
3D-DLP:自监督3D物体中心场景表示学习
发表机构 * Carnegie Mellon University(卡内基梅隆大学)
AI总结 提出3D-DLP模型,通过自监督学习将场景级RGB-D或体素观测分解为3D潜在粒子,每个粒子编码解耦属性,实现可解释的逐粒子分割图,并支持场景操控和下游机器人操作。
Comments ICML 2026. Project webpage: https://eubooks3003.github.io/3d-dlp
趣味性具身机器人学习
发表机构 * University of California, Berkeley(加州大学伯克利分校) ; Impossible Research
AI总结 提出RATs框架,让机器人通过自主探索学习可复用技能,在LIBERO-PRO和MolmoSpaces上分别提升20.6和17.0个百分点。
Comments Project page: https://playful-rats.github.io/
MortarBench: 评估抵押贷款发起代理
发表机构 * Columbia University(哥伦比亚大学) ; Tidalwave
AI总结 提出MortarBench基准,通过金融数据合成与变异管道生成覆盖边缘案例的示例,评估大语言模型在贷款发起任务中的表现,发现模型准确率低且存在偏见,并引入CRIT校准框架提升准确率至80.5%。
文本真的有用吗?揭示并解决多模态时间序列预测中的文本坍缩问题
发表机构 * Applied Artificial Intelligence Initiative(应用人工智能计划)
AI总结 针对多模态时间序列预测中文本分支被忽视导致“文本坍缩”的问题,提出REST-TS方法,通过让文本分支专门预测数值主干无法解释的残差,强制其提取真实内容,实现最先进性能。
频谱检索增强的时间序列预测
发表机构 * Applied Artificial Intelligence Initiative(应用人工智能倡议) ; Deakin University(迪肯大学)
AI总结 提出SpecReTF方法,通过将时间序列转换为窗口化频率表示并采用结合幅度和相位的相似性度量,以及指数移动平均加权方案,解决了现有检索方法在频谱盲区和时间近因上的局限性,提升了非平稳时间序列预测的准确性。
通过NEPv的谱DPP:用于多样性感知数据选择的确定性点过程MAP的可扩展连续松弛
发表机构 * Hong Kong Baptist University(香港浸会大学) ; TadReamk Limited(TadReamk有限公司)
AI总结 提出将NP难的DPP-MAP选择问题转化为Stiefel流形上的连续优化,通过非线性特征值问题(NEPv)的自洽场迭代实现近线性时间求解,适用于大规模数据选择。
OpenRath: 面向会话的代理系统运行时状态
AI总结 针对代理系统运行时状态碎片化问题,提出以Session为核心的一等运行时抽象,支持分支、检查、重放、后端感知和组合,使fork、merge和replay成为显式运行时操作。
FlexLAM: 解决潜在动作学习中的瓶颈权衡
发表机构 * University of Tsukuba(筑波大学) ; The University of Tokyo(东京大学)
AI总结 针对潜在动作模型中固定容量瓶颈导致的权衡问题,提出FlexLAM,通过嵌套dropout实现变长潜在动作,在不增加架构或损失的情况下,在稀缺标签和低回报任务中优于固定容量模型,并支持推理时调整令牌预算。
JustDiag!:用于可问责根本原因分析的诊断论证引擎
发表机构 * Peking University(北京大学) ; University of Edinburgh(爱丁堡大学) ; Beijing University of Posts and Telecommunications(北京邮电大学)
AI总结 提出JustDiag诊断论证引擎,通过维护显式的过程状态(证据、发现、竞争假设、冲突和下一步检查)来支持可问责的根本原因分析,在66个真实事件上评估显示其优于仅提供流畅最终答案的方法。
推理的热力学特征:用于大型语言模型幻觉检测的自由能和谱形因子诊断
发表机构 * Talan Research & Innovation Center(Talan研究与创新中心)
AI总结 提出自由能签名(Fes)作为谱描述符,将注意力拉普拉斯视为哈密顿量并提取热力学势和随机矩阵理论谱形因子,用于检测LLM幻觉,无需训练即可实现高AUROC。
审计披露鲁棒的可废止解释的复杂性
AI总结 研究在增量披露下保持鲁棒的最小解释核心的复杂性,发现验证鲁棒核心为coNP完全,寻找大小不超过θ的鲁棒核心为Σ₂ᵖ完全,并给出了精确审计的复杂度景观。
Comments 11 pages, 4 figures; full proofs in appendix
VERITAS:验证器引导的零样本形式定理证明搜索
发表机构 * Department of Computer Science, Vanderbilt University(范德堡大学计算机科学系) ; Amazon(亚马逊)
AI总结 提出VERITAS框架,通过两阶段协议(Best-of-N采样+批评引导MCTS)利用验证器反馈进行零样本定理证明,在miniF2F上达40.6%准确率,并发布组合学基准VERITAS-CombiBench。
S-JEPA:用于自监督语音表示学习的软聚类锚点
发表机构 * Carnegie Mellon University(卡内基梅隆大学) ; New York University(纽约大学) ; James Silberrad Brown Center for AI(詹姆斯·西尔伯拉德·布朗人工智能中心) ; Columbia University(哥伦比亚大学) ; Northeastern University(东北大学) ; Stanford University(斯坦福大学) ; Amazon GenAI(亚马逊生成式人工智能)
AI总结 提出S-JEPA,通过KL散度匹配高斯混合模型的软后验概率训练编码器-预测器对,无需离线重聚类或教师蒸馏,在SUPERB协议下以低于90M参数取得最低WER,并建立新的帕累托前沿。
DiffusionVS:基于扩散策略的鲁棒视觉伺服生成框架
AI总结 提出基于扩散策略的视觉伺服方法,通过条件去噪生成相机速度,并采用在线训练增强泛化能力,仿真成功率近100%,物理实验93%。
Comments 8 pages, 4 figures, 7 tables
DevOps 与普通开发者:来自 Stack Overflow 2023 年调查的见解
AI总结 通过分析 Stack Overflow 2023 年调查数据,比较 DevOps 专家与普通开发者在工具、技术、方法论和人口统计上的差异,发现两者角色互补,工具偏好无显著差异。
Comments 17 pages, 11 tables, research paper based on the 2023 Stack Overflow Developer Survey data analysis