arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2507.16806 2026-05-18 cs.LG cs.AI cs.CL

Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty

Mehul Damani, Isha Puri, Stewart Slocum, Idan Shenfeld, Leshem Choshen, Yoon Kim, Jacob Andreas

AI总结本文研究了如何通过强化学习训练语言模型在生成推理链时更好地评估自身不确定性。传统方法使用二元奖励函数仅评价输出正确性，导致模型在面对不确定情况时容易产生错误回答。为此，作者提出了一种新的训练方法 RLCR，结合二元正确性奖励与 Brier 分数，同时优化模型的准确性和置信度校准。实验表明，RLCR 在多个数据集上显著提升了模型的校准能力，且不牺牲准确性，优于传统强化学习和事后置信度校准方法。

详情

英文摘要

When language models (LMs) are trained via reinforcement learning (RL) to generate natural language "reasoning chains", their performance improves on a variety of difficult question answering tasks. Today, almost all successful applications of RL for reasoning use binary reward functions that evaluate the correctness of LM outputs. Because such reward functions do not penalize guessing or low-confidence outputs, they often have the unintended side-effect of degrading calibration and increasing the rate at which LMs generate incorrect responses (or "hallucinate") in other problem domains. This paper describes RLCR (Reinforcement Learning with Calibration Rewards), an approach to training reasoning models that jointly improves accuracy and calibrated confidence estimation. During RLCR, LMs generate both predictions and numerical confidence estimates after reasoning. They are trained to optimize a reward function that augments a binary correctness score with a Brier score -- a scoring rule for confidence estimates that incentivizes calibrated prediction. We first prove that this reward function (or any reward function that uses a bounded, proper scoring rule) yields models whose predictions are both accurate and well-calibrated. We next show that across diverse datasets, RLCR substantially improves calibration with no loss in accuracy, on both in-domain and out-of-domain evaluations -- outperforming both ordinary RL training and classifiers trained to assign post-hoc confidence scores. While ordinary RL hurts calibration, RLCR improves it. Finally, we demonstrate that verbalized confidence can be leveraged at test time to improve accuracy and calibration via confidence-weighted scaling methods. Our results show that explicitly optimizing for calibration can produce more generally reliable reasoning models. Code, models, and further info is available at https://rl-calibration.github.io/.

URL PDF HTML ☆

赞 0 踩 0

2507.15778 2026-05-18 cs.CL

Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR

Jiakang Wang, Runze Liu, Fuzheng Zhang, Xiu Li, Guorui Zhou, Ling Pan

AI总结该研究针对强化学习与可验证奖励（RLVR）方法在提升大语言模型推理能力中的应用，提出了一种新的框架Archer，通过引入双令牌约束机制，区分处理高熵（与推理相关）和低熵（与知识存储相关）令牌的优化策略。该方法在保持序列生成依赖性的前提下，对不同类型的令牌施加差异化的更新强度控制，从而在数学推理和代码生成任务中取得了优于现有方法的性能提升，验证了其在细粒度优化策略设计中的有效性。

2507.01679 2026-05-18 cs.LG cs.AI cs.CL

Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling

Zeyu Huang, Tianhao Cheng, Zihan Qiu, Zili Wang, Yinghui Xu, Edoardo M. Ponti, Ivan Titov

AI总结本文研究了大语言模型后训练中监督微调（SFT）与强化微调（RFT）的结合方法，提出了Prefix-RFT这一混合策略，通过前缀采样实现从演示数据和探索行为中协同学习。该方法在数学推理任务中表现出色，不仅优于单独使用SFT或RFT，也优于其他混合策略，验证了SFT与RFT的互补性，并展示了其对演示数据质量与数量变化的鲁棒性。

Comments ICML 2026

2507.01201 2026-05-18 cs.LG cs.CV

Escaping Plato's Cave: JAM for Aligning Independently Trained Vision and Language Models

Lauren Hyoseo Yoon, Yisong Yue, Been Kim

AI总结该论文研究了如何对齐独立训练的视觉和语言模型，提出了一种名为JAM的方法，通过联合训练模态特定的自编码器，实现跨模态对齐。JAM引入了多模态扩散损失，有效提升了对齐效果，并系统分析了对齐目标、网络深度及基础模型规模对表示一致性的影响。研究不仅提供了对共享语义结构的理论见解，也为构建专业化的多模态模型提供了实用指导。

2507.00275 2026-05-18 cs.LG cs.AI

Deep Double Q-learning

Prabhat Nagarajan, Martha White, Marlos C. Machado

AI总结本文提出了一种深度强化学习算法——Deep Double Q-learning（DDQL），旨在解决传统深度Q网络（DQN）中存在的估计过高的问题。该方法通过显式训练两个独立的Q函数，结合降低经验回放比例、延长目标网络更新间隔等技术，有效提升了训练稳定性。实验表明，DDQL在57款Atari 2600游戏中整体表现优于Double DQN，在其中47款游戏中表现更优，并进一步减少了估计过高的现象。

Comments 44 pages

2506.23552 2026-05-18 cs.CV cs.SD eess.AS

JAM-Flow: Joint Audio-Motion Synthesis with Flow Matching

Mingi Kwon, Joonghyuk Shin, Jaeseok Jung, Jaesik Park, Youngjung Uh

AI总结本文提出了一种名为 JAM-Flow 的统一框架，用于同时生成面部运动和语音信号，解决了传统方法中将人脸生成与语音合成作为独立任务处理的问题。该方法结合了流匹配技术和一种新型的多模态扩散变换器（MM-DiT）架构，通过选择性联合注意力层实现跨模态交互，并保留各模态的特性。JAM-Flow 能够在单一模型中支持多种条件输入，如文本、参考音频和参考运动，从而实现从文本生成同步说话人脸、音频驱动动画等多种任务，显著推进了多模态生成建模的发展。

Comments project page: https://joonghyuk.com/jamflow-web Under review. Preprint published on arXiv

2506.06739 2026-05-18 cs.AI cs.LG

Honey, I shrunk the hypothesis space (through logical preprocessing)

Andrew Cropper, Filipe Gouveia, David M. Cerna

AI总结该研究提出了一种通过逻辑预处理缩小归纳逻辑编程（ILP）假设空间的方法。利用背景知识，该方法在学习前移除那些无论训练数据如何都无法出现在最优假设中的规则，例如“偶数不可能是奇数”等逻辑矛盾。实验表明，这种方法在保持预测精度的同时，显著减少了学习时间，例如在仅花费10秒预处理的情况下，将原本需要10小时以上的学习时间缩短至仅2秒。

Comments Published in JAIR

2506.05878 2026-05-18 cs.LG

A projection-based framework for gradient-free and parallel learning

Andreas Bergmeister, Manish Krishan Lal, Stefanie Jegelka, Suvrit Sra

AI总结本文提出了一种基于投影的神经网络训练框架，不同于传统的梯度下降方法，它将训练过程转化为一个大规模可行性问题，通过迭代投影算法寻找满足局部约束的网络参数。该方法利用投影算子进行局部操作，支持并行计算，适用于处理非微分操作。作者开发了PJAX工具包，实现了该框架，支持GPU/TPU加速，并在多种网络结构上验证了其有效性，展示了其在并行性和通用性方面的优势。

2505.21698 2026-05-18 cs.CV

Adapting Foundation Vision-Language Models to Medical Diagnosis via Query-Driven Expert Bridging

Yitong Li, Morteza Ghahremani, Christian Wachinger

AI总结该研究针对基础视觉-语言模型在医学影像诊断中的应用难题，提出了一种名为MedBridge的轻量级适配框架，通过结合领域对齐、分辨率保持和多标签推理，有效缓解了医学图像与通用图像之间的领域差异。MedBridge利用预训练的视觉-语言模型作为多视角查询编码器，引入可学习的查询标记以实现非破坏性的领域适配，并通过多专家混合架构动态整合异构模型进行多标签诊断，显著提升了跨领域和同领域任务的性能。实验表明，该方法在多个胸部X光诊断基准上优于现有方法，且具有模型无关性和良好的扩展性。

2505.21535 2026-05-18 cs.CV cs.AI cs.LG

FAR: Function-preserving Attention Replacement for IMC-friendly Inference

Yuxin Ren, Maxwell D Collins, Miao Hu, Huanrui Yang

AI总结本文提出了一种名为FAR的函数保持注意力替换框架，旨在解决Transformer模型在基于忆阻器（ReRAM）的存算一体（IMC）设备上推理效率低的问题。FAR通过将预训练DeiT模型中的注意力机制替换为与IMC数据流兼容的多头双向LSTM结构，并结合块级知识蒸馏和结构化剪枝，实现了功能等效的同时显著降低了计算延迟和参数量。实验表明，FAR在ImageNet及多个下游任务上保持了与原始模型相当的准确率，展示了其在边缘计算设备上高效部署Transformer模型的潜力。

Comments 7 pages main paper, 6 figures; accepted by GLSVLSI 2026

2505.19241 2026-05-18 cs.LG cs.AI

ActiveDPO: Active Direct Preference Optimization for Sample-Efficient Alignment

Xiaoqiang Lin, Arun Verma, Zhongxiang Dai, Daniela Rus, See-Kiong Ng, Bryan Kian Hsiang Low

AI总结本文提出了一种名为 ActiveDPO 的主动直接偏好优化方法，旨在提升大语言模型对齐过程中的样本效率。该方法基于理论支撑的数据选择准则，适用于非线性奖励函数，并直接利用待对齐的LLM本身参数化奖励模型，从而更有效地指导数据选择。实验表明，ActiveDPO 在多种模型和真实偏好数据集上均优于现有方法，显著提升了对齐效果与数据使用效率。

Comments Accepted at ICLR 2026

2505.18511 2026-05-18 cs.LG math.AP physics.comp-ph

SPDEBench: An Extensive Benchmark for Learning Stochastic PDEs

Yuantu Zhu, Zheyan Li, Dai Shi, Luke Thompson, Oliver Nash, Jose Miguel Lara Rangel, Siran Li, Bingguang Chen, Rongchan Zhu, Qi Meng, Hao Ni

AI总结本文介绍了SPDEBench，这是首个用于学习随机偏微分方程（SPDEs）的统一基准平台，旨在解决当前在该领域缺乏标准化数据集和评估体系的问题。该基准涵盖了具有周期或狄利克雷边界条件的1-3维物理和数学上重要的SPDEs，包括常规和奇异SPDEs，并提供了多种机器学习基线模型及七种评估指标。实验表明，针对SPDE设计的模型在准确性和泛化能力方面优于通用操作符学习方法，SPDEBench为相关研究提供了可复现且可扩展的资源。

详情

英文摘要

Stochastic Partial Differential Equations (SPDEs) driven by random noise play a central role in modeling physical processes with rough spatio-temporal dynamics, such as turbulence flows, superconductors, and quantum dynamics. Although machine learning (ML)-based surrogate models have shown promise for efficiently approximating such dynamics, progress remains limited by the lack of a unified benchmark with controlled data generation and comprehensive evaluation. This gap is particularly significant for singular SPDEs, for which benchmark datasets are largely unavailable and reliable simulation requires numerically delicate schemes based on renormalization. Moreover, subtle differences in data-generation procedures, such as noise approximation, basis choice, and the inclusion of renormalization, can significantly affect the resulting datasets and, consequently, model evaluation. We introduce SPDEBench, the first unified benchmark for ML-based SPDE learning. SPDEBench provides ready-to-use datasets for physically and mathematically significant SPDEs on 1-3D domains with periodic or Dirichlet boundary condition. Both regular and singular SPDEs are taken into consideration. SPDEBench also incorporates representative ML baselines in operator learning, together with 7 evaluation metrics, including Sobolev and distributional metrics beyond the standard $L^2$-error. Supported by SPDEBench, we conduct systematic evaluations of model accuracy, robustness, and out-of-distribution generalization under controlled data variations. Our numerical results show that SPDE-aware architectures generally achieve stronger performance than generic operator-learning baselines. These findings establish SPDEBench as a reproducible and extensible resource, paving pathway for principled benchmarking and architecture design for stochastic spatio-temporal dynamics.

URL PDF HTML ☆

赞 0 踩 0

2505.18134 2026-05-18 cs.AI cs.CL cs.CV

VideoGameBench: Can Vision-Language Models complete popular video games?

Alex L. Zhang, Thomas L. Griffiths, Karthik R. Narasimhan, Ofir Press

AI总结 VideoGameBench 是一个用于评估视觉语言模型（VLMs）完成流行视频游戏能力的基准测试，包含10款90年代经典游戏，模型仅通过原始视觉输入和目标描述进行实时交互。该研究揭示了当前前沿VLM在实时游戏任务中表现有限，难以完成完整游戏，主要受限于推理延迟等问题。为此，研究还提出了VideoGameBench Lite 以缓解实时性挑战，并指出当前最先进的模型在该基准上的完成率仍非常低。

Comments 10 pages, 38 pages including supplementary

2505.13350 2026-05-18 cs.RO

Approximating Global Contact-Implicit MPC via Sampling and Local Complementarity

Sharanya Venkatesh, Bibit Bianchini, Alp Aydinoglu, William Yang, Michael Posa

AI总结为实现通用的灵巧操作，机器人需要快速规划并执行富含接触的运动行为。现有基于模型的控制器无法在实时中对指数级可能的接触序列进行全局优化，而隐式接触控制方法虽简化了模型，但仅能局部近似，限制了对接触空间的探索。本文提出一种结合局部互补性控制与全局采样的新方法，在每个控制周期中先进行无接触阶段的采样，再基于每个采样点进行富含接触的局部模型预测控制，从而实现全局感知的隐式接触控制器，能够在实时中完成非凸物体的精确非抓取操作。

Comments S.V. and B.B. contributed equally to this work. Accepted to RA-L 2025; presented at ICRA 2026. Project page: https://approximating-global-ci-mpc.github.io

2505.12601 2026-05-18 cs.LG

Rethinking Predictive Modeling for LLM Routing: When Simple kNN Beats Complex Learned Routers

Yang Li

AI总结随着大语言模型（LLM）规模和专业性不断提升，如何高效选择最适合的模型处理输入已成为关键问题。本文重新审视LLM路由策略，发现经过精心调优的k近邻（kNN）方法在多种任务中不仅表现优异，甚至优于当前最先进的学习路由方法。研究引入了一系列标准化路由基准和首个多模态路由数据集，揭示了嵌入空间中模型性能的局部特性使得非参数方法在样本复杂度上更具优势，挑战了当前追求复杂架构的趋势。

2505.07322 2026-05-18 cs.CV

RealRep: Generalized SDR-to-HDR Conversion via Attribute-Disentangled Representation Learning

Li Xu, Siqi Wang, Kepeng Xu, Gang He, Lin Zhang, Weiran Wang, Yu-Wing Tai

AI总结本文提出了一种通用的SDR到HDR转换框架RealRep，通过解耦亮度和色度属性的学习，提升对真实世界中多样SDR内容的鲁棒性。核心方法包括解耦表征学习、基于退化感知的负样本生成策略，以及一个轻量的两阶段映射网络DDACMNet，能够根据退化条件动态调整映射过程。实验表明，RealRep在泛化能力和HDR色彩重构的感知保真度方面均优于现有方法。

Comments Published on AAAI'26(Oral): The Annual AAAI Conference on Artificial Intelligence

2505.06982 2026-05-18 cs.CV

Decentralized LoRA augmented transformer with multi-scale feature learning for secured eye diagnosis

Md. Naimur Asif Borno, Md Sakib Hossain Shovon, MD Hanif Sikder, Iffat Firozy Rimi, Tahani Jaser Alahmadi, Mohammad Ali Moni

AI总结本文提出了一种基于改进型图像Transformer（DeiT）的去中心化眼病诊断框架，旨在解决医学影像中眼科疾病诊断面临的数据不平衡、隐私保护、空间特征多样性和临床可解释性等挑战。该方法结合多尺度特征学习、低秩适配（LoRA）、知识蒸馏和联邦学习，有效提升了模型在计算效率、数据隐私保护和诊断性能方面的表现。实验表明，该框架在多个基准数据集上优于传统卷积神经网络和现有Transformer模型，并通过Grad-CAM++提供了可解释的诊断依据，为安全、可扩展的眼科AI诊断系统奠定了基础。

Comments Published at Knowledge-Based Systems

2504.21850 2026-05-18 cs.CV

Visual Compositional Tuning

Xindi Wu, Hee Seung Hwang, Polina Kirichenko, Esin Tureci, Olga Russakovsky

AI总结本文研究了视觉指令微调（VIT）数据集中样本复杂度对信息量的影响，提出了一种名为COMPACT的合成数据生成方法，通过在一个训练样本中组合多个基础视觉能力，显著提升了数据效率。实验表明，COMPACT在减少训练数据量90%的情况下，仍能保持与完整数据相当甚至更好的模型性能，在多个视觉语言基准测试中表现优异。该方法为提升视觉语言任务的训练效率提供了可扩展的解决方案。

Comments See the project website at this [URL](https://princetonvisualai.github.io/compact/)

2504.09544 2026-05-18 cs.LG cs.CE cs.CV

Integrating chemical structures as treatments improves representations of microscopy images for morphological profiling

Yemin Yu, Emre Hayir, Neil Tenenholtz, Lester Mackey, Ying Wei, David Alvarez-Melis, Ava P. Amini, Alex X. Lu

AI总结该研究提出了一种名为MICON的新框架，通过在自监督预训练中整合化学结构信息，提升高通量显微图像的表征能力，以更准确地进行形态学分析。研究认为，将化合物结构作为诱导细胞表型变化的“处理”因素进行建模，能够显著优于传统手工特征和现有深度学习方法。实验表明，结合化学信息的表征学习在跨实验重复和数据来源的药物效应识别任务中表现更优，为多模态显微筛查数据的表征学习提供了新方向。

Comments 24 pages

2504.08300 2026-05-18 cs.CL cs.AI

Large Language Models Could Be Rote Learners

Yuyang Xu, Renjun Hu, Haochao Ying, Jian Wu, Xing Shi, Wei Lin

AI总结本文研究了大语言模型（LLMs）在基准测试中的表现是否受到训练数据污染的影响，指出当前基于基准测试的评估方式可能高估了模型的真实能力。为此，作者提出了一种新的评估框架TrinEval，通过重构多选题形式，减少对记忆的依赖，从而更准确地评估模型的真实学习能力。实验表明，主流大语言模型在多个数据集上约有19.6%的知识点依赖于死记硬背，而非真正的理解与推理能力。

Comments Work in Progress

2504.05451 2026-05-18 cs.CV

ViewBridge: Curriculum Knowledge Distillation for Activity View-Invariance Under Extreme Viewpoint Changes

Arjun Somayazulu, Efi Mavroudi, Changan Chen, Lorenzo Torresani, Kristen Grauman

AI总结 ViewBridge 是一种用于学习活动视点不变表示的框架，旨在应对野外视频中极端视角变化带来的挑战。该方法通过知识蒸馏保留动作语义，并结合课程学习策略，逐步增加视角难度以实现平滑适应。实验表明，ViewBridge 在两个任务上优于现有方法，适用于多个数据集。

2503.16589 2026-05-18 cs.LG cs.ET math.ST stat.TH

A Statistical Analysis for Per-Instance Evaluation of Stochastic Optimizers: Avoiding Unreliable Conclusions

Moslem Noori, Elisabetta Valiante, Thomas Van Vaerenbergh, Masoud Mohseni, Ignacio Rozada

AI总结本文针对随机优化器的性能评估问题，提出了一种统计分析方法，以避免因实验设计不当导致的不可靠结论。研究分析了常用性能指标的置信区间及其与实验重复次数的关系，并推导出保证指标精度所需的最小重复次数下界。基于此，作者提出了一种自适应调整重复次数的算法，以提高评估的准确性和可靠性。实验结果验证了该方法在基准测试和超参数调优中的有效性。

2503.07518 2026-05-18 cs.CL cs.AI cs.LG

TokenButler: Token Importance is Predictable

Yash Akhauri, Ahmed F AbouElhamayed, Yifei Gao, Chi-Chih Chang, Sameh Gobriel, Nilesh Jain, Mohamed S. Abdelfattah

AI总结大型语言模型在解码过程中依赖键值缓存（KV-Cache）存储历史信息，但随着缓存增长，其成为内存和计算瓶颈。为解决这一问题，本文提出TokenButler，一种高精度、查询感知的标记重要性预测方法，能够在固定预算下动态选择关键标记，同时保留完整的KV缓存。该方法通过学习预测低维重要性查询，并结合缓存键的投影进行高效评分，实验表明其在长上下文任务中性能优越，并显著提升了推理速度。

详情

英文摘要

Large Language Models (LLMs) rely on the Key-Value (KV) Cache to store token history, enabling efficient decoding of tokens. As the KV-Cache grows, it becomes a major memory and computation bottleneck. However, there is an opportunity to alleviate this bottleneck, prior research has shown that only a small subset of tokens contribute meaningfully to each decoding step. A key challenge in finding these critical tokens is that they are dynamic, and heavily input query-dependent. Existing methods either risk quality by evicting tokens permanently, or retain the full KV-Cache but rely on retrieving chunks of tokens and many existing KV-Cache sparsity methods rely on inaccurate proxies for token importance. To address these limitations, we introduce TokenButler, a high-granularity, query-aware predictor that learns to identify these critical tokens. TokenButler predicts low-dimensional importance queries at a fixed depth stride, and combines them with a learned projection of the real KV-cache keys to score tokens cheaply, enabling dynamic per-token selection under a fixed budget while preserving the full KV cache. We train TokenButler by distilling the model's masked causal attention distributions, optimizing a lightweight predictor with minimal parameter overhead. We evaluate TokenButler on a novel synthetic small-context co-referential retrieval task, demonstrating near-oracle accuracy where existing methods fail. Furthermore, TokenButler achieves competitive or superior performance on long-context benchmarks (RULER, LongBench), up to $\approx1.6\times$ on-GPU speedup using our proposed *prediction interval with neighbor fetching* that amortizes predictor cost while maintaining accuracy within $\approx$1.1\%, and up to 7.6$\times$ reduction in latency compared to Dense Attention with CPU offloading. Code is available: https://github.com/abdelfattah-lab/TokenButler

URL PDF HTML ☆

赞 0 踩 0

2503.02597 2026-05-18 cs.CV cs.AI

Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs

Wei-Yao Wang, Zhao Wang, Helen Suzuki, Yoshiyuki Kobayashi

AI总结近期多模态大语言模型（MLLMs）在理解和推理多模态信息方面取得了显著进展，但视觉与语言模态之间的对齐问题仍是一个关键挑战。本文从模型架构层面出发，提出了一种新的模态互注意力机制（MMA），通过将因果注意力扩展为跨模态互注意力，使图像模态能够关注文本模态，从而提升模型对输入信息的准确理解。该方法在多个多模态理解基准测试中取得了优越性能，且无需增加额外参数，具有通用性和可扩展性。

Comments ICML 2026. Code is available at https://github.com/sony/aki

2502.12187 2026-05-18 cs.CL cs.FL cs.LG math.ST stat.ML stat.TH

Hallucinations are inevitable but can be made statistically negligible

Atsushi Suzuki, Yulan He, Feng Tian, Zhongyuan Wang

AI总结本文探讨了语言模型中不可避免的“幻觉”现象，即模型生成非事实内容的问题。尽管已有研究从可计算性理论角度证明，任何语言模型在无限输入集上都会产生幻觉，但本文从概率论角度提出，只要训练数据的质量和数量足够，幻觉在统计意义上可以被显著降低。研究指出，虽然可计算性理论结果具有理论意义，但概率理论结果更符合实际应用需求，为缓解幻觉问题提供了新的理论依据。

2501.19128 2026-05-18 cs.LG cs.AI

Shaping Sparse Rewards in Reinforcement Learning: A Semi-supervised Approach

Wenyun Li, Wenjie Huang, Chen Sun

AI总结在强化学习中，稀疏奖励信号使得奖励函数的学习变得困难。本文提出一种半监督方法，结合非零奖励转移和数据增强技术，利用大量零奖励转移学习轨迹表示，从而提升奖励塑形的效果。实验表明，该方法在Atari和机器人操作任务中优于基于监督的方法，尤其在稀疏奖励环境下，其最高得分可达监督方法的两倍。

2501.17116 2026-05-18 cs.LG cs.CL

Optimizing Large Language Model Training Using FP4 Quantization

Ruizhe Wang, Yeyun Gong, Xiao Liu, Guoshuai Zhao, Ziyue Yang, Baining Guo, Zhengjun Zha, Peng Cheng

AI总结随着大语言模型（LLM）训练的计算需求不断增长，如何提高训练效率成为关键问题。本文提出首个基于FP4量化的大语言模型训练框架，通过可微分量化估计器和异常值截断补偿策略，有效解决了FP4精度下量化误差大、表征能力有限的问题，并结合混合精度训练和向量化量化保证训练稳定性。实验表明，该框架在保持与BF16和FP8相近精度的同时，能够高效支持超大规模模型的训练。

2412.02271 2026-05-18 cs.CL

The MediaSpin Dataset: Post-Publication News Headline Edits Annotated for Media Bias

Preetika Verma, Kokil Jaidka

AI总结本文介绍了 MediaSpin 数据集，这是一个大规模语言资源，记录了主要新闻机构在新闻发布后对标题的修改情况，并配套了 MediaSpin-in-the-Wild 数据集，用于分析这些修改后的标题在社交媒体上的互动情况。数据集包含78,910对标题，标注了13种媒体偏见类型，涵盖主观和客观偏见形式，并通过专家验证的大型语言模型进行标注。研究展示了该数据集在跨国家分析、偏见分类和社交媒体行为分析中的应用，揭示了媒体报道中的区域框架不对称性、可量化的语言特征以及偏见内容的高互动性。

Comments 8 pages, 3 figures, 8 tables Accepted at AAAI ICWSM 2026 We updated the paper title from "MediaSpin: Exploring Media Bias Through Fine-Grained Analysis of News Headlines " to "The MediaSpin Dataset: Post-Publication News Headline Edits Annotated for Media Bias"

2410.01990 2026-05-18 cs.LG cs.CE

Deep Learning Alternatives of the Kolmogorov Superposition Theorem

Leonardo Ferreira Guilhoto, Paris Perdikaris

AI总结本文探讨了作为神经网络设计基础的柯尔莫戈罗夫叠加定理（KST）的替代形式。传统KST在数学上优雅，但因其对内外函数结构的洞察有限且引入大量未知变量，带来实际应用挑战。为此，研究提出了一种可扩展的深度学习模型ActNet，克服了原KST的诸多缺陷，并在物理信息神经网络（PINNs）框架下进行了评估，结果表明ActNet在偏微分方程模拟等任务中优于基于KST的Kolmogorov-Arnold网络，并具有与传统多层感知机相当的竞争力。

2409.11022 2026-05-18 cs.CL cs.AI

DynamicNER: A Dynamic, Multilingual, and Fine-Grained Dataset for LLM-based Named Entity Recognition

Hanjun Luo, Yingbin Jin, Xinfeng Li, Xuecheng Liu, Ruizhe Chen, Tong Shang, Kun Wang, Qingsong Wen, Zuozhu Liu

AI总结随着大语言模型（LLM）在命名实体识别（NER）任务中的应用日益广泛，现有数据集在语料选择和设计逻辑上已难以满足LLM方法的需求。为此，本文提出DynamicNER，一个专为LLM设计的动态、多语言、细粒度NER数据集，支持同一实体在不同上下文中具有不同实体类型，涵盖8种语言和155种实体类型，适用于广泛领域。同时，本文还提出CascadeNER方法，通过两阶段策略和轻量级LLM实现更高效的细粒度识别，实验表明DynamicNER为LLM-based NER提供了有效的评估基准。

Comments This paper is accepted by EMNLP 2025 Main Conference