arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.06869 2026-05-14 cs.AI

Agentick: A Unified Benchmark for General Sequential Decision-Making Agents

Roger Creus Castanyer, Pablo Samuel Castro, Glen Berseth

AI总结本文提出 Agentick，一个用于评估通用序列决策智能体的统一基准，旨在公平比较从头学习的强化学习智能体、基于预训练知识的语言模型智能体以及混合智能体等不同方法。Agentick 提供了 37 个程序生成的任务，涵盖六类能力、四个难度等级和五种观测模态，并通过统一的 Gymnasium 接口实现，同时配套了编码接口、参考策略、训练数据集和实时排行榜。实验表明，不同方法在不同任务上各有优劣，突显了当前智能体研究仍有较大提升空间，Agentick 为推动通用自主智能体的发展提供了重要的实验平台。

2605.06387 2026-05-14 cs.LG cs.AI

Asymmetric On-Policy Distillation: Bridging Exploitation and Imitation at the Token Level

Nan Jia, Haojin Yang, Xing Ma, Jiesong Lian, Shuailiang Zhang, Weipeng Zhang, Ke Zeng, Xunliang Cai, Zequn Sun

AI总结本文研究了如何改进基于策略的蒸馏方法，以在令牌级别更好地结合探索与模仿学习。针对传统方法在优势权重策略梯度中的高方差更新、零优势区域梯度消失和探索瓶颈等问题，提出了一种不对称的在策略蒸馏方法（AOPD），通过在非正优势区域采用局部散度最小化替代无效的负强化，同时保留正强化学习。实验表明，AOPD在数学推理基准中表现优于标准方法，且在训练过程中保持更高的策略熵和更好的工具使用适应能力。

2605.06309 2026-05-14 cs.CL

MultiLinguahah : A New Unsupervised Multilingual Acoustic Laughter Segmentation Method

Sofia Callejas, Nahuel Gomez, Catherine Pelachaud, Brian Ravenet, Valentin Barriere

AI总结本文提出了一种新的无监督多语言笑声分割方法MultiLinguahah，旨在解决跨语言环境下音频中笑声检测和分割的难题。该方法将笑声分割任务转化为基于能量的音频序列异常检测问题，并利用BYOL-A编码器学习音频表示，再通过孤立森林进行分割。实验结果表明，该方法在非英语语境下优于现有的先进算法，展示了其在多语言场景中的优越性和泛化能力。

2605.05875 2026-05-14 cs.RO physics.flu-dyn

Cycle-resolved Cephalopod-Inspired Pulsed-Jet Robot With High-Volume Expulsion and Drag-Reduced Gliding

Yiyuan Zhang, Anye Zhong, Junkai Chen, Wenci Xin

AI总结本文提出了一种受章鱼启发的脉冲喷射机器人，其采用刚柔结合的折纸式外套结构，实现了大体积主动喷射和减阻滑翔。该机器人通过协调喷射、滑翔和外套充盈的完整周期运动，提升了整体推进效率。实验表明，该机器人在首次喷射周期内即可达到0.5 m/s的峰值速度，并验证了高喷射体积比、减阻滑翔和被动进水阀对推进性能的关键作用。

Comments Updated author list; no changes to the scientific content

2605.04759 2026-05-14 cs.CL cs.AI cs.ET cs.LG

Gyan: An Explainable Neuro-Symbolic Language Model

Venkat Srinivasan, Vishaal Jatav, Anushka Chandrababu, Geetika Sharma

AI总结本文提出了一种可解释的神经符号语言模型Gyan，其基于一种新颖的非Transformer架构，克服了传统大语言模型在可解释性、可维护性和计算资源消耗等方面的不足。Gyan通过结合修辞结构理论、语义角色理论和基于知识的计算语言学，实现了对完整组合语境的捕捉，并构建了一个类人“世界模型”以增强理解能力。实验表明，Gyan在多个数据集上取得了优越的性能，展示了其在关键任务中构建可信、可靠语言模型的潜力。

Comments also submitted to NeurIPS 2026

2605.04506 2026-05-14 cs.CV cs.AI

Ilov3Splat: Instance-Level Open-Vocabulary 3D Scene Understanding in Gaussian Splatting

Binh Long Nguyen, Kien Nguyen, Sridha Sridharan, Clinton Fookes, Peyman Moghadam

AI总结 Ilov3Splat 是一种基于高斯点扩散（3D-GS）的新型框架，用于实现实例级别的开放词汇三维场景理解。该方法通过在高斯点中引入视图一致的特征场，联合优化场景几何与语义表示，从而提升跨视角一致性与实例级推理能力。通过结合多分辨率哈希嵌入与对比损失训练实例特征场，Ilov3Splat 能够在无需类别监督的情况下，基于自然语言描述准确识别和分割三维场景中的任意物体，显著优于现有开放词汇三维理解方法。

Comments The International Conference on Pattern Recognition (ICPR) 2026

2605.03410 2026-05-14 cs.AI

Geometry over Density: Few-Shot Cross-Domain OOD Detection

Shawn Li, You Qin, Jiate Li, Charith Peris, Lisa Bauer, Roger Zimmermann, Yue Zhao

AI总结本文研究了在仅有少量样本的情况下，如何利用预训练模型进行跨领域异常检测的问题。提出了一种名为UFCOD的统一框架，通过分析扩散过程中的信息几何特性，提取路径能量和动力学能量两个特征，实现无需额外训练即可在任意新领域进行OOD检测。该方法在12个跨领域基准测试中取得了93.7%的平均AUROC，展示了其在样本效率上的显著优势。

2605.01457 2026-05-14 cs.AI

CoFlow: Coordinated Few-Step Flow for Offline Multi-Agent Decision Making

Guowei Zou, Haitao Wang, Beiwen Zhang, Boning Zhang, Hejun Wu

AI总结本文提出了一种名为CoFlow的协调少步流方法，用于离线多智能体决策问题。该方法通过引入协调速度注意力机制和自适应协调门控，实现了在单次生成过程中保持智能体间协调性的目标，从而克服了现有少步生成方法在协调性上的不足。实验表明，CoFlow在多种任务中表现出色，能够在仅需1到3步去噪的情况下达到最先进的协调质量，且其性能提升主要归因于智能体间的协调能力增强。

Comments 34 pages, 15 figures, 10 tables. Project page: https://guowei-zou.github.io/coflow/

2605.00238 2026-05-14 cs.CL

Estimating LLM Grading Ability and Response Difficulty in Automatic Short Answer Grading via Item Response Theory

Longwei Cong, Sonja Hahn, Sebastian Gombert, Leon Camus, Hendrik Drachsler, Ulf Kroehne

AI总结该研究提出了一种基于项目反应理论（IRT）的评估框架，用于分析基于大语言模型（LLM）的自动短答案评分系统的评分能力和响应难度。该方法能够揭示模型在不同难度回答上的评分表现差异，发现整体性能相似的模型在面对难度增加时其评分准确性下降程度存在显著差异。研究还发现，困难回答的错误主要集中于“部分正确但不完整”标签，且这类回答在语义对齐度、矛盾信号和嵌入空间孤立性等方面表现出更高的难度特征。

Comments accepted at BEA 2026, the 21st Workshop on Innovative Use of NLP for Building Educational Applications

2605.00200 2026-05-14 cs.CL

Confidence Estimation in Automatic Short Answer Grading with LLMs

Longwei Cong, Sonja Hahn, Sebastian Gombert, Leon Camus, Hendrik Drachsler, Ulf Kroehne

AI总结本文研究了基于大语言模型的自动短答案评分中的置信度估计问题，旨在提升人机协作教育评估的安全性与可靠性。作者提出了一种结合模型置信度和数据集不确定性的混合置信度框架，通过对比多种模型置信度估计方法，发现单一模型置信度不足以准确反映评分不确定性。该框架引入了基于学生回答语义聚类的噪声估计，有效提升了置信度估计的可靠性与选择性评分性能，为可信的AI辅助教育评估系统提供了支持。

Comments accepted to the 27th International Conference on Artificial Intelligence in Education (AIED 2026)

2604.27996 2026-05-14 cs.AI cs.GR cs.HC

Exploring Interaction Paradigms for LLM Agents in Scientific Visualization

Jackson Vonderhorst, Kuangshi Ai, Haichao Miao, Shusen Liu, Chaoli Wang

AI总结本文研究了不同类型的大型语言模型（LLM）代理在科学可视化任务中的表现，用户通过自然语言指令生成可视化流程。通过比较三种主要交互范式，包括使用结构化工具的领域特定代理、计算机使用代理和通用编程代理，在15个基准任务中评估了八种代表性代理的可视化质量、效率、鲁棒性和计算成本。研究还分析了不同交互方式及持久记忆对性能的影响，结果表明各类方法在灵活性、效率和稳定性方面存在明显权衡，未来科学可视化系统应结合结构化工具使用、交互能力和自适应记忆机制以实现性能与灵活性的平衡。

2604.27389 2026-05-14 cs.CV cs.AI

COHERENCE: Benchmarking Fine-Grained Image-Text Alignment in Interleaved Multimodal Contexts

Bingli Wang, Huanze Tang, Haijun Lv, Zhishan Lin, Lixin Gu, Lei Feng, Qipeng Guo, Kai Chen

AI总结本文提出COHERENCE基准，旨在评估多模态大语言模型在交织图文上下文中进行细粒度图文对齐的能力。现有基准多关注单一或多个图像的理解，而现实场景中信息常以图文交织形式呈现，要求模型不仅识别图像内容，还需建立图文间的细粒度关联并进行推理。COHERENCE涵盖四个代表性领域的交织图文内容，包含6,161个高质量问题，并通过六类错误分析，揭示当前模型在该任务中的不足。

2604.21345 2026-05-14 cs.AI cs.CL

Evaluating AI Meeting Summaries with a Reusable Cross-Domain Pipeline

Philip Zhong, Don Wang, Jason Zhang

AI总结本文提出了一种可复用的跨领域评估系统，用于评估AI会议摘要的质量，系统整合了结构化真实标签构建、固定候选生成、基于主张的评分、持久化报告以及隐私保护的在线监控与提名接口。通过在114场会议数据上进行测试，研究发现不同模型在准确性方面差异不显著，但在保留率方面，gpt-5.1模型表现出更高的完整性和覆盖率。该工作为AI会议摘要的评估提供了一套标准化且可扩展的评估框架。

Comments AI Application Feature Quality Evaluation (28 pages total)

2604.17895 2026-05-14 cs.RO

Locomotion of an Elastic Snake Robot via Natural Dynamics

Tristan Ehlert, Arne Sachtler, Annika Schmidt, Davide Calzolari, Alin Albu-Schäffer

AI总结本文研究了如何利用弹性蛇形机器人的自然动力学特性设计高效运动模式。通过引入特征流形理论，作者分析了系统的非线性动力学行为，并提出了两种基于自然动力学的步态。实验表明，在无摩擦的理想情况下，基于非制动周期轨迹的步态具有完美的能量效率，而在更现实的有摩擦场景中，该步态相比传统刚性系统步态也表现出更高的效率，为基于自然动力学的步态设计提供了有价值的参考。

2604.09025 2026-05-14 cs.CV cs.AI

Skill-Conditioned Visual Geolocation for Vision-Language Models

Chenjie Yang, Yutian Jiang, Yutong Deng, Chenyu Wu

AI总结该研究针对视觉语言模型在地理定位任务中缺乏结构化地理推理和自主进化能力的问题，提出了一种无需训练的GeoSkill框架。该方法基于一个可演进的技能图（Skill-Graph），通过提炼人类专家轨迹生成自然语言技能，并利用推理模型进行引导式推理。同时，通过自主进化机制，从大规模网络数据中不断生成和优化技能，提升地理定位的准确性和推理可信度，显著增强了模型对真实地理知识的理解与泛化能力。

2604.08944 2026-05-14 cs.LG cs.MA

Multi-Agent Decision-Focused Learning via Value-Aware Sequential Communication

Benjamin Amoh, Geoffrey Parker, Wesley Marrero

AI总结该研究提出了一种名为 SeqComm-DFL 的多智能体决策聚焦学习方法，旨在提升部分可观测环境下智能体之间的协作效率。该方法通过价值感知的序列通信机制，使智能体在优先级顺序下生成有助于提升决策质量的消息，并结合Stackelberg条件进行信息传递。研究还扩展了最优模型设计框架，结合QMIX分解实现高效端到端训练，并在多个基准任务中显著提升了累积奖励和胜率。

Comments 9 pages, 2 figues, 1 table, neurips 2026

2604.08039 2026-05-14 cs.CV cs.AI cs.LG

LINE: LLM-based Iterative Neuron Explanations for Vision Models

Vladimir Zaigrajew, Michał Piechota, Gaspar Sekula, Paweł Gelar, Przemysław Biecek

AI总结本文提出了一种基于大语言模型的迭代神经元解释方法LINE，用于对视觉模型中的神经元进行开放词汇的概念标注。LINE在黑盒设置下，通过语言模型和图像生成器迭代生成并优化概念描述，无需模型训练，能够发现传统预定义词汇表中遗漏的概念，并在多个数据集上取得了优于现有方法的性能。该方法不仅能够识别每个神经元的主要概念，还能提供完整的生成历史，支持多义性评估和生成可视化解释。

2604.04692 2026-05-14 cs.CL cs.AI cs.CV

Is a Picture Worth a Thousand Words? Adaptive Multimodal Fact-Checking with Visual Evidence Necessity

Jaeyoon Jung, Yejun Yoon, Kunwoo Park

AI总结本文研究了在多模态事实核查任务中是否应普遍使用视觉证据的问题，挑战了现有研究中“视觉证据总是有助于提升性能”的假设。为此，作者提出了AMuFC框架，通过两个协作的视觉-语言模型，分别用于判断是否需要视觉证据以及基于证据进行事实验证，从而实现对视觉证据的自适应使用。实验表明，该方法在三个数据集上显著提升了事实核查的准确性。

Comments preprint, 18 pages

2604.04667 2026-05-14 cs.CV cs.LG cs.RO

ZeD-MAP: Bundle Adjustment Guided Zero-Shot Depth Maps for Real-Time Aerial Imaging

Selim Ahmet Iz, Francesco Nex, Norman Kerle, Henry Meissner, Ralf Berger

AI总结本文提出了一种名为ZeD-MAP的框架，用于实现实时无人机航拍图像的高精度深度重建。该方法结合零样本扩散模型与增量聚类式光束法平差（BA），在无需任务特定再训练的情况下，提升了深度估计的度量一致性和时间连续性。实验表明，该方法在高分辨率航拍图像上实现了亚米级精度，且单帧处理时间在1.47到4.91秒之间，适用于实时三维地图生成。

详情

英文摘要

Real-time depth reconstruction from ultra-high-resolution UAV imagery is essential for time-critical geospatial tasks such as disaster response, yet remains challenging due to wide-baseline parallax, large image sizes, low-texture or specular surfaces, occlusions, and strict computational constraints. Recent zero-shot diffusion models offer fast per-image dense predictions without task-specific retraining, and require fewer labelled datasets than transformer-based predictors while avoiding the rigid capture geometry requirement of classical multi-view stereo. However, their probabilistic inference prevents reliable metric accuracy and temporal consistency across sequential frames and overlapping tiles. We present ZeD-MAP, a cluster-level framework that converts a test-time diffusion depth model into a metrically consistent, SLAM-like mapping pipeline by integrating incremental cluster-based bundle adjustment (BA). Streamed UAV frames are grouped into overlapping clusters; periodic BA produces metrically consistent poses and sparse 3D tie-points, which are reprojected into selected frames and used as metric guidance for diffusion-based depth estimation. Validation on ground-marker flights captured at approximately 50 m altitude (GSD is approximately 0.85 cm/px, corresponding to 2,650 square meters ground coverage per frame) with the DLR Modular Aerial Camera System (MACS) shows that our method achieves sub-meter accuracy, with approximately 0.87 m error in the horizontal (XY) plane and 0.12 m in the vertical (Z) direction, while maintaining per-image runtimes between 1.47 and 4.91 seconds. Results are subject to minor noise from manual point-cloud annotation. These findings show that BA-based metric guidance provides consistency comparable to classical photogrammetric methods while significantly accelerating processing, enabling real-time 3D map generation.

URL PDF HTML ☆

赞 0 踩 0

2604.02022 2026-05-14 cs.AI

ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis

Yu Li, Haoyu Luo, Yuejin Xie, Yuqian Fu, Zhonghao Yang, Shuai Shao, Qihan Ren, Wanying Qu, Yanwei Fu, Yujiu Yang, Jing Shao, Xia Hu, Dongrui Liu

AI总结 ATBench 是一个用于评估和诊断基于大语言模型的智能体安全性的多样化且真实的轨迹基准。该基准通过风险来源、失败模式和现实危害三个维度系统地组织风险，并采用异构工具池和长上下文延迟触发机制，构建出具有多阶段真实风险演进的轨迹数据。ATBench 包含 1000 条轨迹，涵盖丰富的交互场景和工具调用，数据经过规则和大模型过滤并由人工全面审核，能够有效评估先进模型在长期交互中的安全表现，并支持分层分析和跨基准比较。

2604.01690 2026-05-14 cs.AI

Scale over Preference: The Impact of AI-Generated Content on Online Content Ecology

Tianhao Shi, Yang Zhang, Xiaoyan Zhao, Fengbin Zhu, Chenyi Lei, Han Li, Wenwu Ou, Tian Yang, Yang Song, Yongdong Zhang, Fuli Feng

AI总结本研究探讨了人工智能生成内容（AIGC）对在线内容生态的影响，通过分析中国主流视频平台上的海量用户数据，揭示了AIGC与人类生成内容（HGC）在创作与消费行为上的显著差异。研究发现，尽管用户更偏好HGC，但AIGC创作者通过高产量策略仍能获得与HGC相当的总体互动量，算法推荐机制在其中起到了调节作用。研究建议引入对AIGC敏感的推荐算法和精准治理框架，以保障在线平台内容生态的长期健康发展。

Comments update authors in v2

2604.00001 2026-05-14 cs.LG cs.AI cs.CL

Filter-then-Weight: Online Data Selection and Reweighting for LLM Fine-Tuning

Fangxin Wang, Peyman Baghershahi, Langzhou He, Henry Peng Zou, Sourav Medya, Philip S. Yu

AI总结本文研究了大语言模型在线微调中的数据选择与重加权问题，提出了一种基于优化器状态的在线数据选择框架。核心方法是将数据选择视为根据当前优化器状态塑造下一步更新方向的问题，并设计了两阶段的Filter-then-Weight算法，先筛选几何上有用的样本，再优化其权重系数。该方法通过引入因子化梯度表示和优化矩阵计算，有效提升了在线微调的收敛效率和下游任务性能。

Comments 24 pages, 2 figures, 9 tables

2603.29917 2026-05-14 cs.CV

Diffusion-Based Feature Denoising with NNMF for Robust handwritten digit multi-class classification

Hiba Adil Al-kharsan, Róbert Rajkó

AI总结本文提出了一种结合扩散驱动特征去噪与混合特征表示的鲁棒手写数字多分类框架。通过非负矩阵分解（NNMF）将输入图像转换为可解释的特征表示，同时利用卷积神经网络提取深层特征，并将两者融合为统一的混合特征表示。在特征空间中引入逐步扩散噪声并训练去噪网络以恢复干净特征，从而提升模型对噪声和对抗攻击的鲁棒性。实验结果表明，该方法在基准和对抗环境下均表现出优越的分类性能。

2603.27134 2026-05-14 cs.LG

Factorization Regret mediates compositional generalization in latent space

John Schwarcz

AI总结本文研究了在已知所有相关变量的情况下，泛化仍可能面临的障碍，提出了一种将组合泛化视为潜在变量间参数化相互作用的变分推断问题的框架。通过构建认知网格世界环境，作者引入了“分解遗憾”这一信息论指标，用于衡量潜在变量相互作用对任务表现的影响，并发现RNN中显式提供交互信息可解释不同网络结构间的性能差异。进一步提出了一种新的架构——表示分类链（RCCs），能够分离变量推断与参数估计，从而在无需显式交互信息的情况下实现组合泛化与新动作空间的离线学习，为研究通用目标导向智能体提供了理论基础。

详情

英文摘要

Are there still barriers to generalization once all of the relevant variables are known? We address this question via a framework that casts compositional generalization as a variational inference problem over latent variables with parametric interactions. To explore this framework, we develop the Cognitive Gridworld, a stationary Partially Observable Markov Decision Process (POMDP) in which observations are generated jointly by multiple latent variables, yet feedback is provided only for a single goal variable. This setting allows us to describe Factorization Regret: an information-theoretic quantity that measures the contribution of latent variable interactions to task performance. Using this metric, we first analyze Recurrent Neural Networks (RNNs) that are explicitly provided with the interactions and find that Factorization Regret explains the accuracy gap between Echo State and Fully Trained networks. Additionally, our analysis uncovers a theoretically predicted failure mode, where confidence becomes decoupled from accuracy. These results suggest that utilizing the interactions between relevant variables is a non-trivial capability. We then address a harder regime where the interactions themselves must be learned by an embedding model. Learning how variables interact while learning how to infer their values is a variational inference problem. We approach this dilemma via Representation Classification Chains (RCCs), a novel architecture which disentangles variable inference and parameter estimation. We demonstrate that, by learning how variables interact, RCCs facilitate compositional generalization to novel combinations of relevant variables and offline learning in novel action spaces. Together, these results establish a theoretically grounded setting for researching, developing and evaluating goal-directed generalist agents.

URL PDF HTML ☆

赞 0 踩 0

2603.26839 2026-05-14 cs.LG cs.CV

From Pixels to BFS: High Maze Accuracy Does Not Imply Visual Planning

Alberto G. Rodriguez Salgado

AI总结该研究探讨了多模态模型在解决视觉空间任务时是依赖真正的规划能力，还是通过在文本空间中进行暴力搜索。为此，研究者提出了一个名为 MazeBench 的基准测试，包含 110 个程序生成的迷宫图像，并评估了来自 OpenAI、Anthropic、Google 和阿里巴巴的 16 种模型配置。实验发现，尽管某些模型在视觉迷宫任务中表现出高准确率，但其解题方式主要是将图像转换为文本网格，再逐步枚举路径，而非真正的空间规划，揭示了高准确率并不意味着具备人类水平的空间理解能力。

Comments 15 pages, 10 figures. Code and mazes available at https://github.com/alrod97/LLMs_mazes

2603.25340 2026-05-14 cs.CL

Large Language Model as Token Compressor and Decompressor

Wenbing Li, Yiran Wang, Zikai Song, Jielei Zhang, Tianhao Zhao, Junkai Lin, Wei Yang

AI总结本文研究了如何将现成的大语言模型（LLM）适配为用于长文本处理的离散可变长度编码器和解码器。作者设计了一种自表达的自编码框架，通过轻量的LoRA适配器对预训练LLM进行微调，将长文本映射为紧凑的潜在编码序列（Z-tokens），并能将其解码回自然语言或任务输出。该方法在保持重建质量和下游任务性能的同时，有效减少了上下文长度、生成阶段的内存使用和端到端延迟，为高效长文本推理提供了实用的接口。

2603.24125 2026-05-14 cs.CL

Alignment Reduces Expressed but Not Encoded Gender Bias: A Unified Framework and Study

Nour Bouchouchi, Thibault Laugel, Xavier Renard, Christophe Marsala, Marie-Jeanne Lesot, Marcin Detyniecki

AI总结本研究探讨了大型语言模型在训练过程中学习到的社会规范如何导致性别偏见，并指出现有去偏方法主要关注生成输出中的偏见，而未涉及模型内部表示。为此，作者提出一个统一框架，通过相同中性提示同时分析模型内在和外在的性别偏见，发现对齐方法虽能减少输出中的偏见，但模型内部仍可能存在可被激活的性别关联。研究进一步表明，基于结构化基准的去偏效果在实际应用场景中可能并不稳定。

2603.22910 2026-05-14 cs.CL

EchoKV: Efficient KV Cache Compression via Similarity-Based Reconstruction

Shiyu Ji, Yixuan Wang, Yijun Liu, Qingfu Zhu, Wanxiang Che

AI总结随着大语言模型在长上下文应用中对Key-Value（KV）缓存的内存需求不断增长，如何高效压缩KV缓存成为关键问题。本文提出了一种灵活的KV缓存压缩框架EchoKV，通过利用注意力头内部和跨层的相似性，采用轻量网络从部分子集重构被丢弃的KV组件，从而支持按需切换全缓存与压缩缓存模式。实验表明，EchoKV在多种压缩比和模型架构下均优于现有方法，同时在短上下文场景中保持了全缓存推理的吞吐量。

2603.22665 2026-05-14 cs.CL cs.LG

Improving LLM Final Representations with Inter-Layer Geometry

Tom Ulanovski, Eyal Blyachman, Maya Bechler-Speicher

AI总结本文研究了如何改进基于大语言模型（LLM）的预测性能，通过更有效地利用模型各层的表示信息。传统方法仅使用最终层的表示，而作者提出使用图神经网络（GNN）在LLM各层之间建立连接，以更高效地聚合跨层信息。进一步地，他们引入了基于SL(2, Zn)的Cayley图结构的Cayley-Encoder，显著提升了预测性能与效率，并在多个任务和模型上验证了其有效性，同时保持参数增长极小。

Comments 17 pages, 4 figures. Equal contribution by first two authors

2603.22364 2026-05-14 cs.LG cs.AI cs.CV

MCLR: Improving Conditional Modeling via Inter-Class Likelihood-Ratio Maximization and Unifying Classifier-Free Guidance with Alignment Objectives

Xiang Li, Yixuan Jia, Xiao Li, Jeffrey A. Fessler, Rongrong Wang, Qing Qu

AI总结本文提出了一种名为MCLR的新训练目标，旨在通过最大化类间似然比来提升扩散模型的条件生成能力。该方法解决了标准去噪分数匹配（DSM）在类间分离不足的问题，并在训练过程中引入对齐目标，使模型在无需推理时引导（CFG）的情况下也能获得更优的条件生成效果。理论分析表明，CFG引导的分数实际上是针对样本自适应加权MCLR目标的最优解，从而揭示了CFG与对齐目标之间的内在联系。