arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2602.09850 2026-05-11 cs.CV

Towards Explainable Industrial Anomaly Detection via Knowledge-Guided Latent Reasoning

Peng Chen, Chao Huang, Yunkang Cao, Chengliang Liu, Wei Wang, Wenqiang Wang, Mingbo Yang, Li Shen, Wenqi Ren, Xiaochun Cao

AI总结工业缺陷检测需要对细粒度缺陷模式进行精确推理，但现有基于通用领域数据预训练的多模态大语言模型在捕捉特定类别异常方面存在不足，影响了检测精度和可解释性。为此，本文提出Reason-IAD，一种基于知识引导的动态潜在推理框架，用于可解释的工业异常检测。该方法结合了检索增强的知识模块和熵驱动的潜在推理机制，通过引入类别特定的文本描述和优化潜在推理过程，提升了检测性能与可解释性。实验结果表明，Reason-IAD在多个任务中均优于现有先进方法。

2602.09782 2026-05-11 cs.LG cs.AI cs.CL

Flexible Entropy Control in RLVR with a Gradient-Preserving Perspective

Kun Chen, Peng Shi, Fanfan Liu, Haibo Qiu, Zhixiong Zeng, Siqi Yang, Wenji Mao

AI总结本文研究了可验证奖励强化学习（RLVR）中策略熵崩溃的问题，提出了一种基于梯度保持剪切的灵活熵控制方法。通过理论分析和实验验证，作者明确了重要采样比区域对熵变化的影响，并设计了动态剪切阈值机制以精确调控熵值。所提出的动态熵控制策略在多个基准测试中有效缓解了熵崩溃现象，显著提升了模型性能。

Comments https://github.com/Kwen-Chen/Flexible-Entropy-Control

2602.09229 2026-05-11 cs.LG cs.IR

When Does Embedding Magnitude Matter? A Cross-Task Functional-Symmetry Framework

Xincan Feng, Taro Watanabe

AI总结本文研究了嵌入向量幅值在不同任务中的影响，提出了一种基于功能对称性的跨任务框架，通过独立控制查询和文档侧的归一化方式，揭示了两种此前未被研究的中间变体（QNorm 和 DNorm）。实验表明，这些单侧归一化方法在检索和多个下游任务中均优于传统的余弦相似度和点积方法。研究进一步发现，任务的功能对称性决定了归一化策略的选择，并在多个任务类别中验证了该机制的广泛适用性。

Comments Preliminary work. Under review

2602.06283 2026-05-11 cs.LG

SOCKET: SOft Collision Kernel EsTimator for Sparse Attention

Sahil Joshi, Agniva Chowdhury, Wyatt Bellinger, Amar Kanakamedala, Ekam Singh, Hoang Anh Duy Le, Aditya Desai, Anshumali Shrivastava

AI总结在长上下文推理中，利用稀疏性是扩展大语言模型的关键，而注意力机制是自回归解码的主要成本来源。本文提出SOCKET，一种基于软碰撞核估计的稀疏注意力方法，通过引入概率化的相似性感知聚合，替代传统LSH中的硬桶匹配，从而在保持top-k排序的同时显著减少内存消耗。SOCKET将LSH从候选生成器重新定义为一种原理化的评分核，实现了高效的token选择，并在多个长上下文基准测试中达到或超越现有稀疏注意力方法的性能。

Comments 7 figures, 17 tables

2602.05359 2026-05-11 cs.CV

Multimodal Latent Reasoning via Hierarchical Visual Cues Injection

Yiming Zhang, Qiangyu Yan, Borui Jiang, Kai Han

AI总结本文研究了多模态大语言模型在推理过程中存在的效率低、冗余及幻觉问题，提出了一种基于层次化视觉线索注入的多模态潜空间推理框架HIVE。该方法通过递归扩展Transformer模块，构建内部推理循环，并将全局场景到细粒度区域的视觉线索注入潜空间表示，实现基于视觉信息的多步推理。实验表明，该方法有效提升了模型对复杂场景的理解能力，并在推理过程中更好地结合视觉知识。

2602.04556 2026-05-11 cs.CL cs.LG

Rethinking Weight Tying: Pseudo-Inverse Tying for LM Stable Training and Updates

Jian Gu, Aldeida Aleti, Chunyang Chen, Hongyu Zhang

AI总结本文重新审视了语言模型中广泛使用的权重绑定技术，提出了一种名为伪逆绑定（Pseudo-Inverse Tying, PIT）的新方法，用于提升模型训练的稳定性与更新效率。PIT通过将嵌入层和解嵌层视为共享潜在词元记忆的耦合投影，确保在整个训练过程中保持伪逆一致的接口。该方法引入正交共享记忆和对称正定变换，避免显式计算伪逆和引入额外参数，从而在提升训练稳定性的同时，为模型解释性分析提供了更清晰的结构基础。实验表明，PIT在不同规模的设备端模型上有效提升了持续预训练的稳定性，并在保持词元接口一致性方面表现出色。

Comments an early-stage version

详情

英文摘要

Weight tying is widely used in compact language models to reduce parameters by sharing the token table between the input embedding and the output projection. However, parameter sharing alone does not guarantee a stable token interface: during training, the correspondence between encoding tokens into hidden states and decoding hidden states into logits can drift, worsening optimization sensitivity and weakening explainability probes that rely on a meaningful vocabulary-space decoder. We propose Pseudo-Inverse Tying (PIT), which synchronizes embedding and unembedding as coupled projections of a shared latent token memory, guaranteeing a pseudo-inverse-consistent interface throughout training. PIT maintains an orthonormal shared memory, obtained by polar initialization from a source checkpoint for continued pretraining or by random orthonormal initialization for from-scratch pretraining, and introduces a learned symmetric positive definite hidden-space transform parameterized via a Cholesky factor. The output head applies this transform to hidden states before the vocabulary projection, while the embedding applies the inverse transform to token vectors using stable triangular solves, avoiding explicit pseudo-inverse recomputation and vocabulary-sized auxiliary parameters. Beyond improving training stability, PIT provides a cleaner substrate for logit-lens-style and vocabulary-space explainability probes by keeping the input and output token geometries synchronized. We evaluate PIT on on-device models spanning 256M-1.3B parameters. The results show that PIT improves continued-pretraining stability, enforces near-exact token-interface consistency across settings, and yields more predictable lightweight adaptation after continued pretraining, while from-scratch pretraining reveals a trade-off between strict interface consistency and unconstrained optimization.

URL PDF HTML ☆

赞 0 踩 0

2602.04447 2026-05-11 cs.LG cs.AI

Mixture of Masters: Sparse Chess Language Models with Player Routing

Giacomo Frisoni, Lorenzo Molfetta, Davide Freddi, Gianluca Moro

AI总结本文提出了一种名为“Mixture of Masters”（MoM）的新型稀疏国际象棋语言模型，通过引入多个小型GPT专家网络，每个专家模仿顶尖棋手的风格，并利用一个可学习的门控网络根据当前棋局状态动态选择最合适的专家进行决策。该方法有效避免了传统密集型模型风格单一、策略多样性的丧失问题，在标准棋局测试中表现出优于现有密集模型和基于聚合数据训练的GPT基线模型的性能，同时保持了生成多样性、可控性和可解释性。

2602.03331 2026-05-11 cs.LG

Bayesian Conformal Prediction as a Decision Risk Problem

Fanyi Wu, Veronika Lohmanova, Samuel Kaski, Michele Caprio

AI总结本文提出了一种贝叶斯共形预测（BCP）框架，将贝叶斯后验预测分布与PAC风格的共形风险控制相结合，以保证有限样本下的预测集覆盖率。与传统基于固定分位数阈值的方法不同，BCP将共形预测建模为决策风险优化问题，生成优化后的最高后验密度（HPD）预测集，能够在多模态分布下更高效地集中概率质量。实验表明，BCP在保持覆盖率的同时显著减小了预测集规模，并在模型误设情况下仍能保持可靠的预测性能。

Comments 22 pages, 8 figures. A previous version was accepted at the EIML Workshop at NeurIPS 2025

2602.03201 2026-05-11 cs.LG

SLOPE: Optimistic Potential Landscape Shaping for Model-based Reinforcement Learning

Yao-Hui Li, Zeyu Wang, Xin Li, Wei Pang, Yingfang Yuan, Zhengkun Chen, Boya Zhang, Riashat Islam, Alex Lamb, Yonggang Zhang

AI总结本文提出了一种名为SLOPE的模型基于强化学习框架，旨在解决稀疏奖励环境下梯度信息不足的问题。该方法通过乐观分布回归估计高置信度的奖励上界，增强稀有成功信号，从而生成更具信息量的潜在奖励景观，引导有效的探索与规划。实验表明，SLOPE在多个基准测试和实际机器人任务中均优于现有先进方法，适用于稀疏、半稀疏和密集奖励场景。

Comments Work in progress

2602.02739 2026-05-11 cs.LG cs.AI

TopoPrune: Robust Data Pruning via Unified Latent Space Topology

Arjun Roy, Prajna G. Malettira, Manish Nagaraj, Kaushik Roy

AI总结 TopoPrune 是一种基于拓扑结构的鲁棒数据剪枝方法，旨在解决传统几何剪枝方法在面对潜在空间扰动时稳定性差的问题。该方法通过统一的潜在空间拓扑结构，从全局和局部两个尺度对数据进行剪枝，分别利用拓扑感知的流形近似和可微持续同调进行优化，从而提升剪枝精度和鲁棒性。实验表明，TopoPrune 在高剪枝比例下仍能保持优异性能，并在噪声干扰和跨架构迁移中表现出更强的稳定性。

Comments Preprint. Under Review

2602.02320 2026-05-11 cs.CL cs.AI q-bio.BM

A Large-Scale Dataset for Molecular Structure-Language Description via a Rule-Regularized Method

Feiyang Cai, Guijuan He, Yi Hu, Jingjing Wang, Joshua Luo, Tianyu Zhu, Srikanth Pilla, Gang Li, Ling Liu, Feng Luo

AI总结该研究提出了一种基于规则的自动化标注框架，用于生成包含完整分子结构信息的自然语言描述，解决了构建大规模高质量分子结构-语言对数据集的难题。通过扩展化学命名规则解析器，生成结构化的XML元数据，并引导大语言模型生成精确描述，最终构建了一个包含约16.3万个分子-描述对的数据集，经验证其描述精度高达98.6%。该数据集为分子与语言的对齐研究提供了可靠基础，适用于多种化学任务。

2602.01752 2026-05-11 cs.CL cs.CR

WorldCup Sampling for Multi-bit LLM Watermarking

Yidan Wang, Yubing Ren, Yanan Cao, Li Guo

AI总结随着大语言模型生成的文本越来越接近人类语言，水印技术成为实现可靠归属的重要手段。本文提出了一种名为WorldCup的多比特水印框架，通过将采样过程建模为结构化通信信道，并利用互补信号引导的分层竞争机制嵌入消息比特，从而在保证生成质量的同时实现鲁棒的消息恢复。实验表明，WorldCup在消息容量、可检测性、鲁棒性、文本质量和解码效率之间取得了良好的平衡，优于现有方法，为多比特水印研究提供了可扩展的理论基础。

2602.01642 2026-05-11 cs.LG cs.AI math.OC stat.CO stat.ML

The Effect of Mini-Batch Noise on the Implicit Bias of Adam

Matias D. Cattaneo, Boris Shigida

AI总结本文研究了在Adam优化器中，小批量噪声对隐式偏差的影响，特别是其如何影响模型在损失函数景观中趋向更尖锐或更平坦区域的倾向，进而影响泛化性能。研究发现，当批量较大时，增大β₂会加剧记忆项的反正则化效应，损害泛化；而当批量较小时，β₂对正则化的影响方向相反，β₁的单调性变化也呈现类似趋势。该理论分析还揭示了批量大小与临界批量规模之间的关系，并通过实验验证了这些结论。

2602.01166 2026-05-11 cs.RO

Latent Reasoning VLA: Latent Thinking and Prediction for Vision-Language-Action Models

Shuanghao Bai, Jing Lyu, Wanqi Zhou, Zhe Li, Dakai Wang, Lei Xing, Xiaoguang Zhao, Pengwei Wang, Zhongyuan Wang, Cheng Chi, Badong Chen, Shanghang Zhang

AI总结本文提出了一种名为LaRA-VLA的统一视觉-语言-动作框架，通过将多模态的思维链（CoT）推理过程内化为连续的潜在表示，解决了现有方法在推理效率和感知控制匹配上的不足。该方法在潜在空间中统一进行推理与预测，避免了显式生成CoT的开销，实现了高效的动作控制。通过基于课程的训练策略和结构化的CoT数据集，LaRA-VLA在仿真和实际机器人操作任务中均表现出优越性能，推理延迟相比显式CoT方法降低了90%以上。

Comments Accepted by ICML 2026

2602.01003 2026-05-11 cs.LG cs.AI

ESSAM: A Novel Competitive Evolution Strategies Approach to Reinforcement Learning for Memory Efficient LLMs Fine-Tuning

Zhishen Sun, Sizhe Dang, Guang Dai, Haishan Ye

AI总结本文提出了一种名为ESSAM的新方法，用于在有限GPU资源下高效微调大语言模型，以提升其数学推理能力。ESSAM结合了进化策略中的零阶搜索与尖锐度感知最大化技术，实现了参数级微调，并在GSM8K等任务中表现出与强化学习方法相当甚至更优的性能。实验表明，ESSAM在保持高准确率的同时，显著降低了GPU内存消耗，并展现出更强的模型泛化能力。

2602.00513 2026-05-11 cs.LG

Minerva: Reinforcement Learning with Verifiable Rewards for Cyber Threat Intelligence LLMs

Md Tanvirul Alam, Aritran Piplai, Ionut Cardei, Nidhi Rastogi, Peter J Worth

AI总结本文提出 Minerva，一种基于可验证奖励的强化学习方法，用于提升网络安全威胁情报（CTI）大语言模型的结构化输出能力。研究利用 CTI 标准中的确定性验证机制，构建了包含多个子任务的统一数据集与训练流程，并设计了 MinervaRL 自训练机制以缓解奖励稀疏问题。实验表明，MinervaRL 在多个 CTI 基准测试中显著提升了模型性能。

2601.22307 2026-05-11 cs.LG cs.NA math.NA

Exact Gaussian Moment Matching for Residual Networks: a Second-Order Method

Simon Kuang, Xinfan Lin

AI总结本文研究了如何通过逐层矩匹配方法，将一般多元高斯分布的均值和协方差准确传播通过深度（残差）神经网络。作者针对包括probit、GeLU、ReLU（作为GeLU的极限）、Heaviside（作为probit的极限）和正弦激活函数在内的多种激活函数，推导出精确的矩匹配方法，适用于前馈网络和广义残差网络。实验表明，该方法在随机网络和变分贝叶斯神经网络中，相比现有方法在KL散度误差指标上分别实现了数量级甚至百万倍的提升，并给出了在正则条件下消除主要低方差误差的平滑距离误差界。

Comments new theoretical result on higher-order accuracy

2601.21424 2026-05-11 cs.LG cs.CV cs.IT math.IT

Lossy Common Information in a Learnable Gray-Wyner Network

Anderson de Andrade, Alon Harell, Ivan V. Bajić

AI总结许多计算机视觉任务之间存在大量重叠信息，但传统编码方法往往忽视这一点，导致表示冗余且效率低下。本文受信息论中的Gray-Wyner网络启发，提出了一种可学习的三通道编码器，用于分离多任务中的共享信息与任务特有信息。通过引入“有损公共信息”的概念，研究界定了该方法的理论极限，并设计了相应的优化目标以平衡学习过程中的权衡。实验表明，该方法在多个视觉任务中显著减少了冗余，优于独立编码方式，展示了经典信息理论在现代机器学习中的实用价值。

2601.20599 2026-05-11 cs.LG cs.AI

R-GTD: A Geometric Analysis of Gradient Temporal-Difference Learning in Singular Regimes

Hyunjun Na, Donghwan Lee

AI总结本文研究了梯度时差（GTD）学习算法在特征交互矩阵（FIM）奇异情况下的收敛性问题。为了解决现有方法对FIM非奇异的限制性假设，作者提出了一种正则化的优化目标，通过重新表述最小化均方投影Bellman误差的问题，得到了一种新的正则化GTD算法（R-GTD）。该方法在FIM奇异时仍能保证收敛到唯一解，并通过几何分析建立了理论收敛保证和误差界，实验验证了其有效性。

Comments 32 pages, 8 figures

2601.19831 2026-05-11 cs.LG cs.CL

Neural Neural Scaling Laws

Michael Y. Hu, Jane Pan, Ayush Rajesh Jhaveri, Nicholas Lourie, Kyunghyun Cho

AI总结本文研究了语言模型性能随训练数据量增加的扩展规律，指出传统基于验证损失的参数化方法难以准确描述不同下游任务的多样化扩展行为。为此，作者提出了一种新的神经网络方法NeuNeu，将扩展规律预测建模为时间序列外推问题，结合准确率轨迹和词元级损失进行预测。该方法在66个下游任务上实现了1.99%的平均绝对误差，相比传统方法提升了44%，并且能够零样本泛化到未见过的模型和任务。

2601.18744 2026-05-11 cs.AI cs.LG

TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models

Fangxu Yu, Xingang Guo, Lingzhi Yuan, Haoqiang Kang, Hongyu Zhao, Lianhui Qin, Furong Huang, Bin Hu, Tianyi Zhou

AI总结 TSRBench 是一个面向通用模型的综合性多任务多模态时间序列推理基准，旨在全面评估模型在时间序列感知、推理、预测和决策等方面的能力。该基准包含来自14个领域的4125个问题，涵盖15项核心任务，通过大量实验评估了30多个主流大语言模型、视觉语言模型和时间序列模型的表现。研究发现，当前模型在多模态融合和预测任务上仍存在明显不足，揭示了语义理解与数值预测之间的解耦现象，为通用模型的发展提供了重要参考。

Comments Accepted to ICML 2026

2601.18700 2026-05-11 cs.AI

TEA-Bench: A Systematic Benchmarking of Tool-enhanced Emotional Support Dialogue Agent

Xingyu Sui, Yanyan Zhao, Yulin Hu, Jiahe Guo, Weixiang Zhao, Bing Qin

AI总结 TEA-Bench 是一个用于评估工具增强型情感支持对话代理的系统性基准，旨在解决现有情感支持系统在多轮对话中缺乏外部工具支持、易产生幻觉的问题。该基准引入了真实情感场景和工具环境，通过过程级指标综合评估情感支持的质量与事实准确性。实验表明，工具增强能提升情感支持质量，但效果依赖于模型能力，且微调方法在泛化能力上存在局限。

2601.18681 2026-05-11 cs.LG cs.AI cs.SY eess.SY math.OC

ART for Diffusion Sampling: A Reinforcement Learning Approach to Timestep Schedule

Yilie Huang, Wenpin Tang, Xunyu Zhou

AI总结本文研究了基于分数的扩散模型中时间离散化问题，旨在在有限时间步数预算下生成高质量样本。提出了一种自适应重参数化时间（ART）方法，通过控制重参数化时间变量的时钟速度，在保持终端时间不变的前提下优化计算分配，以最小化欧拉离散化误差。进一步引入了基于强化学习的ART-RL框架，将ART问题转化为连续时间的强化学习问题，并建立了ART与高斯策略之间的双向桥梁，从而为确定性时间步最优解提供了理论依据和高效求解方法。实验表明，ART-RL在多个数据集上显著提升了生成图像的质量。

Comments 25 pages, 8 figures, 5 tables

2601.17942 2026-05-11 cs.AI cs.DB

LLM-Based SQL Generation: Prompting, Self-Refinement, and Adaptive Weighted Majority Voting

Yu-Jie Yang, Hung-Fu Chang, Po-An Chen

AI总结本文研究了基于大语言模型（LLM）的自然语言到SQL生成问题，针对用户查询歧义、数据库模式关联复杂性以及SQL方言泛化能力不足等挑战，提出了一种无需真实标注数据的单智能体自优化与集成投票（SSEV）框架，结合自优化机制与加权多数投票策略，显著提升了生成SQL的准确性。进一步提出的ReCAPAgent-SQL框架通过多智能体协作，实现了对复杂企业数据库和实际场景下Text-to-SQL任务的高效处理，为构建可扩展的自然语言查询系统提供了有效方案。

Comments 29 pages, 22 figures

详情

Journal ref: 2026 International Conference on Information Management

英文摘要

Text-to-SQL has emerged as a prominent research area, particularly with the rapid advancement of large language models (LLMs). By enabling users to query databases through natural language rather than SQL, this technology significantly lowers the barrier to data analysis. However, generating accurate SQL from natural language remains challenging due to ambiguity in user queries, the complexity of schema linking, limited generalization across SQL dialects, and the need for domain-specific understanding. In this study, we propose a Single-Agent Self-Refinement with Ensemble Voting (SSEV) pipeline built on PET-SQL that operates without ground-truth data, integrating self-refinement with Weighted Majority Voting (WMV) and its randomized variant (RWMA). Experimental results show that the SSEV achieves competitive performance across multiple benchmarks, attaining execution accuracies of 85.5% on Spider 1.0-Dev, 86.4% on Spider 1.0-Test, and 66.3% on BIRD-Dev. Building on insights from the SSEV pipeline, we further propose ReCAPAgent-SQL (Refinement-Critique-Act-Plan agent-based SQL framework) to address the growing complexity of enterprise databases and real-world Text-to-SQL tasks. The framework integrates multiple specialized agents for planning, external knowledge retrieval, critique, action generation, self-refinement, schema linking, and result validation, enabling iterative refinement of SQL predictions through agent collaboration. ReCAPAgent-SQL's WMA results achieve 31% execution accuracy on the first 100 queries of Spider 2.0-Lite, demonstrating significant improvements in handling real-world enterprise scenarios. Overall, our work facilitates the deployment of scalable Text-to-SQL systems in practical settings, supporting better data-driven decision-making at lower cost and with greater efficiency.

URL PDF HTML ☆

赞 0 踩 0

2601.16736 2026-05-11 cs.CV

A Step to Decouple Optimization in 3DGS

Renjie Ding, Yaonan Wang, Min Liu, Jialin Zhu, Jiazheng Wang, Jiahao Zhao, Wenting Shen, Feixiang He, Xiang Chen

AI总结 3D高斯泼溅（3DGS）是一种用于实时新视角合成的有力技术，但其优化过程中存在更新步耦合和梯度耦合等未被充分研究的问题。本文通过解耦优化过程，提出稀疏Adam、重状态正则化和解耦属性正则化等方法，并基于大量实验重新设计优化流程，最终提出AdamW-GS优化器，在提升优化效率的同时增强了表示效果。

Comments Accepted by ICLR 2026 (fixed typo)

2601.15884 2026-05-11 cs.CV

Contrast-X: A Multi-Modal Contrast Image Synthesis Benchmark and Universal Modality Flow Matching

Yifan Chen, Fei Yin, Hao Chen, Jia Wu, Chao Li

AI总结该研究提出Contrast-X，一个包含CT和乳腺DCE-MRI数据的多模态对比成像合成基准，涵盖10种器官和1500多名患者，每个病例均配有放射科医生验证的阶段标签和肿瘤掩码。为了解决任意模态缺失情况下的合成问题，研究引入FlowMI模型，通过统一的多模态潜在空间和流匹配实现对不同模态组合的处理。实验评估了多种模态缺失配置下的图像质量、放射科医生评估及病灶分析，并测试了模型在跨器官任务中的泛化能力。

2601.15507 2026-05-11 cs.CV

A Unified and Controllable Framework for Layered Image Generation with Visual Effects

Jinrui Yang, Qing Liu, Yijun Li, Mengwei Ren, Letian Zhang, Zhe Lin, Cihang Xie, Yuyin Zhou

AI总结该论文提出了一种统一且可控的分层图像生成框架LASAGNA，旨在解决现有图像生成模型在编辑特定元素时易导致内容身份漂移的问题。该方法通过单次前向传播生成具有真实视觉效果（如阴影和反射）的背景和前景图层，支持多种编辑操作而无需额外模型处理，从而避免了身份漂移。此外，研究还发布了首个包含48K分层图像的公开数据集和首个标准化的分层生成基准测试集，推动了该领域的发展。

详情

英文摘要

Recent image generation models produce impressive composites, but often fail to preserve the identity of user-provided content when editing specific elements: the surrounding scene may shift, and even the edited object's appearance can drift from the original. Layered representation offer a natural remedy--they allow users to independently manipulate individual elements--but existing layered methods typically produce transparent foregrounds without realistic visual effects such as shadows and reflections, forcing the use of a second harmonization model after every edit, which in turn introduces drift. To overcome these limitations, we present LASAGNA, which generates a photorealistic background (BG) and an RGBA foreground with compelling visual effects in a single forward pass. By treating object-associated visual effects as part of the foreground (FG) layer, LASAGNA supports the dominant class of consumer edits (e.g., translation, scaling, recoloring, duplication) via alpha compositing alone, without invoking any model post-edit, thereby eliminating identity drift introduced by cascade editing pipelines. This single-pass design contrasts with prior layered methods that rely on separate expert models for each task. LASAGNA handles diverse conditional inputs--text prompts, FG, BG, and location masks--within a unified architecture. We further release two community resources: LASAGNA-48K, the first public dataset of 48K layered image triplets with photorealistic visual effects, and LASAGNA-BENCH, the first standardized benchmark for layer-centric generation and editing, comprising 242 expert-annotated samples across six diverse sources. Experiments show that LASAGNA outperforms both general-purpose editors and prior layered methods across three generation modes, and supports a wide range of post-edits without any model re-inference.

URL PDF HTML ☆

赞 0 踩 0

2601.15050 2026-05-11 cs.CL

Beyond Factual Accuracy: Evaluating Global Reasoning Integrity in RAG Systems with LogicScore

Zhichao Yan, Yunxiao Zhao, Jiapu Wang, Jiaoyan Chen, Xiaoli Li, Ru Li, Jeff Z. Pan

AI总结当前对检索增强生成（RAG）系统的评估方法过于关注事实准确性，忽视了长文本生成中的全局逻辑完整性，导致模型生成的回答虽事实正确，但逻辑上可能存在漏洞、冗余或不一致。为此，研究提出了基于霍恩规则的LogicScore评估方法，从完整性、必要性和确定性三个维度系统评估模型的全局推理能力。实验表明，尽管主流模型在事实精度上表现优异，但在逻辑推理方面仍存在明显不足，凸显了在大语言模型发展中同时重视逻辑连贯性的重要性。

2601.14958 2026-05-11 cs.CL cs.AI

Script Sensitivity: Benchmarking Language Models on Unicode, Romanized and Mixed-Script Sinhala

Minuri Rajapakse, Ruvan Weerasinghe

AI总结该研究探讨了语言模型在处理低资源、形态丰富的僧伽罗语时对不同书写形式的敏感性，特别是针对Unicode、罗马化和混合书写形式的文本。通过在多种文本来源上对24个开源语言模型进行困惑度评估，研究发现模型在不同书写形式下的性能差异显著，从Unicode到罗马化文本的性能下降超过300倍。研究还指出，模型规模与处理多书写形式的能力无明显相关性，并为多书写形式下的低资源语言模型选择提供了实际指导。

Comments Published at SCSE 2026 (9th IEEE International Research Conference on Smart Computing and Systems Engineering). Best Paper Award - Text Analytics Track

2601.04731 2026-05-11 cs.AI cs.CL

Miner:Mining Intrinsic Mastery for Data-Efficient RL in Large Reasoning Models

Shuyang Jiang, Yuhao Wang, Ya Zhang, Yanfeng Wang, Yu Wang

AI总结当前针对大推理模型的无评论强化学习方法在使用正同质提示进行训练时效率低下，因零优势估计导致大量样本浪费。本文提出 Miner 方法，通过利用策略的内在不确定性作为自监督奖励信号，无需外部监督或额外推理成本，显著提升了训练效率。Miner 引入了两个关键创新：基于标记的聚焦信用分配机制和自适应优势校准，有效提升了模型在推理任务中的表现。实验表明，Miner 在多个基准测试中优于现有方法，展示了其在大模型强化学习中的优越性。

Comments 24 pages