arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.08568 2026-05-12 cs.LG

Different Prompts, Different Ranks: Prompt-aware Dynamic Rank Selection for SVD-based LLM Compression

Hengyi Zhu, Zhendong Mi, Grace Li Zhang, Shaoyi Huang

AI总结大型语言模型（LLM）的规模迅速增长，带来了显著的内存和计算成本，限制了其高效部署。现有的基于奇异值分解（SVD）的压缩方法采用静态秩截断策略，无法适应不同提示的差异性需求，导致性能受限。为此，本文提出 PARSE，一种基于提示感知的动态秩选择框架，通过离线训练线性路由器实现针对不同提示的个性化秩选择，并结合语义相似性缓存和系统优化技术，有效提升了压缩模型的性能与推理效率。实验表明，PARSE 在 LLaMA-7B 模型上实现了最高 10% 的任务准确率提升，并显著加快了推理速度。

2605.08566 2026-05-12 cs.CV cs.LG q-bio.QM

MicroDiffuse3D: A Foundation Model for 3D Microscopy Imaging Restoration

Yongkang Li, Brian Wong, King Wai Chiu, Hanwen Xu, Tangqi Fang, Erin Dunnington, Dan Fu, Sheng Wang

AI总结本文提出了一种名为MicroDiffuse3D的预训练基础模型，用于三维显微成像的图像恢复，能够从低分辨率的退化测量数据中重建高质量的三维结构，显著提升数据获取效率。该模型在多种具有挑战性的恢复任务中表现出色，包括稀疏三维超分辨率、分辨率与噪声联合退化以及低信噪比下的去噪任务，相比现有方法在分割质量和线轮廓一致性等方面均有明显提升。研究结果表明，预训练的三维图像恢复方法为克服体积化学成像中的吞吐量和信噪比限制提供了广泛适用的解决方案。

2605.08564 2026-05-12 cs.AI cs.CV cs.LG

Biological Plausibility and Representational Alignment of Feedback Alignment in Convolutional Networks

Jake Lance, Larry Kieu

AI总结本文研究了反馈对齐（FA）算法在卷积网络中的生物合理性及其表征一致性问题，对比分析了包括改进FA和标准反向传播（BP）在内的五种学习算法在CIFAR-10数据集上的表现。研究发现，改进后的FA算法在内部表征结构上与BP方法相似，表明其成功可能源于对BP表征几何的模仿，尽管两者权重更新机制不同。该研究为理解生物合理性与模型性能之间的关系提供了新的视角。

2605.08563 2026-05-12 cs.AI

Why Retrying Fails: Context Contamination in LLM Agent Pipelines

Zhanfu Yang

AI总结当大型语言模型代理在多步骤工具增强任务中失败并重试时，失败的尝试通常会保留在上下文中，导致后续尝试受到污染，从而提高每一步的错误率。本文引入了“上下文污染重启模型（CCRM）”，用于形式化描述这一现象，并推导出五个主要结论，包括成功概率的闭式公式、重试带来的额外尝试次数、最优预算分配策略等。实验验证表明，该模型在真实数据上拟合良好，显著优于独立同分布假设模型。

2605.08560 2026-05-12 cs.CV cs.AI

ZAYA1-VL-8B Technical Report

Hassan Shapourian, Kasra Hejazi, Olabode M. Sule, Beren Millidge

AI总结本文介绍了ZAYA1-VL-8B，一种基于自研语言模型ZAYA1-8B构建的紧凑型视觉-语言混合专家模型。该模型在保持较小参数规模的同时，在多个图像理解、推理和计数任务上表现优异，性能可与主流基础模型相媲美甚至超越。其核心创新包括引入视觉专用LoRA适配器以提升模态容量，以及在语言模型中采用图像标记的双向注意力机制以增强视觉理解能力。

Comments 20 pages, 7 figures, 3 appendices (with 31 figures)

2605.08558 2026-05-12 cs.LG

Beyond Static Bias: Adaptive Multi-Fidelity Bandits with Improving Proxies

Muyun Lu, Haoyang Hong, Huazheng Wang, Ying Lin

AI总结本文研究了一种改进型多保真度多臂老虎机问题，其中低保真度反馈源可以通过校准不断提升其准确性。为应对这一动态特性，作者提出了一种基于阈值的自适应延续算法（TACC），通过动态置信界和成本效益分析，决定何时继续使用低保真度反馈、何时升级到高保真度评估。该方法在理论分析中证明了其对中间臂的实例相关悔恨界，并在合成实验和基于大语言模型的策略评估任务中验证了其有效性。

2605.08557 2026-05-12 cs.CV cs.AI cs.LG

MC-RFM: Geometry-Aware Few-Shot Adaptation via Mixed-Curvature Riemannian Flow Matching

Salim Khazem, Ibrahim Mohamed Serouis, Zakaria Ezzahed

AI总结该研究提出了一种名为MC-RFM的混合曲率黎曼流匹配框架，用于冻结视觉主干模型的少样本适配。该方法通过将特征映射到由双曲空间和欧几里得空间组成的乘积流形，显式建模任务诱导的特征位移几何结构，从而实现更有效的适配。实验表明，MC-RFM在多个视觉识别基准和多种主干模型上均取得优异性能，尤其在Transformer和细粒度数据集上表现突出，验证了其对任务几何结构建模的有效性。

Comments Submitted to NeurIPS (Under Review)

2605.08556 2026-05-12 cs.LG

Can Revealed Preferences Clarify LLM Alignment and Steering?

Khurram Yamin, Jingjing Tang, Eric Horvitz, Bryan Wilder

AI总结该研究探讨了大语言模型（LLM）在不确定性决策中的对齐问题，提出了一种基于揭示偏好的方法来估计模型所优化的隐含偏好。通过分析模型在决策任务中的选择及其概率分布，研究构建了离散选择模型以还原其决策背后的成本函数，并评估模型是否具备一致的目标导向行为、能否准确表达其目标以及是否能通过提示进行有效引导。实验结果表明，尽管许多模型在内部一致性方面表现不俗，但在忠实反映或响应用户指定偏好方面仍存在明显不足。

2605.08554 2026-05-12 cs.SD

Online Segmented Beamforming via Dynamic Programming

Manan Mittal, Ryan M. Corey, Diego Cuji, John R. Buck, Andrew C. Singer

AI总结在动态声学环境中，由于干扰源和声源随时间变化，传统波束成形方法难以准确识别静止区域。本文提出了一种基于动态规划的在线分段波束成形算法，通过数据驱动的时间分段方法，动态调整协方差矩阵估计窗口，以适应局部平稳性，并在环境突变时实时重置协方差估计，从而有效跟踪新出现的干扰源。实验表明，该方法在复杂混响环境中优于固定窗口的自适应方法。

Comments 4 pages, 2 figures

2605.08549 2026-05-12 cs.AI

Evaluating Developmental Cognition Capabilities of LLMs

Xiao Xiao, Hayoun Noh, Mar Gonzalez-Franco

AI总结本文研究了大语言模型在发展认知层面的能力，引入了“发展性句子完成测试”（DSCT）作为评估工具，用于捕捉模型对发展认知阶段的响应特征。研究发现，前沿模型在模拟人物设定下能较准确地恢复预设的发展阶段标签，但在处理真实人类回答时，模型与人类的共识有限，且模型生成的回答在不同规模下表现出稳定的发展阶段差异。研究指出，发展认知信号在合成响应中更清晰，而构建阶段感知的对话系统核心挑战在于从生成文本中获取有效的发展信号。

Comments 9 pages, 3 figures, (10 pages appendix)

2605.08545 2026-05-12 cs.AI

Log analysis is necessary for credible evaluation of AI agents

Peter Kirgis, Sayash Kapoor, Stephan Rabanser, Nitya Nadgir, Cozmin Ududec, Magda Dubois, JJ Allaire, Conrad Stosz, Marius Hobbhahn, Jacob Steinhardt, Arvind Narayanan

AI总结本文指出，当前智能体基准测试通常仅报告最终结果（通过或失败），这会威胁评估的可信度。为此，作者提出通过日志分析系统追踪和分析智能体的输入、执行和输出过程，以识别评估中的潜在问题，如能力误判、现实效用预测偏差及隐藏的危险行为。文章构建了日志分析的威胁分类体系，提出了指导原则，并通过实例展示了其有效性，为提升智能体评估的可信度提供了实用建议。

2605.08539 2026-05-12 cs.LG cs.AI

Continuity Laws for Sequential Models

Annan Yu, Dongwei Lyu, N. Benjamin Erichson

AI总结本文研究了序列模型中一个被忽视的归纳偏置——时间连续性。作者提出了一种形式化方法，通过时间离散化的收敛性来衡量模型的连续性，并发现S4模型表现出稳定的连续行为，而S6（Mamba的核心）则对输入幅度和选择性动态更敏感。研究还引入了衡量任务连续性的指标，发现任务连续性、模型连续性与模型性能之间存在显著的实证关联，表明时间连续性不仅是归纳偏置，也具有实际应用价值，如提升时间子采样的效率与性能。

2605.08538 2026-05-12 cs.AI cs.CL cs.IR cs.LG

Human-Inspired Memory Architecture for LLM Agents

Doga Kerestecioglu, Alexei Robsky, Clemens Vasters, Anshul Sharma, Yitzhak Kesselman

AI总结当前大型语言模型代理在长期交互中缺乏有效的持久记忆管理机制。本文提出一种受人类认知启发的记忆架构，包含六种认知机制，用于解决原始记忆积累中的各种失效模式，并引入一种无需基准数据的合成校准方法，提升了系统的泛化能力。实验表明，该架构在代码问题跟踪和长对话两个基准上均显著提升了记忆精度与存储效率。

Comments 10 pages, 4 tables. Preprint; comments welcome

2605.08533 2026-05-12 cs.AI

Human-LLM Dialogue Improves Diagnostic Accuracy in Emergency Care

Burcu Sayin, Ngoc Vo Hong, Ipek Baris Schlicht, Jacopo Staiano, Pasquale Minervini, Sara Allievi, Nicola Susca, Nicola Osti, Alberto Maino, Vito Racanelli, Andrea Passerini

AI总结该研究探讨了人类医生与大型语言模型（LLM）对话在急诊诊断中的应用效果。研究中，医生在仅看到患者主诉的情况下，可以逐步向配备完整病历记录的LLM提问，以辅助诊断。实验结果显示，使用LLM辅助后，住院医师在困难病例中的诊断准确性显著提高，且不同经验水平的医生在交互中表现出不同的提问策略，整体诊断一致性也有所增强。这一研究表明，交互式LLM支持能够有效提升急诊诊断的准确性与合理性。

Comments Paper under review

2605.08530 2026-05-12 cs.CV

A Two-Stage Motion-Aware Framework for mmWave-based Human Mesh Recovery

Hoang Hai Pham, Shuntian Zheng, Jiaqi Li, Yu Guan

AI总结该论文提出了一种两阶段的运动感知框架，用于基于毫米波雷达的人体网格重建。针对毫米波雷达信号杂乱和测量不完整的问题，该方法首先通过粗到细的定位与体素分割提取人体反射信号，生成带有置信度权重的雷达体积；随后利用双分支网络联合建模单帧几何与帧间动态信息，实现更准确的人体网格重建。实验表明，该方法在保持计算效率的同时优于现有方法。

2605.08529 2026-05-12 cs.LG

The Propagation Field: A Geometric Substrate Theory of Deep Learning

Xingrui Gu

AI总结本文提出了一种新的深度学习理论框架——传播场，从几何角度重新理解神经网络的内部动态。研究通过分析网络中隐藏状态轨迹和局部雅可比算子的几何结构，揭示了端到端损失仅约束传播场的边界行为，而内部几何结构则未被确定。实验表明，基于传播场的可观察指标能够提升模型在未知路径上的泛化能力、鲁棒性和校准性能，并在持续学习任务中表现出优于传统方法的性能。

Comments Technical notes on exploring the nature of deep learning propagation, Under review by the ICML 4th Workshop on High-dimensional Learning Dynamics (HiLD) 2026

2605.08526 2026-05-12 cs.LG

Skill-CMIB: Multimodal Agent Skill for Consistent Action via Conditional Multimodal Information Bottleneck

Zihan Huang, Junda Wu, Tong Yu, Qianqi Yan, Rohan Surana, Uttaran Bhattacharya, Lina Yao, Xin Eric Wang, Julian McAuley

AI总结本文提出了一种名为Skill-CMIB的方法，用于构建多模态智能体技能，以提升动作执行的一致性。该方法通过条件多模态信息瓶颈机制，将视觉和语言信息中的任务相关不变性进行有效提取和压缩，同时分离可解释的文本技能与残余的感知信息，从而减少跨模态冗余并提高执行稳定性。该方法在保持技能可复用性的同时，避免了多样本推理带来的额外开销，为多模态智能体的可靠执行提供了新的解决方案。

详情

英文摘要

While LLM-based agents excel at planning and executing long action sequences, their execution often remains inconsistent across trials, limiting reliability. Consolidating agent consistency requires distilling trial-error trajectories into reusable skills that preserve task-relevant invariants while discarding trajectory-specific noise. However, in multimodal settings, the key challenge is not only that useful invariants are distributed across vision and language information, but that different modalities support different kinds of reusable skill content: while some skills are verbalizable and interpretable, others reside in perceptual evidence beyond text. Text-only skills may lose perceptual cues, whereas storing text and perception naively introduces redundancy and noise. Existing inference-time methods, such as self-consistency, improve reliability through costly multi-sample decoding, while internalization strategies lack a way to separate verbalizable skill content from residual perceptual information. To address this, we introduce Conditional Multimodal Information Bottleneck (CMIB), a method for multimodal skill construction. CMIB begins with a joint bottleneck over multimodal skills and derives an exact sequential decomposition: (1) a text-stage bottleneck distilling interpretable skill cards, and (2) a conditional multimodal bottleneck compressing only residual information in perception that remains predictive beyond text. Unlike naive two-stream formulations, CMIB explicitly conditions the multimodal latent on the text skill, thus structurally reducing cross-modal redundancy and enabling independent control over textual and perceptual compression. We instantiate CMIB with a variational objective that makes its conditional decomposition tractable to optimize, yielding reusable multimodal skills that improve execution stability without incurring multi-sample inference overhead.

URL PDF HTML ☆

赞 0 踩 0

2605.08525 2026-05-12 cs.RO cs.SY eess.SY

Model-Reference Adaptive Flight Control of the 95-mg Bee++

Francisco M. F. R. Gonçalves, Conor K. Trygstad, Néstor O. Pérez-Arancibia

AI总结本文提出了一种基于模型参考自适应控制（MRAC）的飞行控制架构，用于实现95毫克微型扑翼飞行器Bee++的高精度位置跟踪。该方法通过实时飞行实验验证了其适用性、功能性和优异的控制性能，为微型无人机的高精度控制提供了有效解决方案。

Comments Extended abstract to appear in the proceedings of the LSU Symposium on Control, Learning, and Intelligent Systems

2605.08521 2026-05-12 cs.CV cs.LG

Geometric Flood Depth Estimation: Fusing Transformer-Based Segmentation with Digital Elevation Models

Nhut Le, Ehsan Karimi, Maryam Rahnemoonfar

AI总结本文提出了一种基于几何分析的洪水深度估计方法，通过融合基于Transformer的分割模型与数字高程模型（DEM），从单目航拍图像中估算洪水深度。该方法利用Mask2Former生成精确的洪水掩膜，并结合DEM确定水陆边界、计算全局水面高程，进而得到每个像素的深度信息。研究展示了如何通过高性能分割模型从二维图像中高效提取三维体积数据，无需依赖耗时的水动力模拟。

Comments Accepted by the 2026 IEEE International Geoscience and Remote Sensing Symposium (IGARSS 2026)

2605.08520 2026-05-12 cs.LG cs.DC

FlashEvolve: Accelerating Agent Self-Evolution with Asynchronous Stage Orchestration

Zhengding Hu, Mingge Lu, Zhen Wang, Jixuan Ruan, Chang Chen, Zaifeng Pan, Yue Guan, Ruiyi Wang, Zhongkai Yu, Chao Zhang, Yufei Ding

AI总结本文提出了一种名为 FlashEvolve 的高效框架，旨在加速基于大语言模型（LLM）的智能体自我进化过程。该方法通过引入异步工作流和队列机制，替代传统的同步阶段执行方式，从而实现不同阶段和步骤的重叠执行，提升整体效率。为应对异步带来的数据陈旧问题，FlashEvolve 通过追踪非参数工件的版本并采用相应的更新、丢弃或修复策略，有效提升了系统的稳定性和进化质量。实验表明，该方法在多个基准任务上显著提升了提案吞吐量。

2605.08519 2026-05-12 cs.LG

SeBA: Semi-supervised few-shot learning via Separated-at-Birth Alignment for tabular data

Kacper Jurek, Wojciech Batko, Marek Śmieja, Marcin Przewięźlikowski

AI总结本文研究了在标签数据稀缺、但存在大量未标签样本的情况下，如何对表格数据进行有效的半监督少样本学习。针对现有方法依赖于视觉或语言领域的自监督学习框架、难以适用于表格数据的问题，提出了一种名为SeBA的新方法，通过分离视角对齐的方式，无需数据增强即可实现特征与标签关系的优化。实验表明，SeBA在多个基准数据集上取得了当前最优的性能，为表格数据的半监督少样本学习提供了新的研究方向。

2605.08518 2026-05-12 cs.AI

Results and Retrospective Analysis of the CODS 2025 AssetOpsBench Challenge

Dhaval Patel, Chathurangi Shyalika, Suryanarayana Reddy Yarrabothula, Ling Yue, Shuxin Lin, Nianjun Zhou, James Rayfield

AI总结本文回顾了CODS 2025 AssetOpsBench挑战赛，分析了竞赛中的排名机制、隐藏评估对结果的影响以及设计模式的奖励情况。研究发现，公开排行榜的性能趋于饱和，隐藏评估与公开评估在执行任务上呈现负相关，且成功的执行方法主要依赖于安全机制而非新颖的智能体架构。这些结果揭示了竞赛评价体系的特性，并为未来竞赛设计提供了改进方向。

Comments 43 pages, 32 Figures

2605.08517 2026-05-12 cs.LG cs.CV physics.med-ph

A Deep Risk Estimator for Known Operator Learning

Andreas Maier, Md Hasan, Paulina Conrad, Paula Andrea Perez-Toro

AI总结本文提出了一种用于估计深度网络中包含已知算子和学习算子混合结构的统计风险的方法。该方法基于已有的已知算子学习最大训练误差界，将网络的期望误差与训练样本数量联系起来，并将总风险分解为各学习层的贡献之和，其中已知算子不增加风险，而每个学习层则引入逼近项和估计项。研究还展示了当用已知算子替代学习层时，风险上界会减小，并通过CT重建等应用验证了该估计器的有效性。

Comments In Review

详情

英文摘要

We describe an approach for estimating the statistical risk of deep networks that contain a mix of learned and known operators. Building on the maximal training error bounds previously established for known operator learning, we derive a deep risk estimator that connects the expected error of a layered network to the size of the training sample. The estimator decomposes the total risk into a sum over learned layers; every known operator contributes zero to this sum, while every learned layer adds an approximation term inspired by Barron's classic work and an estimation term that decreases with the number of training samples. We are able to show that the bound shrinks whenever a learned layer is replaced by a known operator and that the corresponding sample requirement scales with the number of trainable parameters of the layer that is replaced. As an application, we use computed tomography as an example and compare an operator-aware filtered backprojection network with a fully connected substitute that collapses the entire reconstruction pipeline into a single learned dense matrix. The predicted parameter ratio coincides with the structural sparsity that the analytic decomposition into a circulant filter and a sparse backprojection exposes. We confirm the predicted scaling on CPU at small image scale and on GPU at medium image scale, all on the same scaling law. Beyond CT reconstruction, the estimator applies to physics-informed neural networks that hardcode a known physical operation in its architecture, and we expect the result to be of interest for a broad community working on operator-aware deep learning. Calibrating the per-layer constants on each sweep yields a bound that tracks the empirical test MSE within a factor of two at every training-set size, so the estimator can be inverted to predict how many training samples are required to reach a target error.

URL PDF HTML ☆

赞 0 踩 0

2605.08516 2026-05-12 cs.AI

OracleTSC: Oracle-Informed Reward Hurdle and Uncertainty Regularization for Traffic Signal Control

Darryl Jacob, Xinyu Liu, Muchao Ye, Xiaoyong Yuan, Pan He

AI总结本文提出了一种名为OracleTSC的交通信号控制方法，旨在提升基于大语言模型（LLM）的强化学习在交通信号控制中的稳定性和可解释性。该方法通过引入奖励门槛机制和不确定性正则化，有效过滤弱学习信号并鼓励决策一致性，从而提高模型训练的稳定性。实验表明，OracleTSC在LibSignal基准测试中显著提升了交通效率，同时保持了自然语言解释的可解释性，并在不同路口间表现出良好的泛化能力。

Comments Published in Transactions on Machine Learning Research

2605.08515 2026-05-12 cs.LG cs.RO

Quantile-Coupled Flow Matching for Distributional Reinforcement Learning

Michael Groom, Victor-Alexandru Darvariu, Lars Kunze, James Wilson, Nick Hawes

AI总结不同于标准的期望回报强化学习，分布强化学习（DRL）建模完整的回报分布，更适合处理不确定性感知和风险敏感的决策问题。本文提出FlowIQN，一种基于条件流匹配（CFM）的批评者模型，通过在每个小批量内对源样本和贝尔曼目标样本进行排序，近似单调最优运输耦合，从而实现与Wasserstein距离对齐的流匹配损失。该方法首次在CFM批评者中提供了显式的Wasserstein对齐投影保证，并在多个离线强化学习基准测试中表现出优越的分布准确性和性能。

2605.08513 2026-05-12 cs.CL cs.AI cs.LG

A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models

Hamid Kazemi, Atoosa Chegini, Maria Safi

AI总结该研究探讨了大语言模型中安全对齐机制的脆弱性，发现安全对齐依赖于两类机制不同的神经元：拒绝神经元负责控制有害知识的输出，概念神经元则编码有害内容本身。通过单独操控这两类系统中的单个神经元，研究展示了绕过安全对齐的两种方式——对明确有害请求的抑制绕过和对无害提示的有害内容放大，并在多个不同规模的模型中验证了这一现象。研究结果表明，安全对齐并非广泛分布于模型权重中，而是由个别神经元控制，这些神经元单独即可决定是否抑制有害输出。

2605.08511 2026-05-12 cs.RO

Trajectory-Consistent Flow Matching for Robust Visuomotor Policy Learning

Riad Ahmed, Sujosh Nag, Moniruzzaman Akash, Mostafa Hussein, Momotaz Begum

AI总结该研究针对流匹配策略在机器人操作中因训练与推理阶段目标不一致导致的轨迹误差问题，提出了一种轨迹一致的流匹配方法。通过引入时间一致性监督、轨迹段位移约束、速度场平滑正则化以及高阶Runge-Kutta推理等四方面互补的改进措施，有效提升了策略的鲁棒性和长期任务执行能力。实验表明，该方法在多个真实机器人任务中显著优于现有方法，尤其在长时域多阶段任务中表现出色。

2605.08505 2026-05-12 cs.LG cs.AI math.PR math.ST stat.TH

Scaling Limits of Long-Context Transformers

Giuseppe Bruno, Shi Chen, Zhengjiang Lin, Yury Polyanskiy, Philippe Rigollet

AI总结本文研究了固定查询和随机上下文下的长上下文Transformer的注意力机制，分析了逆温度参数 $β_n$ 对注意力行为的影响，揭示了选择性出现的临界尺度由距离分布的局部指数决定，而非全局特征。研究还刻画了不同 $β_n$ 区域下注意力权重和输出的极限分布，包括亚临界、临界和超临界情形，并指出在亚临界情况下，当值矩阵为单位矩阵时，注意力映射近似实现了反向热方程。

Comments 40 pages, 4 figures

2605.08503 2026-05-12 cs.CL cs.CY cs.HC

NARRA-Gym for Evaluating Interactive Narrative Agents

Yue Huang, Yuchen Ma, Jiayi Ye, Wenjie Wang, Zipeng Ling, Xingjian Hu, Yuexing Hao, Zichen Chen, Zhangchen Xu, Yunhong He, Zhengqing Yuan, Yujun Zhou, Kehan Guo, Chaoran Chen, Toby Jia-Jun Li, Stefan Feuerriegel, Xiangliang Zhang

AI总结本文介绍了NARRA-Gym，一个用于评估交互式叙事代理的可执行环境，旨在测试大语言模型在多轮对话中生成连贯故事、管理长期状态、模拟角色、个性化表达及生成故事相关素材的能力。该环境通过稀疏的情感种子生成完整故事，并记录模型在故事构建、记忆更新、节奏控制等过程中的完整轨迹。实验表明，不同模型在故事流畅性、鲁棒性、用户体验等方面表现差异显著，突显了交互式叙事作为评估长期、用户自适应大模型行为的有效基准。

2605.08498 2026-05-12 cs.LG cs.AI cs.LO

MathConstraint: Automated Generation of Verified Combinatorial Reasoning Instances for LLMs

Viresh Pati, Zhengyu Li, Piyush Jha, Rahul Garg, Yatharth Sejpal, Vijay Ganesh

AI总结本文提出 MathConstraint，一个用于评估大语言模型组合推理能力的具有挑战性的自适应基准。该基准结合约束满足问题与求解器验证，设计了一种自适应生成器，能够持续生成随着模型推理能力提升仍保持难度的实例。实验表明，即使前沿模型借助工具环境，其在 MathConstraint 上的准确率仍显著下降，展示了该基准对模型进步的鲁棒性，并揭示了工具调用次数对性能的敏感影响。