arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.11376 2026-05-13 cs.AI

LLM-X: A Scalable Negotiation-Oriented Exchange for Communication Among Personal LLM Agents

Giuliano Lorenzoni, Paulo Alencar, Donald Cowan

AI总结本文提出了一种名为LLM-X的可扩展谈判导向型交换框架，旨在支持个人语言模型代理之间的直接、结构化通信。该框架引入了消息总线和路由机制，确保通信的结构有效性与策略执行，并提供了联邦网关、主题路由和策略执行的架构设计，以及支持能力协商和合同网络式协调的类型化消息协议。实验表明，LLM-X在不同规模和负载条件下均能保持稳定，且揭示了策略选择在系统鲁棒性、公平性与通信效率之间的权衡关系。

Comments 8 pages, 7 figures, accepted at AGENT 2026 Workshop, co-located with ICSE 2026

2605.11373 2026-05-13 cs.AI cs.LG stat.ML

Causal Algorithmic Recourse: Foundations and Methods

Drago Plecko, Collin Wang, Elias Bareinboim

AI总结本文研究如何在人工智能决策系统中为个体提供可靠的逆向决策建议，即算法性补救（algorithmic recourse）问题。作者提出了一种因果框架，将补救过程建模为干预前后的结果过程，考虑了潜在变量的重新采样和部分稳定性。文章引入了后补救稳定性条件，并开发了基于copula的算法以从观测数据中推断补救效果，同时提出了在数据不满足copula模型时的分布无关学习方法，为算法性补救提供了更稳健和实用的解决方案。

2605.11369 2026-05-13 cs.CV

Dynamic Full-body Motion Agent with Object Interaction via Blending Pre-trained Modular Controllers

Sanghyeok Nam, Byoungjun Kim, Daehyung Park, Tae-Kyun Kim

AI总结该研究旨在解决人类与物体之间动态交互动作生成的挑战，提出了一种结合预训练运动先验和模仿智能体的框架，以生成如持物奔跑等长期动态交互动作。通过在规划阶段引入预训练的人体运动扩散模型增强数据集，并生成物体轨迹，从而规划出动态交互序列；在执行阶段，使用一个组合网络融合专用于动态人体动作或静态交互的预训练模仿智能体，实现时空技能的互补组合。该方法在保持交互质量的同时显著提升了任务成功率，并大幅减少了训练时间。

Comments CVPR Findings 2026

2605.11368 2026-05-13 cs.LG cs.AI q-bio.GN

LPDP: Inference-Time Reward Control for Variable-Length DNA Generation with Edit Flows

Jeongchan Kim, Yunkyung Ko, Jong Chul Ye

AI总结本文研究了如何利用Edit Flows在DNA序列生成过程中实现推理阶段的奖励控制。提出了一种名为LPDP的方法，它是一种无需训练、关注中间状态和动作的局部重解算操作符，能够在生成可变长度DNA序列时进行高效的编辑操作。LPDP通过在每一步推理中评估单步根编辑、保留最优根编辑集，并在局部范围内求解离散优化问题，从而提升生成序列的质量和生物合理性，适用于增强子优化和基因剪接边界修复等任务。

Comments 22 pages, 5 figures

2605.11363 2026-05-13 cs.CV cs.CL

PresentAgent-2: Towards Generalist Multimodal Presentation Agents

Wei Wu, Ziyang Xu, Zeyu Zhang, Yang Zhao, Hao Tang

AI总结本文提出了一种名为 PresentAgent-2 的智能框架，旨在从用户查询中生成包含多模态内容的完整演示视频。该框架支持三种独立的演示模式，包括单人讲解、多人讨论和互动问答，并通过深度研究和多模态资源整合，实现内容生成、脚本编写和动态媒体合成。研究拓展了演示生成从依赖文档的幻灯片制作向基于查询、具备研究支撑和交互能力的视频生成方向发展。

详情

英文摘要

Presentation generation is moving beyond static slide creation toward end-to-end presentation video generation with research grounding, multimodal media, and interactive delivery. We introduce PresentAgent-2, an agentic framework for generating presentation videos from user queries. Given an open-ended user query and a selected presentation mode, PresentAgent-2 first summarizes the query into a focused topic and performs deep research over presentation-friendly sources to collect multimodal resources, including relevant text, images, GIFs, and videos. It then constructs presentation slides, generates mode-specific scripts, and composes slides, audio, and dynamic media into a complete presentation video. PresentAgent-2 supports three independent presentation modes within a unified framework: Single Presentation, which generates a single-speaker narrated presentation video; Discussion, which creates a multi-speaker presentation with structured speaker roles, such as for asking guiding questions, explaining concepts, clarifying details, and summarizing key points; and Interaction, which independently supports answering audience questions grounded in the generated slides, scripts, retrieved evidence, and presentation context. To evaluate these capabilities, we build a multimodal presentation benchmark covering single presentation, discussion, and interaction scenarios, with task-specific evaluation criteria for content quality, media relevance, dynamic media use, dialogue naturalness, and interaction grounding. Overall, PresentAgent-2 extends presentation generation from document-dependent slide creation to query-driven, research-grounded presentation video generation with multimodal media, dialogue, and interaction. Code: https://github.com/AIGeeksGroup/PresentAgent-2. Website: https://aigeeksgroup.github.io/PresentAgent-2.

URL PDF HTML ☆

赞 0 踩 0

2605.11362 2026-05-13 cs.LG cs.AI stat.AP stat.ML

Causal Fairness for Survival Analysis

Drago Plecko

AI总结在数据驱动时代，机器学习和人工智能被广泛用于医疗、就业等高风险领域，引发了对系统公平性问题的关注。现有公平机器学习研究多聚焦于静态场景，而对生存分析等时间序列场景中的公平性研究仍较为缺乏。本文提出一种因果框架，用于生存分析中的公平性研究，能够将生存差异分解为直接、间接和虚假路径的贡献，从而提供对差异成因和演变过程的可解释分析，并应用于分析重症监护病房中种族差异随时间的变化。

2605.11361 2026-05-13 cs.LG cs.DS

The tractability landscape of diffusion alignment: regularization, rewards, and computational primitives

Ankur Moitra, Andrej Risteski, Dhruv Rohatgi

AI总结本文研究了扩散模型在推理阶段如何通过奖励对齐来调整生成分布的问题，探讨了不同分布距离度量下对齐方法的可计算性差异。作者提出了一种基于计算原语的方法，分析了在KL散度和Wasserstein距离下实现奖励对齐所需的最小算法条件，并展示了对于凸型低维奖励和凹型或低维Lipschitz奖励，分别存在高效的采样和优化原语，从而明确了奖励对齐问题的可解性边界。

2605.11355 2026-05-13 cs.LG cs.CE

gym-invmgmt: An Open Benchmarking Framework for Inventory Management Methods

Reza Barati, Qinmin Vivian Hu

AI总结本文提出了一款名为 gym-invmgmt 的开源库存管理方法评估框架，用于在统一实验条件下比较不同库存策略的性能。该框架通过共享的核心环境设定和多样化的22种场景，评估优化方法、启发式方法和学习控制器在不同库存管理条件下的表现。研究发现，基于场景对冲的随机规划方法在预测信息可用时表现最佳，而基于Transformer的近端策略优化方法在推理速度和策略质量上具有优势，但不同策略的表现依赖于信息获取、需求变化、网络结构和策略表示等多个因素。

Comments 16 pages, 4 figures

2605.11354 2026-05-13 cs.CV

Lite3R: A Model-Agnostic Framework for Efficient Feed-Forward 3D Reconstruction

Haoyu Zhang, Zeyu Zhang, Zedong Zhou, Yang Zhao, Hao Tang

AI总结本文提出了一种名为Lite3R的模型无关框架，旨在提升基于Transformer的3D重建方法的效率。该框架通过引入稀疏线性注意力机制减少密集多视图注意力的计算开销，并结合参数高效的FP8感知量化训练策略，实现低精度下的稳定几何重建。实验表明，Lite3R在多个主流模型上显著降低了计算延迟和内存消耗，同时保持了较高的重建质量，为实际应用中的高效3D重建提供了有效的算法与系统协同设计方法。

2605.11348 2026-05-13 cs.CL cs.AI cs.IR cs.SI

Large Language Models for Causal Relations Extraction in Social Media: A Validation Framework for Disaster Intelligence

Ujun Jeong, Saketh Vishnubhatla, Bohan Jiang, Andre Harrison, Adrienne Raglin, Huan Liu

AI总结本文研究了在灾害场景下，如何利用大语言模型（LLM）从社交媒体中提取因果关系，以增强灾情态势感知。为验证LLM的有效性，作者提出了一种基于专家知识的评估框架，通过对比模型生成的因果图与灾害报告中的参考图，评估其准确性。研究发现，LLM在提取因果关系方面具有潜力，但也存在依赖模型先验知识而非事件后证据的风险。

Comments Submitted to EMNLP

2605.11346 2026-05-13 cs.LG cs.AI cs.CE

Physics-Informed Teacher-Student Ensemble Learning for Traffic State Estimation with a Varying Speed Limit Scenario

Archie J. Huang, Dongdong Wang, Shaurya Agarwal, Mohamed Abdel-Aty, Md Mahmudul Islam, Muhammad Shahbaz

AI总结本文研究了在可变限速场景下的交通状态估计问题，提出了一种结合物理信息深度学习与教师-学生集成训练的新型框架。该方法通过在教师模型中编码流量守恒定律，学生模型则利用多层感知机分类器识别交通特征并选择合适的教师模型进行估计，从而有效应对限速变化带来的交通特性异质性。实验结果表明，该方法在交通状态估计任务中优于其他主流基线方法。

Comments The IEEE International Conference on Intelligent Transportation Systems (ITSC) 2026

2605.11341 2026-05-13 cs.AI

CPEMH: An Agentic Framework for Prompt-Driven Behavior Evaluation and Assurance in Foundation-Model Systems for Mental Health Screening

Giuliano Lorenzoni, Ivens Portugal, Paulo Alencar, Donald Cowan

AI总结本文提出了一种名为CPEMH的智能代理框架，用于评估和保障基于提示的大型语言模型在心理健康筛查中的行为表现。该框架通过协调设计、评估和选择提示策略，实现了对模型行为在不同场景下的系统控制，具备模块化结构，确保了过程的可追溯性和稳定性。研究通过抑郁筛查的案例展示了该框架在临床对话场景中对模型行为进行稳定化和审计的能力，强调了模块化协调、稳定性优先以及将F1值、偏差和鲁棒性作为核心评估标准的重要性。

Comments 4 pages, 2 figures. Accepted at the AGENT 2026 Workshop (ICSE 2026)

2605.11334 2026-05-13 cs.LG cs.CL cs.IR

VERDI: Single-Call Confidence Estimation for Verification-Based LLM Judges via Decomposed Inference

Jasmine Qi, Danylo Dantsev, Muyang Sun

AI总结 VERDI 是一种用于验证型大语言模型评估系统的单次调用置信度估计方法，通过分解推理过程中的验证步骤，提取三个结构化信号来评估判断结果的可信度。该方法无需额外推理调用，结合逻辑回归模型实现高精度的置信度预测，在多个公开基准和实际系统中均表现出良好的性能，尤其在答案置信度校准不佳的模型上也具有较好的适应性。

Comments 16 pages, 6 figures

2605.11330 2026-05-13 cs.AI

Rethinking Evaluation for LLM Hallucination Detection: A Desiderata, A New RAG-based Benchmark, New Insights

Wenbo Chen, Veena Padmanabhan, Tootiya Giyahchi, Elaine Wong, Leman Akoglu

AI总结本文针对大语言模型（LLM）幻觉检测的评估方法进行了重新思考，提出了一个用于构建有效幻觉检测基准（HDB）的期望属性列表，并指出现有基准在长上下文的RAG（检索增强生成）基准和真实标签噪声支持方面存在明显不足。为此，作者构建并开源了一个新的RAG-based幻觉检测基准T RIVIA+，该基准包含当前最长的上下文样本，并引入了多种噪声标签以模拟真实场景。实验表明，现有检测方法在RAG任务上仍有较大提升空间，且标签噪声对检测性能有显著影响。

Comments ACL 2026 main conference

2605.11328 2026-05-13 cs.LG cs.AI

Epistemic Uncertainty for Test-Time Discovery

Kainat Riaz, Muhammad Ahmed Mohsin, Ahsan Bilal, Muhammad Umer, Ayesha Mohsin, Aqib Riaz, Ali Subhan, John M. Cioffi

AI总结该研究探讨了如何利用大语言模型在测试阶段进行科学发现的问题，指出传统强化学习方法因惩罚高方差变异而倾向于熟悉模式，导致奖励难以持续提升。为此，研究提出了一种基于知识不确定性度量的探索策略，通过维护一个小型适配器集成，在冻结的基模型上识别出因训练覆盖不足而非问题本质困难的区域，从而引导策略向潜在发现区域探索。实验表明，该方法在多个科学发现任务中提升了最大奖励并保持了更高的解的多样性。

2605.11327 2026-05-13 cs.LG

Neural Statistical Functions

Daniel Xu, Yuxin Xie, Minghao Guo, Haixu Wu, Wojciech Matusik

AI总结本文提出了一种新型神经统计函数模型，用于直接估计连续操作条件范围内的统计量，避免了传统方法中重复推理带来的高延迟问题。该方法基于预训练的单样本预测器和散点数据，通过引入前缀统计的概念，将积分、分位数和极值等不同统计函数统一到一个区间条件框架中，并以前缀统计与个体回归之间的原理性一致性作为学习目标。实验表明，该模型在动力系统能量累积、气动响应分位数和碰撞过程最大应力等复杂物理过程的统计估计中表现出色，模型评估次数最多可减少100倍。

2605.11324 2026-05-13 cs.LG stat.ML

$\varepsilon$-Good Action Identification in Fixed-Budget Monte Carlo Tree Search

Yinan Li, Tuan Nguyen, Kwang-Sung Jun

AI总结本文研究了在固定预算下深度为2的max-min树中识别ε-优质动作的问题，这是蒙特卡洛树搜索的一个重要特例。作者提出了一种无需输入ε值的算法，能够针对每个有意义的ε值实现实例相关的误差界，其误识别概率以指数形式衰减。此外，作者还分析了该问题与标准K臂老虎机在难度结构上的差异，并提供了相应的下界结果，这是首个针对max-min动作识别的固定预算算法保证。

2605.11317 2026-05-13 cs.CL cs.AI

SOMA: Efficient Multi-turn LLM Serving via Small Language Model

Xueqi Cheng, Qiong Wu, Zhengyi Zhou, Xugui Zhou, Tyler Derr, Yushun Dong

AI总结在多轮对话场景中，大型语言模型（LLMs）的部署面临延迟、内存和API成本高昂的问题。为此，本文提出SOMA框架，通过利用会话早期的对话内容估计局部响应流形，并使用一个小的语言模型作为代理模型处理后续对话，从而在保证响应质量的同时提升服务效率。该方法结合软提示学习、反退化控制和局部LoRA微调，实现了代理模型在推理阶段无需提示的高效运行，并提供了理论分析与实验验证，证明了其有效性。

2605.11316 2026-05-13 cs.LG math.OC

Error whitening: Why Gauss-Newton outperforms Newton

Maricela Best McKay, Nathan P. Lawrence, Brian Wetton, R. Bhushan Gopaluni

AI总结本文从函数空间视角分析了为何高斯-牛顿法在实践中优于牛顿法，揭示了高斯-牛顿矩阵通过将损失梯度投影到模型切空间，消除了参数化带来的误差扭曲，这一过程被称为“误差白化”。研究指出，这种特性使得高斯-牛顿法在优化过程中更贴近损失函数本身的结构，从而在多种学习任务中表现出更优的性能。

Comments Neurips preprint

2605.11312 2026-05-13 cs.AI

Constraint-Data-Value-Maximization: Utilizing Data Attribution for Effective Data Pruning in Low-Data Environments

Danilo Brajovic, David A. Kreplin, Marco F. Huber

AI总结本文研究了在数据量有限的情况下如何有效进行数据剪枝的问题，提出了一种基于数据归属的约束数据价值最大化（CDVM）方法。该方法通过将剪枝过程建模为一个受约束的优化问题，在最大化整体数据影响的同时限制单个测试样本的贡献，从而在保留少量数据时仍能保持模型性能。实验表明，CDVM在OpenDataVal基准上表现出色，具有良好的性能和竞争力的运行时间。

Comments Accepted for publication at IJCAI 2026

2605.11311 2026-05-13 cs.LG cs.CV stat.CO stat.ML

Couple to Control: Joint Initial Noise Design in Diffusion Models

Jing Jia, Liyue Shen, Guanyang Wang

AI总结该论文研究了扩散模型中初始噪声设计的问题，指出传统方法中假设初始噪声相互独立可能限制了生成效果。作者提出通过设计噪声之间的依赖结构，保持单个噪声仍为标准高斯分布，从而在不改变模型输入分布的前提下，提升多样本生成的多样性与质量。实验表明，该方法在多个主流扩散模型中有效提升了生成多样性，同时保持了图像质量和提示对齐，并在部分指标上优于现有优化方法。

Comments 26 pages

2605.11307 2026-05-13 cs.CV cs.LG

Vision2Code: A Multi-Domain Benchmark for Evaluating Image-to-Code Generation

Ajay Vikram Periasami, Junlin Wang, Bhuwan Dhingra

AI总结 Vision2Code 是一个用于评估多领域图像到代码生成能力的基准测试框架，旨在检验视觉语言模型能否将图像结构转化为可执行代码。该基准包含来自15个数据集的2,169个测试样例，涵盖图表、几何图形、科学图像等多种领域，并采用基于视觉语言模型的评分机制进行评估，有效区分代码执行错误与重建质量问题。实验表明，模型在不同领域的表现存在显著差异，且通过筛选模型输出作为训练数据可有效提升生成性能。

Comments Project page: https://image2code.github.io/vision2code/

2605.11304 2026-05-13 cs.CV

CheXTemporal: A Dataset for Temporally-Grounded Reasoning in Chest Radiography

Eva Prakash, Yunhe Gao, Chong Wang, Justin Xu, Neal Prakash, Arne Michalson, Seena Dehkharghani, Eun Kyoung Hong, Julie Bauml, Roger Boodoo, Jean-Benoit Delbrouck, Sophie Ostmeier, Curtis Langlotz

AI总结 CheXTemporal 是一个用于胸部X光影像时序推理的数据集，旨在解决当前模型在处理胸部影像纵向变化时的不足。该数据集包含配对的前后胸部X光片，并提供了细粒度的时序和空间标注，支持五类疾病进展分类。研究还构建了一个包含28万对影像的弱监督数据集，用于评估模型在时序推理和疾病进展分类任务中的表现，结果表明现有模型在时序推理和空间定位方面仍存在明显局限。

2605.11303 2026-05-13 cs.CL

Predicting Psychological Well-Being from Spontaneous Speech using LLMs

Erfan Loweimi, Sofia de la Fuente Garcia, Saturnino Luz

AI总结该研究探讨了利用大语言模型（LLMs）从自发性语音中零样本预测 Ryff 心理幸福感（PWB）评分的可行性。研究使用了 PsyVoiD 数据库中 111 名参与者的语音录音，评估了包括 Llama-3、Mistral、Gemma、Phi-4 等在内的 12 个指令微调大模型，并与临床心理学和语言学专家合作设计了领域相关的提示词。实验结果显示，LLMs 能够从语音中提取语义信息，实现高达 0.8 的斯皮尔曼相关系数，同时通过统计分析和关键词云分析增强了预测结果的可解释性。

2605.11301 2026-05-13 cs.AI cs.CL cs.CV

LatentRouter: Can We Choose the Right Multimodal Model Before Seeing Its Answer?

Xueqi Cheng, Yushun Dong

AI总结本文提出了一种名为 LatentRouter 的多模态模型路由方法，旨在根据图像-问题输入的特性，选择最适合的多模态大语言模型。该方法通过构建多模态路由胶囊和模型能力标记，利用潜在状态间的通信来预测各候选模型的性能表现，并结合分布输出头和边界胶囊校正机制提升预测准确性。实验表明，LatentRouter 在多个基准测试中优于现有方法，尤其在需要视觉、布局或推理能力的任务中表现突出。

2605.11300 2026-05-13 cs.CV

Can Graphs Help Vision SSMs See Better?

Dhruv Parikh, Anvitha Ramachandran, Haoyang Fan, Mustafa Munir, Rajgopal Kannan, Viktor Prasanna

AI总结本文研究了如何通过图结构改进视觉状态空间模型（Vision SSMs）的性能，提出了一种基于图的动态扫描操作符GraphScan。该方法为每个视觉标记构建局部图结构，学习基于特征的亲和关系，并通过语义邻域的一次消息传递生成输出标记，从而在全局状态空间混合前实现局部语义对齐。实验表明，集成GraphScan的GraphScan-Mamba在多个视觉任务中取得了最先进的性能，且计算开销较小，为未来视觉状态空间模型的扫描机制提供了新的语义导向视角。

Comments Technical Report

详情

英文摘要

Vision state space models inherit the efficiency and long-range modeling ability of Mamba-style selective scans. However, their performance depends critically on the representation of two-dimensional visual features as one-dimensional token sequences. Existing scan operators range from predefined geometric traversals to dynamic coordinate-based samplers that reroute tokens through predicted offsets and interpolation. While effective, these mechanisms primarily adapt paths or sampling locations, rather than explicitly modeling which local patches should exchange information before global state-space mixing. This motivates a simple question: \emph{can graphs help vision state space models see better?} We introduce \textbf{GraphScan}, a graph-induced dynamic scanning operator for Vision SSMs. For each token, GraphScan constructs a spatially bounded local graph, learns feature-conditioned affinities with relative positional bias, and produces the output token by one-step message passing over its semantic neighborhood. The resulting tokens are locally grounded before being processed by the selective SSM for global aggregation. GraphScan preserves token count and linear scaling in image size, while replacing coordinate-conditioned interpolation with feature-conditioned semantic routing. Integrated into a hierarchical backbone, \textbf{GraphScan-Mamba} achieves state-of-the-art performance among Vision SSMs across image classification, object detection, instance segmentation, and semantic segmentation, with modest computational overhead. Our analysis further shows that GraphScan induces interpretable displacement fields over the token lattice, providing a semantic and spatially grounded view of dynamic scanning. These results suggest that future Vision SSMs should treat scanning not merely as geometric serialization, but as learned local semantic routing before global state-space modeling.

URL PDF HTML ☆

赞 0 踩 0

2605.11296 2026-05-13 cs.RO cs.SY eess.SY

Computational Design of a Low-Visibility UAV Using a Human-Aligned Perceptual Metric

Jingxian Wang, Chen Yu, David Matthews, Emma Alexander, Sam Kriegman, Michael Rubenstein

AI总结本文提出了一种名为 Phantom Twist 的单旋翼无人机设计，通过高速旋转和运动模糊实现低可见性。研究构建了一个两阶段自动化设计流程，优化功能组件的布局，同时满足飞行稳定性要求，并以人类感知对齐的视觉度量（LPIPS）作为优化目标。实验验证表明，该方法生成的无人机具有良好的稳定性和可控性，且相比传统四旋翼无人机，其视觉可察觉性显著降低。

Comments Accepted by RSS 2026

2605.11291 2026-05-13 cs.LG

Optimal Representations for Generalized Contrastive Learning with Imbalanced Datasets

Thuan Nguyen, Shuchin Aeron, D. Richard Brown, Prakash Ishwar

AI总结本文研究了在类别不平衡数据集下对比学习（CL）中最优表示的几何特性。作者证明，当类别不平衡时，同一类别的所有样本的最优表示会坍缩到类均值，并呈现出由类别比例决定的角对称结构。此外，当类别不平衡达到一定阈值时，会出现“少数类坍缩”现象，即少数类样本全部坍缩为一个向量。研究还提出了一个凸优化问题来确定最优表示的几何结构，并通过数值实验验证了理论结果。

Comments 28 pages, 2 figures

2605.11290 2026-05-13 cs.CL cs.AI

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

Xueqi Cheng, Xugui Zhou, Tyler Derr, Yushun Dong

AI总结本文提出了一种名为 ReAD 的强化引导能力蒸馏框架，旨在在固定 token 预算下更有效地压缩大语言模型，同时保留对下游任务至关重要的能力。该方法通过识别任务关键能力、动态生成针对性监督信号，并利用不确定性感知的上下文老虎机算法优化预算分配，从而在提升任务表现的同时减少能力间的负面干扰和资源浪费。实验表明，ReAD 在相同预算下优于现有方法，具有更高的实用性和效率。

2605.11289 2026-05-13 cs.LG math.OC

Quotient-Categorical Representations for Bellman-Compatible Average-Reward Distributional Reinforcement Learning

Ege C. Kaya, Aliasghar Pourghani, Vijay Gupta, Abolfazl Hashemi

AI总结本文研究平均奖励强化学习中的分布强化学习问题，针对传统方法在实数线上难以直接定义分布形式的挑战，提出了一种基于商空间和分类参数化的表示方法，以处理状态索引偏差律的平移不变性。该方法定义了投影平均奖励分布算子，并证明其具有良好定义性、非扩张性及不动点性质，同时分析了采样递归的收敛性，并在未知增益情况下引入在线估计器，保证了算法的稳定性与收敛性。

Comments 29 pages, 4 figures