arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2503.05383 2026-05-12 cs.AI cs.MA

AVA: Attentive VLM Agent for Mastering StarCraft II

Weiyu Ma, Yuqian Fu, Zecheng Zhang, Bernard Ghanem, Guohao Li

AI总结本文提出 AVACraft，一个支持多智能体强化学习（MARL）和视觉语言模型（VLM）的多模态星际争霸 II 基准。该基准提供了 RGB 图像、自然语言观察和结构化状态信息，使基于训练的方法与零样本方法在多种场景下进行系统比较。研究通过对比多种 MARL 算法和 VLM 模型，揭示了两者在训练效率、性能上限、可解释性和部署成本等方面的权衡。

Comments Accepted by ACL 2026

2503.02972 2026-05-12 cs.CL cs.AI

LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

Jude Khouja, Lingyi Yang, Karolina Korgul, Simeon Hellsten, Vlad A. Neacsu, Harry Mayne, Ryan Othniel Kearns, Andrew M. Bean, Adam Mahdi

AI总结 LINGOLY-TOO 是一个旨在区分语言模型推理能力与知识记忆能力的新型基准测试，包含1,203道题目和6,995个子问题。该测试通过对语言学竞赛题目进行专家设计的正字法混淆处理，保留问题的解题逻辑，同时降低依赖知识记忆的解题可能性。实验表明，即使最先进的推理模型在混淆后表现也明显下降，验证了该基准在衡量真实推理能力方面的有效性。

Comments Published as a conference paper at ICLR 2026

2502.20213 2026-05-12 cs.LG cs.CY

Mixture of Experts for Recognizing Depression from Interview and Reading Tasks

Loukas Ilias, Dimitris Askounis

AI总结本文研究如何通过语音识别抑郁症，提出了一种结合访谈和阅读任务语音数据的混合专家模型方法。该方法利用多模态融合技术，将访谈和阅读任务的语音特征输入共享的AlexNet模型，并通过混合专家（MoE）模块进行分类，有效提升了模型性能。实验表明，该方法在Androids数据集上取得了87.00%的准确率和86.66%的F1分数，为抑郁症的早期识别提供了新的技术手段。

Comments Accepted at ICASSP 2026

2502.18334 2026-05-12 cs.LG

Structural Alignment Improves Graph Test-Time Adaptation

Hans Hao-Hsun Hsu, Shikun Liu, Han Zhao, Pan Li

AI总结该研究针对图神经网络在分布偏移下性能下降的问题，提出了一种无需重新训练的图测试时适应方法——Test-Time Structural Alignment（TSA）。TSA通过结构对齐策略，在推理阶段调整图结构以适应目标分布，核心方法包括不确定性感知的邻居加权、自节点与邻域表示的自适应平衡以及决策边界优化。实验表明，TSA在多个合成与真实数据集上优于现有图测试时适应方法。

Comments Accepted to AISTATS 2026

2502.11537 2026-05-12 cs.LG cs.AI

Simulus: Combining Improvements in Sample-Efficient World Model Agents

Lior Cohen, Kaixin Wang, Bingyi Kang, Uri Gadot, Shie Mannor

AI总结本文提出Simulus，一种模块化的基于token的世界模型智能体，旨在提升样本效率强化学习中的性能。该方法结合了包括内在动机、优先回放、回归分类奖励预测等在内的多项改进模块，通过灵活的token化框架支持多种观测和动作模态的组合。实验表明，Simulus在多个基准任务中实现了最先进的样本效率，且各模块具有独立贡献和协同增益效果。

Comments Revised version: updated title, abstract, and framing to better reflect our contributions and situate the work within the literature

2502.08943 2026-05-12 cs.CL cs.AI cs.LG

Beyond the Singular: Revealing the Value of Multiple Generations in Benchmark Evaluation

Wenbo Zhang, Hengrui Cai, Wenyu Chen

AI总结本文研究了在评估大语言模型（LLM）性能时，如何更准确地反映其内在随机性对基准测试结果的影响。作者提出了一种层次统计模型，通过引入多个生成结果，提高了基准得分估计的准确性并降低了方差。此外，该方法还定义了基于正确率的提示级难度评分，并构建了可视化数据图谱，有助于提升基准构建的质量控制与错误检测能力。

Comments 11 pages, 5 figures, accepted at the Findings of ACL 2026

2411.05516 2026-05-12 cs.RO

EROAS: 3D Efficient Reactive Obstacle Avoidance System for Autonomous Underwater Vehicles using 2.5D Forward-Looking Sonar

Pruthviraj Mane, Allen Jacob George, Rajini Makam, Subhash Gurikar, Rudrashis Majumder, Suresh Sundaram

AI总结本文提出了一种名为EROAS的高效反应式避障系统，用于自主水下机器人（AUV）在复杂水下环境中的导航。该系统通过在标准2D前视声呐基础上引入旋转机构，实现了低成本的2.5D声呐感知，从而增强对障碍物垂直信息的获取能力。EROAS结合了三个互补模块，包括声呐轮廓引导的方向决策控制、空间上下文生成器和时空控制屏障函数，有效提升了避障的实时性与安全性。实验表明，与传统方法相比，EROAS在轨迹效率和安全性能方面均有显著提升。

Comments Accepted for publication as a Technical Communication, Special Issue on AUV Symposium in the IEEE Journal of Oceanic Engineering (JOE)

2410.19471 2026-05-12 cs.LG cs.AI

Improving Inverse Folding for Peptide Design with Diversity-regularized Direct Preference Optimization

Ryan Park, Darren J. Hsu, C. Brian Roland, Maria Korshunova, Chen Tessler, Shie Mannor, Olivia Viessmann, Bruno Trentini

AI总结该研究旨在改进基于结构的肽设计中的逆折叠模型，解决现有模型生成序列重复且难以正确折叠的问题。研究提出通过直接偏好优化（DPO）结合在线多样性正则化和领域先验知识，对ProteinMPNN模型进行微调，以生成结构一致且多样化的肽序列。实验表明，该方法在保持结构相似性的同时显著提升了序列多样性，优于现有方法。

Comments Preprint. 10 pages plus appendices

2410.14702 2026-05-12 cs.AI cs.CL

Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark

Himanshu Gupta, Shreyas Verma, Ujjwala Anantheswaran, Kevin Scaria, Mihir Parmar, Swaroop Mishra, Chitta Baral

AI总结本文提出了一项名为PolyMATH的多模态数学推理基准测试，旨在评估多模态大语言模型在视觉理解与抽象推理方面的能力。该基准包含5000个高质量图像，涵盖模式识别、空间推理等10个类别，通过多种提示策略对15个模型进行评估，结果显示当前模型在处理空间关系和复杂推理任务时仍存在明显不足。研究进一步表明，模型对视觉图示的理解有限，仅依赖文本描述时性能提升有限，凸显了多模态推理能力的提升空间。

Comments Accepted in Neural Information Processing Systems (NeurIPS 2025) Workshop: Foundations of Reasoning in Language Models

2410.14022 2026-05-12 cs.RO cs.AI

Language Conditioned Multi-Finger Dexterous Manipulation Enabled by Physical Compliance and Switching of Controllers

Cheng Pan, Kai Junge, Benhui Dai, Qinghua Guan, Josie Hughes

AI总结该研究旨在解决机器人如何结合高层语言理解与底层灵巧操作控制的问题，提出了一种基于双通道控制策略的方法，通过事件驱动的切换机制协调视觉-语言-动作模型与轻量级控制策略。研究利用自定义的13自由度仿人手机器人，展示了硬件层面的柔顺性对操作鲁棒性和适应性的重要作用，并验证了该方法在多种语言条件下的灵巧任务中的有效性与模块化扩展能力。

详情

英文摘要

Human dexterity arises from combining high-level task reasoning with finger-level dexterity control and physical compliance at the muscle and skin layers. In robotics, large Vision-Language-Action (VLA) models demonstrate text-conditioned high-level planning across diverse manipulation tasks, typically using pincher grippers. Smaller imitation-learning policies, conversely, show success in dexterous tasks using higher degree-of-freedom (DoF) grippers, but only for limited-scope tasks. However, few approaches combine high-level reasoning with dexterous, robust low-level control, which requires both intelligent control and compliant robot design. We propose a method inspired by the two-channel hypothesis of human motor control that combines these capabilities using a switching controller integrating high-level VLAs and smaller control models. Coordination between the two channels is managed through an event-driven switching mechanism that monitors subtask progression and completion, requiring minimal demonstration data by fine-tuning the VLA to predict event signals and training lightweight subtask-level dexterous policies. This approach is applied to our custom compliant 13-DoF anthropomorphic robotic hand, where compliance can be modulated to evaluate its impact on dexterity and robustness when combined with an autonomous policy. We show that hardware-level compliance in robotic fingers enables passive adaptation to disturbances and improves contact stability. The methodology is validated across a range of language-conditioned dexterous tasks. To demonstrate modularity, we show that adaptation to additional dexterous skills and different compliant hands can be achieved without retraining the VLA model. This provides an efficient, scalable, cross-embodiment approach to dexterity that leverages compliance while retaining the advantages of large AI models.

URL PDF HTML ☆

赞 0 踩 0

2409.13107 2026-05-12 cs.RO

Towards Robust Surgical Automation via Digital Twin Representations from Foundation Models

Hao Ding, Lalithkumar Seenivasan, Hongchao Shu, Grayson Byrd, Han Zhang, Pu Xiao, Juan Antonio Barragan, Russell H. Taylor, Peter Kazanzides, Mathias Unberath

AI总结本文探讨了如何通过基于基础模型的数字孪生（DT）表示，提升手术自动化系统的鲁棒性。研究提出了一种新的感知方法，利用先进的视觉基础模型生成高精度的环境表示，并将其与大语言模型代理结合，用于手术任务规划。实验在dVRK平台上进行，验证了该方法在 peg 转移和纱布抓取任务中的有效性和环境适应能力，为构建更完善的数字孪生框架提供了初步探索。

2407.16239 2026-05-12 cs.LG stat.ML

Identifiable Latent Bandits: Leveraging observational data for personalized decision-making

Ahmet Zahid Balcıoğlu, Newton Mwai, Emil Carlsson, Fredrik D. Johansson

AI总结本文研究了如何利用观测数据实现可识别的潜在变量多臂老虎机模型，以提升个性化决策效率。提出了一种基于非线性独立成分分析的框架，能够从历史决策和结果中学习到足够表征潜在问题结构的表示，从而在较短的探索时间内做出最优决策。该方法在模拟和半合成环境中验证有效，相比传统在线和离线学习方法表现出显著优势。

Comments 35 pages, 21 figures

2407.11906 2026-05-12 cs.CV cs.RO

SegSTRONG-C: Segmenting Surgical Tools Robustly On Non-adversarial Generated Corruptions -- An EndoVis'24 Challenge

Hao Ding, Yuqian Zhang, Tuxun Lu, Ruixing Liang, Hongchao Shu, Lalithkumar Seenivasan, Yonghao Long, Qi Dou, Cong Gao, Yicheng Leng, Seok Bong Yoo, Eung-Joo Lee, Negin Ghamsarian, Klaus Schoeffmann, Raphael Sznitman, Zijian Wu, Yuxin Chen, Septimiu E. Salcudean, Samra Irshad, Shadi Albarqouni, Seong Tae Kim, Yueyi Sun, An Wang, Long Bai, Hongliang Ren, Ihsan Ullah, Ho-Gun Ha, Attaullah Khan, Hyunki Lee, Satoshi Kondo, Satoshi Kasai, Kousuke Hirasawa, Sita Tailor, Ricardo Sanchez-Matilla, Imanol Luengo, Tianhao Fu, Jun Ma, Bo Wang, Marcos Fernández-Rodríguez, Estevao Lima, João L. Vilaça, Mathias Unberath

AI总结 SegSTRONG-C 是一项旨在提升手术器械分割模型在非对抗性干扰下鲁棒性的挑战赛，基于通过反事实机器人重演生成的数据集，提供干净与受干扰的配对样本以评估模型性能。该挑战赛要求参赛者在未受干扰的数据上训练模型，并在包含出血、烟雾和低亮度等干扰的测试集上进行评估，揭示了模型失效的关键因素并提出了提升鲁棒性的有效方法。挑战赛结果显示，优秀方法在多个干扰类型下均取得了较高的分割精度，突显了先验知识、定制训练策略和网络结构选择对提升模型鲁棒性的重要性。

详情

英文摘要

Surgical data science has seen rapid advancement with the excellent performance of end-to-end deep neural networks (DNNs). Despite their successes, DNNs have been proven susceptible to minor "corruptions," introducing a major concern for the translation of cutting-edge technology, especially in high-stakes scenarios. We introduce the SegSTRONG-C challenge dedicated to better understanding model deterioration under unforeseen but plausible non-adversarial "corruption" and the capabilities of contemporary methods that seek to improve it. Built on a dataset generated through counterfactual robotic replay, SegSTRONG-C provides paired clean and "corrupted" samples, enabling reproducible evaluation of model robustness. Participants are challenged to train tool segmentation algorithms on "uncorrupted" data and evaluate them on "corrupted" test domains for the binary robot tool segmentation task. Through comprehensive baseline experiments and participating submissions from widespread community engagement, SegSTRONG-C reveals key themes for model failure and identifies promising directions for improving robustness. The performance of challenge winners, achieving an average 0.9394 DSC and 0.9301 NSD across the unreleased test sets with "corruption" types: bleeding, smoke, and low brightness. This highlights how prior knowledge, customized training strategies, and architectural choice can be leveraged to improve robustness. In conclusion, the SegSTRONG-C challenge has identified practical approaches for enhancing model robustness. However, most approaches rely on conventional techniques that have known limitations. Looking ahead, we advocate for expanding intellectual diversity and creativity in non-adversarial robustness beyond data augmentation, calling for new paradigms that enhance universal robustness to unforeseen "corruptions" to facilitate richer applications in surgical data science.

URL PDF HTML ☆

赞 0 踩 0

2407.06576 2026-05-12 cs.CL cs.AI

Virtual Personas for Language Models via an Anthology of Backstories

Suhong Moon, Marwa Abdulhai, Minwoo Kang, Joseph Suh, Widyadewi Soedarmadji, Eran Kohen Behar, David M. Chan, John Canny

AI总结本文提出了一种名为“Anthology”的方法，通过利用开放式的“人生故事”（backstories）来为大型语言模型（LLM）创建虚拟人格，使其能够更贴近特定个体的表达方式。该方法提升了模型在行为实验中的响应一致性与可靠性，并更好地代表了不同子群体。实验结果显示，在与美国皮尤研究中心的三项全国性调查对比中，该方法在响应分布匹配和一致性指标上分别提升了18%和27%。

Comments EMNLP 2024 Main

2406.12708 2026-05-12 cs.CL

AgentReview: Exploring Peer Review Dynamics with LLM Agents

Yiqiao Jin, Qinlin Zhao, Yiyang Wang, Hao Chen, Kaijie Zhu, Yijia Xiao, Jindong Wang

AI总结本文提出了一种基于大语言模型（LLM）的同行评审模拟框架AgentReview，旨在深入探索同行评审过程中的动态机制。该框架能够有效分离多种潜在因素的影响，并解决传统数据隐私问题。研究发现，审稿人的偏见可能导致论文评审结果出现37.1%的差异，相关结论得到了社会学理论的支持，为改进同行评审机制提供了有价值的参考。

Comments Accepted at EMNLP 2024 Main Track (Oral). https://agentreview.github.io/

2403.18136 2026-05-12 cs.LG cs.AI

Identifying Backdoored Graphs in Graph Neural Network Training: An Explanation-Based Approach with Novel Metrics

Jane Downer, Ren Wang, Binghui Wang

AI总结本文研究了图神经网络（GNN）训练过程中背门攻击的检测问题，提出了一种基于图级解释的新方法，并设计了七种创新指标以更全面地识别攻击行为。该方法通过提取和转换GNN解释机制的次级输出，提升了检测的灵活性和准确性，并通过自适应攻击对方法进行了严格验证。实验结果表明，该方法在多个基准数据集上表现出优异的检测性能，为保障GNN安全性提供了重要进展。

2309.16131 2026-05-12 cs.LG cs.NE math.SP

A Spectral Approach for Learning Spatiotemporal Neural Differential Equations

Mingtao Xia, Xiangting Li, Qijing Shen, Tom Chou

AI总结本文提出了一种基于谱展开的神经常微分方程（Neural-ODE）方法，用于学习时空微分方程。该方法无需空间离散化，能够有效处理具有长程非局部相互作用的无界空间域问题。相比现有方法，该谱方法在保持高精度的同时，拓展了机器学习在无界微分方程及积分微分方程学习中的应用范围。

Comments 21 pages, 5 figures

2110.02879 2026-05-12 cs.LG cs.AI

Compositional Q-learning for electrolyte repletion with imbalanced patient sub-populations

Aishwarya Mandyam, Andrew Jones, Jiayu Yao, Krzysztof Laudanski, Barbara Engelhardt

AI总结该研究针对医疗环境中患者治疗反应异质性的问题，提出了一种基于组合结构的拟合Q迭代算法（CFQI），用于电解质补充等个性化治疗决策。该方法通过将任务分解为不同难度的子任务，利用共享知识提升学习效率，并为不同患者群体学习差异化的策略。实验表明，CFQI在面对患者子群体分布不平衡时仍具有良好的性能，展示了其在临床应用中的潜力。

2605.09245 2026-05-12 cs.CV

CalibFree: Self-Supervised View Feature Separation for Calibration-Free Multi-Camera Multi-Object Tracking

Ruiqi Xian, Deep Patel, Iain Melvin, Sanjoy Kundu, Martin Renqiang Min, Dinesh Manocha

AI总结多相机多目标跟踪（MCMOT）在不同视角下保持目标身份一致性方面面临挑战，尤其需要精确的标定和大量标注。本文提出了一种无需标定和人工标注的自监督表征学习框架CalibFree，通过单视角蒸馏和跨视角重建促进视图无关与视图特定特征的分离，从而适应复杂动态场景。实验表明，该方法在多个数据集上均取得优于现有方法的跟踪性能，验证了其在无标定情况下的有效性与适应性。

2605.09243 2026-05-12 cs.AI q-bio.NC

How Much is Brain Data Worth for Machine Learning?

Lane Lewis, Zhixin Wang, David Schwab, Xaq Pitkow

AI总结本文探讨了脑数据在机器学习任务中的价值，研究了在任务训练中结合脑记录数据是否能提升模型性能与鲁棒性。通过构建一个线性高斯模型，作者理论分析了脑数据与任务样本的数量如何影响模型表现，并推导出脑样本与任务样本之间的相对价值和交换率。研究还分析了测试分布偏移的情况，明确了脑数据在提升模型不变性与鲁棒性方面的潜力，并指出了在固定数据采集预算下脑数据值得收集的条件。

Comments 9 pages main text, 5 figures, 34 pages of appendix with detailed proofs

2605.09241 2026-05-12 cs.LG cs.AI

Sub-JEPA: Subspace Gaussian Regularization for Stable End-to-End World Models

Kai Zhao, Dongliang Nie, Yuchen Lin, Zhehan Luo, Yixiao Gu, Deng-Ping Fan, Dan Zeng

AI总结本文提出了一种名为Sub-JEPA的方法，旨在解决联合嵌入预测架构（JEPA）在训练世界模型时面临的偏差-方差权衡问题。通过在多个随机子空间中施加高斯约束，而非直接在原始嵌入空间中使用各向同性高斯先验，该方法在降低全局约束强度的同时保持了防止表示崩溃的效果，从而在训练稳定性和表示灵活性之间取得了更好的平衡。实验表明，Sub-JEPA在四个连续控制环境中显著优于现有方法LeWM，具有简单有效且适用于未来JEPA世界模型研究的特点。

Comments https://github.com/intcomp/Sub-JEPA

2605.09239 2026-05-12 cs.CL cs.LG

Repeated-Token Counting Reveals a Dissociation Between Representations and Outputs

Sohan Venkatesh

AI总结大型语言模型在处理重复标记计数任务时表现不佳，尽管它们在更广泛的推理基准测试中表现良好。研究发现，模型内部的表示层能够准确解码正确的计数信息，但输出错误是由于在网络深度约88%到93%处的一个格式触发的多层感知机（MLP）模块覆盖了正确的计数结果。这一现象在不同规模的模型中均存在，表明计数失败是路由机制的问题，而非表示能力的不足。

Comments Code is available at https://github.com/sohv/counting-failure

2605.09238 2026-05-12 cs.LG cs.AI

Intrinsic Muon: Spectral Optimization on Riemannian Matrix Manifolds

Yibang Li, Bihari Lal Pandey, Ravi Sah, Andi Han, Cyrus Mostajeran, Pratik Jawanpuria, Bamdev Mishra

AI总结该论文提出了一种名为“内在Muon（iMuon）”的优化方法，用于在黎曼矩阵流形上进行谱优化。传统Muon优化器难以直接应用于低秩分解、正交约束或对称正定矩阵等流形参数，而iMuon通过引入黎曼度量诱导的内在范数，解决了这一问题，实现了在多种流形上的闭式更新。该方法不仅保持了对称性，还提供了收敛性保证，并在大语言模型微调、图像分类等任务中展现出优越性能。

Comments Code: https://github.com/1bang118/manifold-intrinsic-muon

2605.09235 2026-05-12 cs.LG cs.AI stat.ML

On Variance Reduction in Learning Mean Flows

Juanwu Lu, Ziran Wang

AI总结本文研究了在学习均值流（MeanFlow）过程中方差减少的问题，指出当前训练方法因错误使用条件速度场而导致损失不降和梯度方差无界。作者提出了一种理论分析，明确了最优的系数设置，并表明已有多种改进方法实际上对应于同一最优解的不同实现。实验表明，使用最优系数可显著提升样本质量，并揭示了梯度方差最小化与FID指标优化之间的不匹配现象。

Comments 25 pages, 7 figures, 6 tables

2605.09228 2026-05-12 cs.LG cs.AI

ProactBench: Beyond What The User Asked For

Sepehr Harfi, Ahmad Salimi, Dongming Shen, Alex Smola

AI总结本文提出 ProactBench，一个用于评估大语言模型在对话中主动识别并满足用户隐含需求能力的新型基准。该基准将这种能力分解为三个阶段相关类型：基于单一线索的推理、多线索合成以及任务完成后的前瞻性价值判断。通过设计包含规划者、用户代理和助理模型的三代理系统，ProactBench有效避免了评分偏差，并提供了包含多种沟通风格的高质量对话数据集，揭示了现有主流模型在“恢复”阶段表现较弱，为模型评估提供了新的重要指标。

2605.09227 2026-05-12 cs.CL

Two Ways to De-Bias an LLM-as-a-Judge: A Continuous-Score Comparison of Hierarchical Bayesian Calibration and Neural-ODE Score Transport

Andrea Morandi

AI总结本文研究了如何减少大语言模型作为评分者（LLM-as-a-judge）时的偏差问题，比较了两种校正方法：基于分层贝叶斯的参数化线性校正和非参数化的神经微分方程（Neural-ODE）分数传输模型。实验表明，两种方法在不同数据量下的表现各有优劣，线性方法在小样本下更优，而分数传输模型在数据充足时表现更佳。研究提出了一个明确的部署决策规则，以指导实际应用中的方法选择。

2605.09224 2026-05-12 cs.LG

SMIXAE: Towards Unsupervised Manifold Discovery in Language Models

Collin Francel

AI总结本文提出了一种名为SMIXAE的新架构，旨在解决稀疏自编码器（SAEs）在建模多维语言模型特征时的不足。该方法通过引入混合自编码器结构，能够直接学习语言模型中已知的流形结构，并发现新的结构，实验在开源的Gemma 2 2B和9B模型上验证了其有效性。研究为无监督语言模型流形发现提供了新的思路和工具。

Comments 20 pages, 10 figures, 11 tables. Submitted to Mechanistic Interpretability Workshop, ICML 2026

2605.09221 2026-05-12 cs.LG cs.AI

The Pokémon Theorem and other Fairness Impossibility Results

Daniel Matsui Smola, Alex Smola

AI总结本文研究了公平性不可能性结果背后的几何本质，指出多种公平性矛盾可统一归结为再生核希尔伯特空间（RKHS）中的线性约束问题。研究揭示了在基础分布不均衡的情况下，这些约束会导致期望定律的过定，从而无法同时满足多个公平性标准。文章提出了包括“Pokémon定理”在内的多个结论，展示了在有限线性均值公平性条件下，公平性偏差无法完全消除，并为公平特征学习和现实中的公平性权衡提供了理论边界。

2605.09218 2026-05-12 cs.CV cs.AI cs.LG cs.RO

Flame3D: Zero-shot Compositional Reasoning of 3D Scenes with Agentic Language Models

Sagar Bharadwaj, Ziyong Ma, Anurag Ghosh, Srinivasan Seshan, Anthony Rowe

AI总结 Flame3D 是一种无需训练的三维场景理解框架，通过可编辑的视觉-文本三维记忆与现成的大型语言模型结合，实现对复杂空间关系和未出现对象的零样本推理。该方法在推理时能够合成自定义的空间程序，支持对场景布局、空置空间和新对象的开放推理，并可通过外部数据更新记忆而无需重新训练。实验表明，Flame3D 在三维问答和组合空间推理任务中表现出色，突显了动态生成空间操作对复杂三维推理的重要性。

2605.09217 2026-05-12 cs.AI cs.LG cs.MA

Learning the Preferences of a Learning Agent

Karim Abdel Sadek, Mark Bedaywi, Rhys Gould, Stuart Russell

AI总结本文研究了如何从学习代理的在线行为中推断其潜在奖励函数的问题，旨在解决传统逆强化学习在假设人类行为近似最优时的局限性。作者将学习代理建模为具有无悔或收敛到最优玻尔兹曼策略的动态过程，并针对不同场景分析了多种偏好学习算法的理论保证，揭示了在某些情况下无法获得保证的边界条件。该研究为理解智能体在学习过程中的偏好提供了新的理论框架。

Comments Published at ICLR 2026, Workshop on Multi-Agent Learning and Its Opportunities in the Era of Generative AI. 9 pages main text