arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2602.17546 2026-05-12 cs.CL cs.LG

Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning

Jyotin Goel, Souvik Maji, Pratik Mazumder

AI总结本文研究了在微调过程中如何防止语言模型的安全性下降问题，提出了一种自适应正则化框架，能够根据安全风险动态调整正则化策略，从而在保持模型实用性的同时提升其安全性。该方法通过两种方式估计训练过程中的安全风险：一种是基于判别器对训练批次进行高风险评分，另一种是利用轻量分类器分析中间激活特征预测有害意图。实验表明，该方法在多种模型和攻击场景下均能有效降低攻击成功率，且不增加推理时的开销。

Comments Work in progress (48 pages)

2602.17251 2026-05-12 cs.LG

SCOPE: Structured Prototype-Guided Adaptation for EEG Foundation Models with Limited Labels

Jingying Ma, Feng Wu, Yucheng Xing, Qika Lin, Tianyu Liu, Chenyu Liu, Ziyu Jia, Mengling Feng

AI总结本文研究了在仅有少量标注样本的情况下，如何有效地适配脑电图基础模型（EFMs）。针对EFMs在有限标签下适应时出现的校准偏差、预测崩溃和表示漂移等问题，提出了一种结构化置信感知的原型引导框架SCOPE。该方法通过构建群体级外部监督和生成置信感知伪标签，提升了无标签样本的可靠性，并引入轻量的原型适配器以冻结EFMs的预训练表示，从而在多种任务和数据比例下均表现出优异的性能和效率。

2602.10868 2026-05-12 cs.LG

The Sample Complexity of Uniform Approximation for Multi-Dimensional CDFs and Fixed-Price Mechanisms

Matteo Castiglioni, Anna Lunghi, Alberto Marchesi

AI总结本文研究了在仅获得一位反馈信息的情况下，学习多维累积分布函数（CDF）的均匀近似所需的样本复杂度。研究发现，样本复杂度在维度上几乎不变，仅以对数形式依赖于维度。该结果为小市场中的固定价格机制学习提供了紧致的样本复杂度界和新的遗憾界。

2602.09789 2026-05-12 cs.LG

When Less is More: The LLM Scaling Paradox in Context Compression

Ruishan Guo, Yibing Liu, Guoxin Ma, Yan Wang, Yueyang Zhang, Long Xia, Kecheng Chen, Zhiyuan Sun, Daiting Shi

AI总结本文研究了在上下文压缩任务中，大语言模型参数规模增加所带来的“规模-保真度悖论”：尽管增大压缩模型的规模可以降低重建误差，但却可能降低重建内容的忠实度。研究发现，这一现象主要由“知识覆盖”和“语义漂移”两种机制引起，并通过嵌入几何和重建确定性分析揭示了大模型在语义子空间中组织记忆的特性，导致表示模糊、覆盖和恢复能力下降。研究结果对现有上下文压缩评估体系提出了补充，并揭示了在从生成可信内容转向忠实保留原始信息的目标下，模型扩展规律可能失效。

Comments 22 pages, 7 figures, conference

2602.08617 2026-05-12 cs.LG

ERIS: Enhancing Privacy and Scalability in Federated Learning via Federated Shard Aggregation

Dario Fenoglio, Pasquale Polverino, Jacopo Quizi, Martin Gjoreski, Akash Dhasade, Marc Langheinrich

AI总结本文提出了一种名为ERIS的联邦学习框架，通过引入联邦分片聚合（FSA）机制，在提升隐私性的同时解决大规模模型训练中的可扩展性问题。ERIS将客户端更新划分为互不重叠的分片，并在多个客户端聚合器上分布式聚合，从而消除中心化聚合瓶颈、限制单个观察者可获取的信息，并在重组后保持与集中式联邦学习相同的更新效果。实验表明，ERIS在保持模型性能的同时，有效减少了通信开销并增强了对成员推理和重构攻击的鲁棒性。

2602.07940 2026-05-12 cs.AI

MePo: Meta Post-Refinement for Rehearsal-Free General Continual Learning

Guanglong Sun, Hongwei Yan, Liyuan Wang, Zhiqi Kang, Shuang Cui, Hang Su, Jun Zhu, Yi Zhong

AI总结为应对外部环境的不确定性变化，智能系统需要从复杂动态环境中持续学习并实时响应，这一能力被称为通用持续学习（GCL）。尽管利用预训练模型（PTMs）已显著提升了传统持续学习的性能，但在处理单一过程中多样化且时间混合的信息时仍存在局限。本文提出了一种名为MePo的元后优化方法，通过构建伪任务序列和双层元学习框架，增强PTMs在无回放场景下的持续学习能力，并通过初始化元协方差矩阵提升表征对齐的鲁棒性，实验证明该方法在多个GCL基准上取得了显著性能提升。

2602.06550 2026-05-12 cs.LG cs.AI

Dynamics-Aligned Shared Hypernetworks for Contextual RL under Discontinuous Shifts

Jan Benad, Pradeep Kr. Banerjee, Frank Röder, Nihat Ay, Martin V. Butz, Manfred Eppe

AI总结在上下文强化学习中，当潜在上下文不连续变化并导致动作对环境的影响发生突变时，零样本泛化仍是一个核心挑战。本文提出DMA*-SH框架，通过一个仅基于动力学预测训练的共享超网络生成适配器权重，用于动态模型、策略和动作价值函数，从而引入与不连续上下文变化相匹配的归纳偏置。该方法结合输入输出归一化和随机输入掩码，提升了上下文推断的稳定性，并在新设计的Actuator Inversion Benchmark基准上实现了优于现有方法的零样本泛化性能。

2602.06527 2026-05-12 cs.AI

HyPER: Bridging Exploration and Exploitation for Scalable LLM Reasoning with Hypothesis Path Expansion and Reduction

Shengxuan Qiu, Haochen Huang, Shuzhang Zhong, Pengfei Zuo, Meng Li

AI总结该论文提出了一种名为HyPER的方法，旨在解决大规模语言模型推理中探索与利用之间的平衡问题。HyPER通过动态控制假设路径的扩展与缩减，在固定计算预算下优化推理过程，从而提升推理准确率并减少计算资源消耗。该方法无需额外训练，适用于混合专家模型，实验表明其在多个基准测试中显著提升了准确率并降低了计算成本。

2602.05391 2026-05-12 cs.CV

Efficient Dataset Distillation for Pre-Trained Self-Supervised Models via Statistical Flow Matching

Qianxin Xia, Jiawei Du, Xin Zhang, Yuhan Zhang, Jielei Wang, Guoming Lu

AI总结该论文研究了如何高效地对预训练自监督模型进行数据集蒸馏，以生成一个体积小但性能接近原始数据集的合成数据集。为了解决传统方法在计算和内存上的高开销问题，作者提出了一种基于统计流匹配的新方法，通过对齐原始数据中目标类与非目标类中心的统计流来优化合成图像，大幅降低了计算资源需求。实验表明，该方法在保持甚至提升性能的同时，相比现有方法减少了10倍的GPU内存占用和4倍的运行时间，并提出了一种分类器继承策略以进一步提升效率和性能。

2602.04712 2026-05-12 cs.CV cs.AI eess.IV

SAR-RAG: ATR Visual Question Answering by Semantic Search, Retrieval, and MLLM Generation

David F. Ramirez, Tim Overman, Kristen Jaskie, Joe Marvin, Andreas Spanias

AI总结本文提出了一种用于合成孔径雷达（SAR）图像自动目标识别（ATR）的视觉上下文图像检索增强生成（ImageRAG）辅助AI方法，名为SAR-RAG。该方法结合多模态大语言模型（MLLM）与语义嵌入向量数据库，通过检索已知目标类型的图像示例，提升对SAR图像中军事车辆的识别准确率。实验表明，SAR-RAG在检索、分类和尺寸回归等指标上均优于传统MLLM方法，显著提升了ATR任务的性能。

Comments Accepted to 2026 SPIE Defense + Security, Automatic Target Recognition XXXVI

2602.04284 2026-05-12 cs.AI cs.LG

Agent-Omit: Adaptive Context Omission for Efficient LLM Agents

Yansong Ning, Jun Fang, Naiqiang Tan, Hao Liu

AI总结在多轮智能体与环境交互过程中，如何高效管理智能体的上下文（如思考和观察）是提升其性能的关键问题。现有方法通常对交互轨迹一视同仁，忽视了不同轮次中思考和观察的必要性与价值差异。为此，本文提出Agent-Omit，一种统一的训练框架，使大语言模型智能体能够自适应地省略冗余的思考和观察内容。实验表明，该方法在多个基准测试中表现出优异的性能与效率平衡。

Comments ICML 2026

2602.04189 2026-05-12 cs.LG stat.CO

Beyond Accuracy: Evaluating Posterior Fidelity of Diffusion Inverse Solvers

Xiaoyu Qiu, Taewon Yang, Zhanhao Liu, Guanyang Wang, Liyue Shen

AI总结本文研究了扩散逆解器（DIS）在科学与工程反问题中的后验分布保真度问题，指出现有基准主要关注重建精度而忽视了不确定性量化。为此，作者提出了一种无需真实后验的评分核Stein分歧（score-KSD）指标，用于评估扩散采样器生成样本与目标后验分布的一致性。实验表明，该指标能有效揭示重建精度与后验一致性之间的差异，为更全面的模型评估提供了新方法。

2602.04093 2026-05-12 cs.LG

Federated Concept-Based Models: Interpretable models with distributed supervision

Dario Fenoglio, Arianna Casanova, Francesco De Santis, Gabriele Dominici, Johannes Schneider, Pietro Barbiero, Giovanni De Felice, Marc Langheinrich, Martin Gjoreski

AI总结该论文提出了一种名为“联邦概念模型”（F-CMs）的新方法，旨在将可解释的概念模型与联邦学习相结合，以解决在分布式数据源中概念标注稀缺的问题。该方法能够在不同机构间聚合概念信息，并在概念监督变化时高效适应模型架构，同时保障隐私。实验表明，F-CMs在保持预测准确性的同时，还能在机构无法获取某些概念的情况下实现可解释推理，具有显著的创新性。

2602.03688 2026-05-12 cs.AI

TodyComm: Task-Oriented Dynamic Communication for Multi-Round LLM-based Multi-Agent System

Wenzhe Fan, Tommaso Tognoli, Henry Peng Zou, Chunyu Miao, Yibo Wang, Xinhua Zhang

AI总结本文提出了一种名为TodyComm的任务导向动态通信算法，用于解决多轮基于大语言模型的多智能体系统中通信结构固定导致的协作效率问题。该方法通过策略梯度优化，在每轮交互中动态生成适应任务需求的协作拓扑，从而提升任务性能。实验表明，TodyComm在动态对抗环境和通信预算限制下表现出优越的性能，同时保持了高效性、可扩展性和良好的泛化能力。

2602.02281 2026-05-12 cs.LG cs.AI cs.NE physics.class-ph physics.comp-ph

A Physical Theory of Backpropagation: Exact Gradients from the Least-Action Principle

Antonino Emanuele Scurria

AI总结本文从哈密顿最小作用量原理出发，推导出精确的反向传播算法，填补了物理原理与反向传播之间的重要理论空白。通过将前向传播过程转化为连续时间动力学，并引入适用于非保守系统的拉格朗日形式，作者在扩展的相空间中统一了推理与梯度计算，使激活值和敏感度共同编码于共轭场中。该方法无需独立的反向计算电路，实现了推理与梯度计算的同步进行，标准的反向传播可视为该连续流的离散时间投影，为经典力学工具在学习动力学分析中的应用提供了理论基础。

Comments 22 pages

2602.01698 2026-05-12 cs.CL cs.LG

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan

AI总结大型推理模型（LRMs）通过强化学习后训练在数学和代码推理任务中取得了显著进展，但研究发现这种后训练会导致探索能力下降，即温度采样无法有效提升任务成功率。本文提出了一种名为“潜在探索解码”（LED）的方法，通过利用中间层的高熵特性，结合深度条件解码策略，有效恢复模型的探索能力。实验表明，LED在多个基准测试中显著提升了推理准确率，且无需额外训练或参数，同时与强化学习结合还能加速性能提升。

Comments Project Page: https://github.com/AlbertTan404/LED

2601.23026 2026-05-12 cs.LG

Root Cause Analysis of Measurement and Mechanistic Anomalies

Hendrik Suhr, David Kaltenpoth, Jilles Vreeken

AI总结本文研究了异常的根本原因分析问题，旨在识别样本偏离正常过程的机制和原因。现有方法主要关注哪些特征导致异常，而忽略了异常可能源于测量错误或机制变化两种不同过程。作者提出了一种因果模型，明确区分这两种异常类型，并基于该模型开发了高效的推理方法，用于定位根本原因并分类异常类型。实验表明，该方法在合成和真实数据上均表现出优越的性能。

2601.22131 2026-05-12 cs.LG

SMOG: Scalable Meta-Learning for Multi-Objective Bayesian Optimization

Leonard Papenmeier, Petru Tighineanu

AI总结该论文提出了一种可扩展的元学习方法 SMOG，用于多目标贝叶斯优化。SMOG 基于多输出高斯过程，显式学习目标之间的相关性，并通过构建跨元任务和目标任务的结构化联合先验，实现对元数据不确定性的有效传播。该方法支持分层并行训练，具有良好的可扩展性，并能与标准多目标贝叶斯优化的获取函数无缝集成，显著提升了数据效率。

Comments 29 pages, 18 figures

2601.21926 2026-05-12 cs.RO

Information Filtering via Variational Regularization for Robot Manipulation

Jinhao Zhang, Wenlong Xia, Yaojia Wang, Zhexuan Zhou, Huizhe Li, Yichen Lai, Haoming Song, Youmin Gong, Jie Mei

AI总结本文研究了基于扩散模型的视觉运动策略在机器人操作中的信息过滤问题，指出现有方法中去噪解码器过于庞大，导致中间特征块存在冗余和噪声。为此，作者提出了一种可插拔的变分正则化模块，通过引入条件高斯分布和KL散度正则化，形成自适应信息瓶颈，有效提升了模型性能。实验表明，该方法在多个仿真和实际机器人任务中均取得了优于基线的成果，达到了新的状态-of-the-art水平。

2601.21739 2026-05-12 cs.LG cs.AI stat.ML

Why Adam Works Better with $β_1 = β_2$: The Missing Gradient Scale Invariance Principle

Alberto Fernández-Hernández, Cristian Pérez-Corral, Jose I. Mestre, Manuel F. Dolz, Enrique S. Quintana-Ortí

AI总结本文研究了Adam优化器中为何当动量参数满足 $β_1 = β_2$ 时表现更优这一长期未被解释的现象。作者提出并形式化了一个名为“梯度尺度不变性”的结构性质，证明当 $β_1 = β_2$ 时，Adam 优化器具有一阶梯度尺度不变性。该发现不仅解释了Adam在平衡参数设置下的优越性能，也为设计鲁棒性更强的优化算法提供了理论指导。

Comments 23 pages, 8 figures. Preprint

2601.20756 2026-05-12 cs.LG stat.ML

Supervised Guidance Training for Infinite-Dimensional Diffusion Models

Elizabeth L. Baker, Alexander Denker, Jes Frellsen

AI总结本文研究了如何在无限维函数空间中对扩散模型进行监督引导训练，以解决来自偏微分方程的贝叶斯反问题。作者提出了一种基于无限维Doob $h$-变换的条件化方法，并将条件分数分解为无条件分数和引导项，进而设计了一种无需模拟的分数匹配目标（称为监督引导训练），实现了高效稳定的后验采样。该方法为在函数空间中微调扩散模型以准确采样后验分布提供了首个系统性方案。

2601.20164 2026-05-12 cs.LG cs.AI cs.CL

What's the plan? Metrics for implicit planning in LLMs and their application to rhyme generation and question answering

Jim Maar, Denis Paperno, Callum Stuart McDougall, Neel Nanda

AI总结本文研究了大型语言模型（LLMs）中的隐式规划行为，即模型在生成文本时可能为未来可能出现的词语（如押韵词或问题答案）提前做出选择。作者提出了一种简单有效的方法来评估这种隐式规划能力，并通过押韵生成和问答任务的案例研究验证了该方法的广泛适用性。研究发现，即使在参数量较小（如10亿参数）的模型中也存在隐式规划机制，这一发现对理解语言模型的规划能力及其在AI安全与控制中的应用具有重要意义。

Comments 41 pages, 34 figures, Accepted at ICLR 2026, Code available at https://github.com/Jim-Maar/implicit-planning-in-llms

2601.19914 2026-05-12 cs.CL cs.AI cs.SE

Simulating Complex Multi-Turn Tool Calling Interactions in Stateless Execution Environments

Maxwell Crouse, Ibrahim Abdelaziz, Kshitij Fadnis, Siva Sankalp Patel, Kinjal Basu, Chulaka Gunasekara, Sadhana Kumaravel, Asim Munawar, Pavan Kapanipathi

AI总结该研究旨在解决在无状态执行环境中生成复杂多轮工具调用对话的问题。传统方法通常假设存在能够维护状态的执行环境，但实际场景中如企业安全或多方来源工具规格合成等情况下，这种假设并不成立。为此，研究提出了一种名为DiGiT-TC的数据生成方法，通过一种新颖的生成模式隐式地在用户请求中表示工具调用，从而在无状态环境下模拟出类似有状态环境生成的对话。实验表明，该方法在标准基准测试中表现出色，即使在有状态问题设置下也取得了显著的性能提升。

2601.16097 2026-05-12 cs.CL

Incremental Multilingual Text2Cypher with Adapter Combination

Makbule Gulcin Ozsoy

AI总结该研究旨在开发一种可扩展的多语言Text2Cypher系统，能够在不重新进行完整微调的情况下支持新语言，从而提升数据库的多语言访问能力。研究通过训练特定语言的LoRA适配器，并结合统一线性合并或动态门控的融合MLP，实现了高效的多语言模型适配。实验表明，该方法在使用更少数据的情况下，性能接近联合多语言微调，且支持语言的逐步扩展，为多语言Text2Cypher任务提供了性能与数据效率兼顾的实用解决方案。

2601.15686 2026-05-12 cs.LG

Beyond Hard Writes and Rigid Preservation: Soft Recursive Least-Squares for Lifelong LLM Editing

Xinyu Wang, Sicheng Lyu, Yu Gu, Jerry Huang, Peng Lu, Yufei Cui, Xiao-Wen Chang

AI总结该论文研究了如何在不重新训练的前提下，对预训练的大语言模型进行长期的、连续的事实或规则编辑，以解决编辑过程中出现的干扰累积与行为稳定性之间的矛盾。提出了一种基于递归最小二乘法的编辑方法RLSEdit，通过在线二次优化框架，结合软约束和正则化项，实现对模型权重和锚定映射的偏差控制，并支持高效的在线递归计算。实验表明，该方法在多个模型和数据集上能够稳定处理大量编辑任务，在编辑效果和整体稳定性方面优于现有方法，同时保持早期编辑效果和模型的通用能力。

2601.15599 2026-05-12 cs.AI

Autonomous Business System via Neuro-symbolic AI

Cecil Pang, Hiroki Sayama

AI总结现代企业环境中，跨职能流程需要持续调整，但现有企业系统多为部门隔离、流程僵化和硬编码自动化。本文提出一种基于神经符号AI的自主业务系统（AUTOBUS），将大语言模型、谓词逻辑编程和业务语义数据整合为统一架构，实现端到端业务任务的自动化执行。该系统通过知识图谱组织企业数据，结合AI代理生成任务逻辑程序，并由逻辑引擎确保执行的确定性和语义一致性，从而提升业务流程的灵活性与可审计性。

Comments IEEE SysCon 2026

详情

DOI: 10.1109/SysCon66367.2026.11503621
Journal ref: 2026 IEEE International Systems Conference (SysCon), Halifax, NS, Canada, 2026, pp. 1-8

英文摘要

Modern business environments demand continuous reconfiguration of cross-functional processes, yet most enterprise systems remain organized around siloed departments, rigid workflows, and hard-coded automation. Meanwhile, large language models (LLMs) demonstrate strong capabilities in interpreting natural language and synthesizing unstructured information, but they lack deterministic, auditable execution of complex business logic. We introduce Autonomous Business System (AUTOBUS), a system that integrates LLM-based AI agents, predicate-logic programming, and business-semantics-centric enterprise data into a unified neuro-symbolic architecture for executing end-to-end business initiatives. AUTOBUS models a business initiative as a network of interrelated tasks with explicit pre- and post-conditions, required data, evaluation rules, and API-level actions. Enterprise data is organized as a knowledge graph, whose entities, relationships, and constraints are translated into logic facts and foundational rules that ground reasoning and ensure semantic consistency. Core AI agents synthesize task instructions, enterprise semantics, and available tools into task-specific logic programs, which are executed by a logic engine that enforces constraints, coordinates auxiliary tools, and produces deterministic outcomes. Humans specify task instructions, define and maintain business semantics and policies, curate tools, and supervise high-impact or ambiguous decisions, ensuring accountability and adaptability. We detail the AUTOBUS architecture, the structure of AI-generated logic programs, and the human-AI collaboration model and present a case study that demonstrates accelerated time to market in a data-rich organization. A reference implementation of the case study is available at https://github.com/cecilpang/autobus-paper.

URL PDF HTML ☆

赞 0 踩 0

2601.12374 2026-05-12 cs.CL cs.AI

A Scalable Entity-Based Framework for Auditing Bias in LLMs

Akram Elbouanani, Aboubacar Tuo, Adrian Popescu

AI总结本文提出了一种基于实体的可扩展框架，用于审计大型语言模型中的偏见。该框架利用命名实体作为可控探针，通过合成数据生成多样且可控的输入，从而系统性地评估模型在不同实体类型、任务、语言和提示策略下的行为差异。研究发现了模型在政治立场、国家偏好和行业倾向等方面的一致偏见模式，并指出模型规模的增加可能加剧偏见，而指令微调虽能缓解但无法完全消除。该框架为大规模偏见分析提供了有效工具，适用于多种应用场景，并已公开提供以支持后续研究。

2601.08321 2026-05-12 cs.CV

UM-Text: A Unified Multimodal Model for Image Understanding and Visual Text Editing

Lichen Ma, Xiaolong Fu, Gaojing Zhou, Zipeng Guo, Ting Zhu, Yichun Liu, Yu Shi, Jason Li, Junshi Huang

AI总结随着图像生成技术的快速发展，基于自然语言指令的视觉文本编辑任务日益受到关注。该任务的核心挑战在于如何准确理解指令和参考图像，并生成与图像风格一致的视觉文本。为此，本文提出 UM-Text，一个统一的多模态模型，通过引入视觉语言模型（VLM）和 UM-Encoder，实现了对文本内容与布局的精细设计，并通过区域一致性损失和三阶段训练策略提升了生成效果，同时贡献了一个大规模视觉文本图像数据集 UM-DATA-200K。

Comments Accepted by AAAI 2026

2601.03042 2026-05-12 cs.CL

BaseCal: Unsupervised Confidence Calibration via Base Model Signals

Hexiang Tan, Wanli Yang, Junwei Zhang, Xin Chen, Rui Tang, Du Su, Jingang Wang, Yuanzhuo Wang, Fei Sun, Xueqi Cheng

AI总结该研究针对大语言模型（PoLLMs）在实际应用中常表现出的过度自信问题，提出了一种无需监督的置信度校准方法BaseCal。通过利用对应的基座模型（base LLM）作为参考，BaseCal 提出了两种方法：一种是通过基座模型重新评估PoLLM的输出置信度，另一种是训练一个轻量投影模块将PoLLM的隐藏状态映射到基座模型的状态，从而生成校准后的置信度。实验表明，BaseCal 能有效降低预期校准误差（ECE），在多个数据集和模型家族中表现优异。

Comments ACL 2026 Main

2512.24601 2026-05-12 cs.AI cs.CL

Recursive Language Models

Alex L. Zhang, Tim Kraska, Omar Khattab

AI总结本文研究了如何通过推理时的扩展，使大语言模型（LLMs）能够处理任意长度的提示。为此，作者提出了递归语言模型（RLMs），该方法将长提示视为外部环境的一部分，允许模型对提示进行编程式的分析、分解和递归调用自身。实验表明，RLMs 能够处理超出模型上下文窗口两个数量级的输入，在多个长上下文任务中显著优于现有的前沿模型，且成本相当。此外，作者基于 RLM 微调了首个模型 RLM-Qwen3-8B，在多个长上下文任务中表现优于基础模型，并接近 GPT-5 的水平。

Comments 9 pages, 43 with Appendix