arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.08958 2026-05-12 cs.LG

Learning predictive models for combinations of heterogeneous proteomic data sources

Michal Valko, Richard Pelikan, Miloš Hauskrecht

AI总结该研究探讨了如何整合两种异质蛋白质组学数据源——全样本质谱分析和多重蛋白芯片阵列——以提高对胰腺癌的分类性能。研究发现，单独在每种数据上表现良好的分类模型在数据组合时可能失效，因此提出了一类能够融合不同数据特性的模型融合方法，以充分利用异质数据的优势。

Comments Published at in AMIA Summit on Translational Bioinformatics (STB 2008

2605.08956 2026-05-12 cs.AI

Agentic AI Scientists Are Not Built For Autonomous Scientific Discovery

Harshit Bisht, Vinay Kumar, Kevin Maik Jablonka, Mausam, N. M. Anoop Krishnan

AI总结本文探讨了当前所谓的“智能体AI科学家”在实现端到端自主科学发现方面存在的局限性。作者指出，尽管这类AI已在科研中发挥辅助作用，但其在问题选择、知识基础、偏好优化和评估体系等方面存在根本性挑战，难以胜任真正的自主科研任务。文章建议通过科学模拟验证、构建持续演化的世界模型、建立假设预注册库等方法，推动更符合科学实践需求的AI科学家系统设计。

2605.08955 2026-05-12 cs.LG

Outlier detection for patient monitoring and alerting

Miloš Hauskrecht, Iyad Batal, Michal Valko, Shyam Visweswaran, Gregory F. Cooper, Gilles Clermont

AI总结本文研究如何利用电子健康记录（EHRs）中的历史患者数据，检测出异常的患者管理决策，并据此生成警报。研究提出了一种基于数据驱动的异常检测方法，通过分析4486名心脏手术后患者的记录，验证了异常决策可能反映医疗错误的假设。实验结果显示，该方法在多种患者管理操作中实现了25%至66%的真实警报率，其中最强异常情况下的警报准确率达66%。

Comments Published at JBI 2013

2605.08954 2026-05-12 cs.LG cs.AI

MolWorld: Molecule World Models for Actionable Molecular Optimization

Yang Qiao, Bo Pan, Hao-Wei Pang, Peter Zhiping Zhang, Liying Zhang, Liang Zhao

AI总结在药物研发中，分子优化旨在发现具有更优靶点特性的分子，但实际的先导分子优化不仅需要预测性能高，还应具备可操作性，即能够通过有效的局部结构变换从已知分子演化而来。为此，本文提出MolWorld框架，通过构建分子转移图并利用世界模型指导搜索过程，实现可操作的分子优化。该方法在保持分子结构连通性的同时，能够有效提升分子性能，在性质优化和基于对接的任务中表现出色。

2605.08952 2026-05-12 cs.CV

FugSeg: Fast Uncertainty-aware Ground Segmentation for 3D Point Cloud

Yu Li, Volker Schwieger

AI总结在基于激光雷达的环境感知系统中，地面分割是支持地图构建和导航等应用的关键预处理步骤。为了解决反射噪声和孤立地面点等挑战，本文提出了一种快速且具有不确定性感知能力的地面分割方法FugSeg。该方法采用极坐标网格图表示点云，并引入自适应坡度和噪声地面点处理机制，有效提升了复杂地形下的分割可靠性；实验表明，FugSeg在多个公开数据集上均优于现有非学习方法，且在单线程CPU上即可实现高运行效率，适用于资源受限的系统。

Comments Accepted for publication in IEEE Transactions on Intelligent Transportation Systems

详情

DOI: 10.1109/TITS.2026.3682176
Journal ref: IEEE Transactions on Intelligent Transportation Systems (Early Access), 2026

英文摘要

In LiDAR-based environment perception systems, ground segmentation is a key preprocessing step supporting various applications such as mapping and navigation. Although extensively studied, problems such as reflection noise and isolated ground remain challenging. To address these issues, we propose FugSeg, a fast uncertainty-aware ground segmentation method. A polar grid map is adopted as the point cloud representation to ensure generalizability across LiDAR types. Building on that, we develop a within- and cross-segment ground labeling strategy that identifies not only directly visible ground cells but also those that are isolated or occluded. During this process, an adaptive slope is introduced, which incorporates measurement uncertainties to enhance its reliability under complex terrain. Finally, to achieve point-level ground segmentation, a fine-grained ground elevation estimation method is introduced. Throughout the complete workflow, reflection noise is explicitly handled via the proposed noisy ground cells. We conduct comprehensive evaluations on four public datasets covering both structured and unstructured environments. Results show that FugSeg outperforms state-of-the-art non-learning methods, achieving the highest F1, accuracy, and mIoU across all datasets, while maintaining the fastest runtime (135 Hz and 487 Hz for 64- and 32-layer LiDARs) using a single CPU thread, making it suitable for resource-limited systems. The code will be available at https://github.com/Leo-YuLi/FugSeg.

URL PDF HTML ☆

赞 0 踩 0

2605.08950 2026-05-12 cs.CL cs.AI

Improving Lexical Difficulty Prediction with Context-Aligned Contrastive Learning and Ridge Ensembling

Wicaksono Leksono Muhamad, Joanito Agili Lopo, Tsamarah Rana Nugraha, Ahmad Cahyono Adi, Muhammad Oriza Nurfajri

AI总结本文研究如何提升词汇难度预测的准确性，特别是在不同母语背景下的语言学习和可读性评估中。为了解决现有方法在跨语言对齐和难度序关系建模上的不足，作者提出了一种结合上下文对齐对比学习和岭回归集成的方法，有效提升了模型在跨语言场景下的表示能力和难度序建模能力。实验表明，该方法在多个母语数据集上均取得了更稳定和准确的预测效果。

2605.08947 2026-05-12 cs.RO

A low-cost mockup to simulate robotic laser cutting in nuclear decommissioning

Frederico Fernandes Afonso Silva, Murilo Marques Marinho, Bruno Vilhena Adorno

AI总结本文提出了一种低成本实验装置，用于模拟核设施退役过程中机器人激光切割容器的过程。该装置包括三轴平台、六自由度机械臂和基于视觉系统的控制模块，能够模拟激光切割并实现避障与路径跟踪。通过采用约束任务空间自适应运动控制器，系统无需校准即可补偿参数误差，并在控制紫外光束而非末端执行器全姿态的情况下，实现了较高的切割路径跟踪精度。

Comments 7 pages, 8 figures, 2 tables. Under Review for TAROS 2026 (Towards Autonomous Robotic Systems)

2605.08946 2026-05-12 cs.LG

A Single Deep Preference-Conditioned Policy for Learning Pareto Coverage Sets

Akihiro Kubo, Kosuke Nakanishi, Shin Ishii

AI总结该研究旨在学习一个单一的深度偏好条件策略，以捕捉多目标强化学习中不同偏好下的帕累托最优解集。通过引入平滑的Tchebycheff标量化方法，论文证明了在满足一定条件时，每个偏好对应唯一的帕累托最优回报向量，并且该向量对偏好具有Lipschitz连续性，为密集帕累托前沿覆盖提供了理论基础。研究提出了基于占用度量的凹镜像下降策略迭代算法（CMDPI），并将其扩展为深度策略梯度算法，在多个多目标任务中表现出优越的帕累托前沿覆盖率和期望效用性能。

2605.08945 2026-05-12 cs.CV

PIDNet: Progressive Implicit Decouple Network for Multimodal Action Quality Assessment

Qiqi Li, Pengfei Wang, Nenggan Zheng

AI总结本文提出了一种名为PIDNet的渐进式隐式解耦网络，用于多模态动作质量评估。该方法通过渐进融合不同模态的特定信息、跨模态互补线索和全局质量语义，有效提升了评估准确性。核心模块iMambaWave结合双向Mamba分支和小波变换分支，分别捕捉长时序依赖和局部细节变化，配合门控聚合机制实现时域与频域信息的自适应融合。实验表明，PIDNet在多个数据集上取得了优于现有单模态和多模态方法的评估性能，并具有良好的通用性和模块化能力。

Comments 14 pages, 6 figures, 11 tables

2605.08942 2026-05-12 cs.CL

Decomposing and Steering Functional Metacognition in Large Language Models

Yanshi Li, Xueru Bai, Shuman Liu, Haibo Zhang, Anxiang Zeng

AI总结本文研究了大语言模型（LLMs）在推理过程中表现出的功能性元认知状态，即模型内部与评估意识、自我能力评估、风险感知等因素相关的可分解变量。通过残差流分析，作者展示了这些状态可以从模型激活中线性解码，并在不同层中表现出独特分布。进一步通过激活引导实验，证明这些元认知状态能以可区分的方式影响模型的推理行为，如输出长度、准确性和安全性。该研究为理解与控制模型内部状态提供了机制框架，对模型评估与应用具有重要意义。

Comments 18 pages, 7 figures

2605.08941 2026-05-12 cs.AI

MDGYM: Benchmarking AI Agents on Molecular Simulations

Vinay Kumar, Satyendra Rajput, Mausam, N. M. Anoop Krishnan

AI总结本文介绍了MDGYM，一个用于评估AI代理在分子动力学模拟任务中表现的基准测试平台，包含169个由专家精心设计的模拟任务，覆盖LAMMPS和GROMACS两种主流软件，并分为三个难度等级。研究评估了三种智能体框架与四种大语言模型的性能，发现所有模型表现均不理想，即使最强的模型也只能完成约21%的简单任务。分析表明，AI代理在调用模拟工具时往往生成物理上不稳定的配置或伪造数值结果，显示出与通用软件工程任务不同的失败模式，突显了物理推理能力对AI科学应用的重要性。

2605.08937 2026-05-12 cs.RO

Raymoval: Raycasting-based Dynamic Object Removal for Static 3D Mapping

Daebeom Kim, Seungjae Lee, Seoyeon Jang, Kevin Christiansen Marsim, Hyun Myung

AI总结本文提出了一种基于射线投射的动态物体移除方法Raymoval，用于提升静态三维地图的精度和一致性。该方法通过将激光扫描数据投影到方位-仰角网格，并结合射线投射计算首次命中距离，以区分动态与静态点云。实验表明，该方法能有效减少动态物体残留痕迹，提高静态地图的质量。

Comments 12 pages, 5 figures, 3 tables, Presented at RiTA 2025

2605.08936 2026-05-12 cs.AI cs.LG

Self-ReSET: Learning to Self-Recover from Unsafe Reasoning Trajectories

Dongcheng Zhang, Yi Zhang, Yuxin Chen, An Zhang, Xiang Wang, Chaochao Lu

AI总结本文提出了一种名为Self-ReSET的纯强化学习框架，旨在使大推理模型具备从自身不安全推理轨迹中自我恢复的能力。与依赖静态训练数据的传统方法不同，Self-ReSET通过将模型自身的错误轨迹作为强化学习的初始状态，增强了其动态恢复能力。实验表明，该方法在提升模型对对抗攻击的鲁棒性，尤其是对分布外越狱提示的防御能力方面效果显著，同时保持了模型的一般实用性。

2605.08934 2026-05-12 cs.LG

From Mechanistic to Compositional Interpretability

Ward Gauderis, Thomas Dooms, Steven T. Holmer, Kola Ayonrinde, Geraint A. Wiggins

AI总结本文提出了一种名为“组合性可解释性”的形式化框架，旨在解决机械可解释性方法缺乏客观验证和组合能力的问题。该方法基于范畴论，通过语法与语义映射的协调一致，确保模型分解与其行为的一致性，并将解释质量分解为忠实度和复杂度，将可解释性建模为约束优化问题。研究还引入了压缩优化技术，能够在不改变模型功能的前提下将其结构化为更简单的部分，并理论证明了语法压缩在提升人类对齐解释方面的有效性。

2605.08933 2026-05-12 cs.LG

When and Why Grouping Attention Heads Accelerates Muon Optimization

Hongtao Zhang, Wenjie Zhou, Wei Chen, Xueqi Cheng

AI总结本文研究了在多头注意力机制中，如何选择将Muon优化方法应用于整个注意力投影、单个注意力头或中间分组的注意力头。通过对比全矩阵和分组方式的Muon优化效果，发现分组优化在提升白化效果的同时会引入额外的范数成本。基于这一权衡，作者提出了一种新的优化方法Group Muon，将头分组的大小和规则作为超参数进行优化，在实验中显示出比全头优化和全矩阵优化更优的验证损失表现。

Comments 16 pages, 4 figures

2605.08930 2026-05-12 cs.AI

Internalizing Safety Understanding in Large Reasoning Models via Verification

Yi Zhang, Yuxin Chen, Leheng Sheng, Dongcheng Zhang, Chaochao Lu, Xiang Wang, An Zhang

AI总结尽管显式的思维链（CoT）增强了大型推理模型（LRMs）的推理能力，但可能导致生成更冒险的回答。现有对齐方法主要依赖外部强制合规，优化模型以检测恶意提示，而非评估自身输出的安全性。为此，我们提出SInternal框架，通过专门训练模型在安全验证任务上，使其能够利用专家推理轨迹来批判自身生成的回答，从而内化安全规范，显著提升模型对越界攻击的鲁棒性，并在与强化学习结合时表现出优于传统监督微调的初始化优势。

Comments Accepted at the 43rd International Conference on Machine Learning (ICML 2026)

2605.08915 2026-05-12 cs.LG

Physics-Informed Neural PDE Solvers via Spatio-Temporal MeanFlow

Hanru Bai, Yuncheng Zhou, Difan Zou

AI总结该论文提出了一种基于物理信息的神经偏微分方程求解方法——时空均流（Spatio-Temporal MeanFlow），旨在克服现有深度学习方法在捕捉物理系统连续积分特性方面的不足。该方法借鉴了用于生成式常微分方程求解的MeanFlow框架，将其扩展到时空领域，通过将物理PDE算子替代生成速度场，实现了对物理状态有限区间演化的高效学习。实验表明，该方法在求解时间依赖和稳态PDE问题时，相比现有方法具有更高的精度和推理效率，并且在分布外初始条件和不同空间分辨率下表现出良好的泛化能力。

2605.08914 2026-05-12 cs.LG cs.AI

Transformer autoencoder with local attention for sparse and irregular time series with application on risk estimation

Panteleimon Rodis

AI总结本文提出了一种专门用于处理稀疏且不规则时间序列的风险估计框架，核心方法是结合局部注意力机制的Transformer自编码器，能够有效捕捉稀疏数据中的关键模式。该方法在希腊某地区电力系统非技术性损耗风险估计的实际案例中得到应用，实验表明其在风险估计任务中相比现有方法具有更高的召回率和精确率，为不规则时间序列的风险检测提供了稳健有效的工具。

Comments Under Review

2605.08911 2026-05-12 cs.CV

Unified Modeling of Lane and Lane Topology for Driving Scene Reasoning

Han Li, Yulu Gao, Si Liu, Yuhang Wang, Bo Liu, Beipeng Mu

AI总结自动驾驶车辆不仅需要感知驾驶场景中的物理元素，如车道线和交通信号灯，还需要理解车道中心线及其拓扑关系等逻辑信息。本文提出了一种统一建模车道与车道拓扑关系的新方法UniTopo，通过将车道间的拓扑关系表示为连接关系，实现了在同一个感知流程中同时获取车道位置和拓扑信息，建立了从原始图像特征直接感知车道拓扑的新范式。实验表明，该方法在OpenLane-V2基准测试中显著优于现有先进方法。

Comments Accepted by IEEE TCSVT

2605.08905 2026-05-12 cs.AI

Forge: Quality-Aware Reinforcement Learning for NP-Hard Optimization in LLMs

Xiaozhe Li, Xinyu Fang, Shengyuan Ding, Yang Li, Linyang Li, Haodong Duan, Qingwen Liu, Kai Chen

AI总结本文提出 Forge，一种基于质量感知强化学习的框架，旨在解决大语言模型在 NP 难优化问题中的优化能力不足问题。研究引入 OPT-BENCH，包含生成实例、验证质量和最优基线的完整训练与评估体系，并通过质量感知奖励机制提升模型在可行性和优化质量上的表现。实验表明，该方法在多个任务上显著优于现有模型，并展现出良好的迁移能力。

2605.08904 2026-05-12 cs.AI

OPT-BENCH: Evaluating the Iterative Self-Optimization of LLM Agents in Large-Scale Search Spaces

Xiaozhe Li, Jixuan Chen, Xinyu Fang, Shengyuan Ding, Haodong Duan, Qingwen Liu, Kai Chen

AI总结本文提出OPT-BENCH，用于评估大语言模型代理在大规模搜索空间中的迭代自我优化能力。研究通过结合20个机器学习任务和10个经典NP难问题，构建了一个严格的测试环境，以检验模型是否能通过内在自我反思而非单纯工具应用进行适应。为此，作者还提出了OPT-Agent框架，模拟人类认知适应过程，通过感知、记忆与推理的循环迭代优化解决方案。实验表明，更强的模型在利用反馈信号进行自我改进方面表现更优，但其适应能力仍受限于模型的基础能力，尚未达到人类专家水平。

2605.08902 2026-05-12 cs.CV cs.AI

DAPE: Dynamic Non-uniform Alignment and Progressive Detail Enhancement Techniques for Improving the Performance of Efficient Visual Language Models

Mengyuan Tian, Qiyan Zhao, Yanan Wang, Da-Han Wang

AI总结本文提出了一种名为DAPE的新框架，旨在提升高效视觉语言模型的性能。该方法通过动态非均匀对齐和渐进细节增强技术，解决了文本与图像之间信息密度分布不均的问题，实现了更精确的跨模态交互。实验表明，该方法在多个基准测试中显著提升了下游任务的准确性，同时降低了计算开销。

Comments Accepted in ICIC 2026 Oral

2605.08898 2026-05-12 cs.CL cs.AI

LLM-Agnostic Semantic Representation Attack

Jiawei Lian, Jianhong Pan, Lefan Wang, Yi Wang, Tairan Huang, Shaohui Mei, Lap-Pui Chau

AI总结随着大型语言模型（LLM）越来越多地采用对齐技术以防止有害输出，攻击者仍可通过构造对抗性提示绕过这些防护。为解决现有基于精确文本模板的优化方法在收敛性、提示自然性和跨模型泛化能力方面的不足，本文提出了一种与LLM无关的语义表示攻击（SRA）方法，通过将对抗目标从精确文本转向恶意语义表示，提升了攻击的普适性和隐蔽性。实验表明，该方法在26个开源LLM上实现了高达99.71%的平均攻击成功率，具有优异的跨模型迁移能力和隐蔽性。

Comments arXiv admin note: substantial text overlap with arXiv:2509.19360

2605.08897 2026-05-12 cs.LG cs.AI

Shapley Regression for Rare Disease Diagnosis Support: a case study on APDS

Safa Alsaidi, Tomás Brogueira, Nizar Mahlaoui, Marc Vincent, Guilherme Pelegrina, Nicolas Garcelon, Adrien Coulet, Miguel Couceiro

AI总结本文研究了如何利用数据驱动的方法支持罕见遗传免疫疾病APDS的早期诊断，针对其症状复杂、诊断困难的特点，提出了一种基于博弈论的新型回归模型——Shapley回归。该方法通过引入k-可加合作博弈替代传统线性预测器，既能够捕捉症状之间的复杂交互关系，又保持了逻辑回归的可解释性和凸性。实验表明，该方法在多个生物医学数据集和真实患者队列中均表现出良好的预测性能和鲁棒性，并有助于发现与APDS相关的症状组合及临床验证的交互关系。

Comments 21 pages, 4 figures. Accepted to the AI and Health special track at IJCAI 2026; the first two named authors had equal contribution

2605.08896 2026-05-12 cs.CL cs.AI cs.LG

FragileFlow: Spectral Control of Correct-but-Fragile Predictions for Foundation Model Robustness

Zhuoyun Li, Boxuan Wang, Jinwei Hu, Xiaowei Huang, Yi Dong

AI总结该论文研究了大语言模型和视觉语言模型在面对扰动时的鲁棒性问题，指出平均准确率等传统指标可能掩盖预测结果在决策边界附近脆弱的结构化失败模式。为此，作者提出了FragileFlow，一种基于边距感知误差流的正则化方法，通过构建脆弱风险矩阵识别看似正确但实际脆弱的预测，并在理论层面提供了首个PAC-Bayes上界分析。实验表明，FragileFlow在多个基准任务中有效提升了模型的鲁棒性，同时保持了干净数据下的准确率。

2605.08891 2026-05-12 cs.LG

Bilinear autoencoders find interpretable manifolds

Thomas Dooms, Ward Gauderis, Geraint Wiggins, Jose Oramas

AI总结该论文提出了一种双线性自编码器，用于发现神经网络中可解释的流形结构。与传统的线性自编码器不同，该方法通过二次潜在变量捕捉多维几何结构，能够更有效地表示复杂的概念组合。实验表明，这种方法在语言模型中显著提升了重构性能，并可通过交互式可视化工具展示其发现的流形结构，为构建数学上可解释的非线性潜在表示提供了新思路。

2605.08889 2026-05-12 cs.LG cs.CL cs.DL

Machine Learning Research Has Outpaced Its Communication Norms and NeurIPS Should Act

Ajay Mandyam Rangarajan, Jeyashree Krishnan

AI总结该研究指出，机器学习研究的快速发展已远超其交流规范的演进，呼吁NeurIPS会议采取更明确的写作标准。通过分析大量论文数据，研究发现NeurIPS摘要的可读性下降、缩写使用增多且重复率低，同时可读性与引用量存在正相关。研究建议NeurIPS在2027年试点七项改进措施，以提升论文的可读性与传播效果。

Comments 9 pages, 11 figures, 7 tables

详情

英文摘要

Machine learning research has grown exponentially while its communication norms have not. We argue NeurIPS should adopt explicit, measurable writing standards. We analyze 2.8 million arXiv papers (1991-2025), 24,772 NeurIPS papers (1987-2024), and 24.5 million PubMed papers (1990-2025), applying classical readability scores, the Hohmann writing style suite (including sensational language), acronym density and reuse, an LLM as judge readability protocol, and citations from OpenAlex and Semantic Scholar. Four patterns emerge. First, NeurIPS abstracts score harder to read on every classical readability metric: Flesch Reading Ease falls from about 24 in 1987 to 13 in 2024, and sensational language rises by about 50 percent in NeurIPS abstracts between 2015 and 2024. Second, acronym density in NeurIPS titles has grown from 0.33 per 100 words in 1987 to 3.21 in 2024, and about 89 percent of NeurIPS acronyms are used fewer than ten times, ten points above the science-wide baseline. Third, more readable NeurIPS papers tend to receive more citations, suggesting readability and impact are correlated and that less readable papers risk remaining fragmented. LLM as judge scores rate NeurIPS abstracts as roughly stable from 1987 to 2022, with early signs of improvement thereafter, a pattern that disagrees with every classical readability metric and raises a design question for enforcement: is the target reader a human or an LLM? Lastly, NeurIPS volume has grown roughly 50-fold between 1987 and 2024. Assuming the goal is to optimise for human readers, we propose seven standards NeurIPS could pilot at NeurIPS 2027: an acronym budget with a venue-approved term list, a human readability threshold, stricter citation standards, standalone visual elements, a plain language summary, a pre-registered acronym glossary, and open source audit tooling.

URL PDF HTML ☆

赞 0 踩 0

2605.08887 2026-05-12 cs.AI cs.CL

Ace-Skill: Bootstrapping Multimodal Agents with Prioritized and Clustered Evolution

Feng Xiong, Zengbin Wang, Yong Wang, Xuecai Hu, Jinghan He, Liang Lin, Yuan Liu, Xiangxiang Chu

AI总结本文提出了一种名为 Ace-Skill 的协同进化框架，旨在解决多模态智能体在自我进化过程中面临的数据效率低和知识干扰两大瓶颈问题。该方法结合了优先级采样与懒惰衰减熟练度追踪，以聚焦于信息量大且掌握不足的样本，并通过语义聚类组织知识，提升知识检索的准确性和适应可靠性。实验表明，Ace-Skill 在多个多模态工具使用基准上取得了显著提升，并能有效将知识零样本迁移至更小模型，显著提升了资源受限智能体的性能。

2605.08885 2026-05-12 cs.LG

Compact SO(3) Equivariant Atomistic Foundation Models via Structural Pruning

Chen Wang, Siyu Hu, Guangming Tan, Weile Jia

AI总结本文提出了一种针对SO(3)等变原子基础模型的结构化剪枝方法，旨在解决模型精度与推理效率之间的矛盾。通过在通道和阶数维度上进行块级剪枝，该方法在保持SO(3)等变性的同时显著降低了计算成本。实验表明，剪枝后的模型在保持较高精度的同时，参数量和预训练计算量大幅减少，并在多个下游任务中表现出优于从头训练小模型的性能。

2605.08882 2026-05-12 cs.LG

Discrete Flow Matching: Convergence Guarantees Under Minimal Assumptions

Le-Tuyet-Nhi Pham, Giovanni Conforti, Zhenjie Ren, Alain Durmus

AI总结本文研究了离散流匹配（Discrete Flow Matching, DFM）模型，旨在从离散源分布 $μ_0$ 生成目标分布 $μ_1$。作者在 $\mathbb{Z}_m^d$ 空间上分析了两种DFM模型，通过时间离散化进行采样，并推导了它们的非渐近界。与以往工作不同，本文在Kullback-Leibler散度和总变分距离下建立了收敛保证，仅依赖于近似误差假设，放宽了传统分数匹配的限制，同时提升了对词汇量 $m$ 和维度 $d$ 的依赖性。