arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2409.10310 2026-05-12 cs.RO cs.SY eess.SY

Safe and Real-Time Consistent Planning for Autonomous Vehicles in Partially Observed Environments via Parallel Consensus Optimization

Lei Zheng, Rui Yang, Minzhe Zheng, Michael Yu Wang, Jun Ma

AI总结本文研究了自动驾驶车辆在部分可观测环境中实现安全且实时一致路径规划的问题。提出了一种基于共识安全屏障模块和并行轨迹优化的CPTO方法，通过离散时间屏障函数理论确保在不同障碍物配置下的轨迹安全性，并将优化问题分解为多个低维二次规划问题以加速计算。实验表明，该方法在合成和真实交通数据集上均能有效提升车辆的行驶安全性和路径一致性。

Comments 16 pages, 7 figures

2407.12173 2026-05-12 cs.CV cs.AI

Beta Sampling is All You Need: Efficient Image Generation Strategy for Diffusion Models using Stepwise Spectral Analysis

Haeil Lee, Hansang Lee, Seoyeon Gye, Junmo Kim

AI总结本文提出了一种基于扩散过程图像谱分析的高效时间步采样方法，用于提升扩散模型的图像生成效率。该方法采用类似Beta分布的采样策略，重点采样扩散过程中早期和晚期对图像内容变化影响较大的关键步骤，而非传统的均匀分布采样。实验表明，该方法在FID和IS指标上优于均匀采样，且在计算效率方面具有竞争力，为扩散模型的优化提供了实用框架。

Comments 8 pages, 9 figures, WACV 2025

2407.10853 2026-05-12 cs.CL cs.AI

Bring Your Own Prompts: Use-Case-Specific Bias and Fairness Evaluation for LLMs

Dylan Bouchard

AI总结该论文研究了大语言模型（LLMs）在不同应用场景下的偏见和公平性风险问题，指出现有方法缺乏针对具体使用场景选择合适评估指标的系统指导。为此，作者提出了一种决策框架，根据任务类型、提示词中是否包含受保护属性以及利益相关者的优先级，将模型和提示词集合映射到相应的偏见和公平性指标上，并引入了基于刻板印象分类器和反事实文本相似度的新型评估方法。研究还开发了开源工具库 langfair，并通过多模型、多提示词集的实验验证了公平性风险评估必须基于具体部署场景，而不能仅依赖基准性能。

Comments v6: Updated title; LangFair repository: https://github.com/cvs-health/langfair

2406.10861 2026-05-12 cs.LG cs.DC

Knowledge Distillation in Federated Learning: a Survey on Long Lasting Challenges and New Solutions

Laiqiao Qin, Tianqing Zhu, Wanlei Zhou, Philip S. Yu

AI总结联邦学习（FL）是一种分布式且注重隐私的机器学习范式，允许多个客户端协同训练模型而不泄露原始数据。为应对传统联邦学习中面临的隐私风险、数据异构性、通信瓶颈和系统异构等挑战，知识蒸馏（KD）自2020年以来被广泛应用于联邦学习中。本文对基于知识蒸馏的联邦学习方法进行了全面综述，分析了其核心原理、分类体系以及在隐私保护、数据异构处理、通信效率提升和个性化等方面的应用，并探讨了当前面临的挑战与未来研究方向。

详情

DOI: 10.1155/int/7406934
Journal ref: International Journal of Intelligent Systems, 7406934, 33 pages, 2025

英文摘要

Federated Learning (FL) is a distributed and privacy-preserving machine learning paradigm that coordinates multiple clients to train a model while keeping the raw data localized. However, this traditional FL poses some challenges, including privacy risks, data heterogeneity, communication bottlenecks, and system heterogeneity issues. To tackle these challenges, knowledge distillation (KD) has been widely applied in FL since 2020. KD is a validated and efficacious model compression and enhancement algorithm. The core concept of KD involves facilitating knowledge transfer between models by exchanging logits at intermediate or output layers. These properties make KD an excellent solution for the long-lasting challenges in FL. Up to now, there have been few reviews that summarize and analyze the current trend and methods for how KD can be applied in FL efficiently. This article aims to provide a comprehensive survey of KD-based FL, focusing on addressing the above challenges. First, we provide an overview of KD-based FL, including its motivation, basics, taxonomy, and a comparison with traditional FL and where KD should execute. We also analyze the critical factors in KD-based FL in the appendix, including teachers, knowledge, data, and methods. We discuss how KD can address the challenges in FL, including privacy protection, data heterogeneity, communication efficiency, and personalization. Finally, we discuss the challenges facing KD-based FL algorithms and future research directions. We hope this survey can provide insights and guidance for researchers and practitioners in the FL area.

URL PDF HTML ☆

赞 0 踩 0

2308.03303 2026-05-12 cs.CL

LoRA-FA: Efficient and Effective Low Rank Representation Fine-tuning

Longteng Zhang, Lin Zhang, Shaohuai Shi, Xiaowen Chu, Bo Li

AI总结本文研究了如何高效地对大语言模型进行微调，提出了LoRA-FA方法，通过冻结LoRA中的投影矩阵A，仅训练投影矩阵B，从而减少参数量并提升效率。该方法揭示了LoRA更新中存在的一种非对称可压缩结构，并引入闭式梯度修正以缩小与全参数微调的性能差距。实验表明，LoRA-FA在多个基准测试中表现优异，同时显著降低了内存和计算开销。

2202.02710 2026-05-12 cs.LG cs.NA math.AP math.NA

Spectrally Adapted Physics-Informed Neural Networks for Solving Unbounded Domain Problems

Mingtao Xia, Lucas Böttcher, Tom Chou

AI总结该论文提出了一种结合自适应谱方法和物理信息神经网络（PINNs）的新型数值方法，用于求解定义在无界域上的难以解析求解的偏微分方程（PDEs）。该方法利用PINNs实现高阶数值格式并进行时空点的高效求解，同时引入自适应谱方法的技术以提升对无界变量依赖性的处理能力，从而在多个示例中展示了其在无界域PDE求解和参数估计中的优越性。

Comments 29 pages, 8 figures

1811.01198 2026-05-12 cs.LG math.OC stat.ML

Provable Exactness for Asymmetric Low-Rank SDP Learning

Enliang Hu

AI总结本文研究了一种统一的正则化非对称低秩半定规划（aBMF）框架，旨在解决机器学习中的结构化优化问题。通过引入一个二次惩罚项，该方法在保持目标函数双凸性的同时，确保了在足够大的惩罚参数下，非对称方法与对称方法具有相同的临界点，从而保证解的精确性。该研究为非对称松弛方法提供了理论保证，解决了关于是否存在精确惩罚的开放问题。

1207.5293 2026-05-12 cs.AI math.PR

Probability Bracket Notation: Multivariable Systems and Static Bayesian Networks

Xing M. Wang

AI总结本文将概率括号符号（PBN）扩展至多变量概率系统和静态贝叶斯网络，提供了一种统一、基底无关的代数形式来表示和处理随机变量之间的依赖关系。通过引入学生贝叶斯网络作为示例，展示了PBN在预测、自底向上和自顶向下推理以及期望计算中的应用，并证明了其在大规模网络中的高效性。此外，PBN还被扩展到包含连续变量的网络，如线性高斯模型，并引入了一个结合离散与连续变量的混合医疗贝叶斯网络，支持用户特定的预测，具有在教育、数据分析和机器学习等领域应用的潜力。

Comments 28 pages. Added subsection 3.4 and Appendix A, describing the two-phase procedure for computing inference of d-separable chains and its efficiency in large Bayesian networks, especially polytrees with pendant subnets (including blobs)

2605.08441 2026-05-12 cs.LG cs.AI

DUET: Optimize Token-Budget Allocation for Reinforcement Learning with Verifiable Rewards

Haoyu Hu, Xuandong Zhao, Xuhai "Orson'' Xu, Nori Jacoby

AI总结该研究提出了一种名为DUET的方法，旨在优化强化学习中可验证奖励（RLVR）的token预算分配，以提升训练效率和推理质量。DUET通过联合控制提示的rollout分配数量和每个rollout的长度，在共享计算预算下同时优化训练时间和效果。实验表明，DUET在多个数学和编程基准测试中表现优异，且在仅使用一半token预算时仍能超越其他方法，显著提升了训练速度而不牺牲性能。

详情

英文摘要

Reinforcement learning with verifiable rewards (RLVR) generates hundreds of thousands of tokens per training step, with rollout generation dominating the computational cost. The overall token budget can be controlled along two main dimensions: (i) deciding which prompts to allocate rollouts to, and (ii) deciding how long each rollout should be. Prior work has generally controlled only one of these dimensions at a time. We show that jointly tuning both decisions under a shared compute budget improves both reasoning quality and wall-clock training time. We instantiate this view as \textbf{DU}al-controlled tok\textbf{E}n alloca\textbf{T}ion (DUET), a computationally efficient layer over GRPO that uses a lightweight pre-rollout surrogate of prompt informativeness to set how many rollouts each prompt receives, and a marker-gated abort rule with importance reweighting to set when to stop them. On Qwen3-1.7B trained on MATH, DUET outperforms full-budget GRPO and the other three budget-aware baseline methods. DUET's advantage further generalizes to other benchmarks across math and coding, and is on par with the best baseline on the scientific Q\&A domain, while also achieving a $1.62\times$ wall-clock speedup. More notably, using only 50\% of the token budget, DUET still outperforms all baseline methods at their full budget, achieving an even higher $2.51\times$ speedup over full-budget GRPO. We verify the high performance of DUET on other backbone LLMs, including Qwen3-4B and Llama-3.2-3B-Instruct. Notably, the gap between DUET and the strongest baseline \emph{widens} as the budget tightens, contrary to the usual pattern in which efficient methods trade off quality as compute decreases. More broadly, these results suggest that DUET budget-aware control strategies are valuable not only for accelerating training, but also for improving the quality of the learning signal.

URL PDF HTML ☆

赞 0 踩 0

2605.08440 2026-05-12 cs.LG cs.CV

TARO: Temporal Adversarial Rectification Optimization Using Diffusion Models as Purifiers

Daniel Wesego, Pedram Rooshenas

AI总结该论文提出了一种名为TARO的时序对抗修正优化方法，旨在利用扩散模型提升对抗样本的净化效果。TARO通过在扩散轨迹中构建时序引导的分数先验，结合不同噪声尺度下的去噪视角，形成从粗到细的残差目标，从而在保持语义信息的同时增强模型对对抗攻击的鲁棒性。实验表明，TARO在多个数据集和自适应攻击模型下均能有效提升模型的鲁棒准确率，并且与对抗似然目标兼容，进一步增强防御效果。

2605.08437 2026-05-12 cs.CL cs.AI

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

Ramon Pires, Thales Sales Almeida, Celio Larcher Junior, Giovana Bonás, Hugo Abonizio, Marcos Piau, Roseval Malaquias Junior, Thiago Laitz, Rodrigo Nogueira

AI总结本文介绍了Magis-Bench，一个用于评估大型语言模型（LLMs）在法官级别法律任务中表现的基准测试，该测试基于近年来巴西司法职位竞争考试中的题目构建。研究通过引入多轮法律分析和司法文书撰写等任务，评估了23个先进模型的法律判断能力，并采用LLM作为评判者的方法进行评分，结果显示各模型在司法级法律推理和写作任务中仍面临较大挑战。该研究为法律人工智能领域提供了新的评估工具和数据支持。

2605.08436 2026-05-12 cs.LG cs.AI physics.comp-ph

A meshfree exterior calculus for generalizable and data-efficient learning of physics from point clouds

Benjamin D. Shaffer, Brooks Kinch, M. Ani Hsieh, Nathaniel Trask

AI总结本文提出了一种无网格外微分形式（MEEC），用于从点云中学习结构保持的物理描述，并基于此构建了数据高效的MEEC-Net模型，能够在不同分辨率、几何形状和物理参数之间进行迁移。MEEC通过稀疏的Schur补解为ε-球图赋予虚拟节点和边度量，实现了精确的离散守恒，并且在点位置上端到端可微，无需传统方法所需的网格生成步骤。实验表明，MEEC-Net在多个典型偏微分方程基准测试中表现出显著优于现有神经算子方法的泛化性能。

Comments 25 pages, 13 figures

2605.08432 2026-05-12 cs.CL cs.AI stat.ML

A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering

Zhanliang Wang, Jiancong Xiao, Ruochen Jin, Shu Yang, Bojian Hou, Li Shen

AI总结该论文提出了一种用于评估开放域问答中大语言模型校准性能的语义抽样框架Sem-ECE。该方法通过从模型中采样答案并按语义分类，利用分类频率作为置信度，解决了现有方法在开放域场景下评估校准的不足。研究引入了两种估计器Sem₁-ECE和Sem₂-ECE，并证明其在大样本下无偏，且在难问题上表现出更小的校准误差，为问题难度诊断提供了依据。实验表明，Sem-ECE在多个基准测试中优于现有方法，具有重要的实际应用价值。

Comments Preprint

2605.08427 2026-05-12 cs.AI cs.GT cs.LG

The Attacker in the Mirror: Breaking Self-Consistency in Safety via Anchored Bipolicy Self-Play

Gabriele La Malfa, Emanuele La Malfa, Saar Cohen, Jie M. Zhang, Michael Luck, Michael Wooldridge, Elizabeth Black

AI总结该研究探讨了在安全强化学习中，通过自对弈（self-play）提升AI安全性的方法，并指出当前方法在参数共享下存在理论与架构上的限制，导致纳什均衡范围受限且攻击无法有效施加对抗压力。为此，作者提出了一种新的方法——锚定双策略自对弈（Anchored Bipolicy Self-Play），通过在冻结的基模型上训练角色特定的LoRA适配器，实现角色分离，从而在保持优化稳定性的同时增强对抗压力。实验表明，该方法在参数效率和安全性方面均优于传统自对弈方法。

2605.08424 2026-05-12 cs.LG math.OC math.PR

Generalized Wasserstein Flow Matching: Transport Plans, Everywhere, All at Once

Moritz Piening, Richard Duong, Gabriele Steidl

AI总结本文提出了一种广义的沃asserstein流匹配方法，将流匹配框架扩展到概率测度空间，引入了沃asserstein-on-Wasserstein（WoW）形式。通过嵌套的沃asserstein几何，研究展示了运输计划上的测度如何自然诱导出实现元测度流的速度场，并提出了基于内外运输计划耦合的原理性推广。为降低计算成本，作者提出了基于切片和线性沃asserstein距离的可扩展近似方法，提升了训练效率并保证了数值稳定性，为点云和集合生成等任务提供了统一且理论扎实的生成建模方法。

2605.08423 2026-05-12 cs.LG cs.CL stat.ML

Queryable LoRA: Instruction-Regularized Routing Over Shared Low-Rank Update Atoms

Omatharv Bharat Vaidya, Connor T. Jerzak, Nhat Ho, Chandrajit Bajaj

AI总结本文提出了一种数据自适应的参数高效微调方法，用于大神经网络的优化。该方法通过引入一个共享的、可查询的低秩更新原子记忆库，替代传统的层内适配器，使得模型能够根据输入内容和网络计算过程动态选择适合的更新组件，从而在保持低秩适应效率的同时实现更灵活的参数更新。此外，通过引入指令正则化机制，模型能够偏向语义相关方向进行更新，提升训练稳定性与最终性能。

2605.08421 2026-05-12 cs.CV

Beyond Bag-of-Patches: Learning Global Layout via Textual Supervision for Late-Interaction Visual Document Retrieval

Pascal Tilli, Mohsen Mesgar

AI总结本文研究了视觉文档检索（VDR）中如何通过全局布局信息提升检索效果的问题，提出了一种基于文本监督学习全局布局表示的方法。该方法在传统局部补丁嵌入的基础上引入全局布局嵌入，并通过文档的文本描述进行训练，从而在保持推理效率的同时提升对异构布局文档的检索能力。实验表明，该方法在多个数据集上显著优于现有基线模型。

2605.08417 2026-05-12 cs.LG math.OC

Central Limit Theorem for Two-Time-Scale Approximate Distributionally Robust RL

Shengbo Wang, Zexi Zhang

AI总结本文研究了无模型分布鲁棒强化学习（DRRL）中的核心挑战，即鲁棒Bellman算子的非线性特性导致单样本更新存在偏差，且鲁棒性评估计算复杂。为此，作者在Kullback-Leibler模糊集的小模糊度假设下，提出了一种基于一阶展开的近似DRRL框架，消除了对抗优化过程，同时保持一阶精度。基于此，作者设计了均值方差随机逼近（MVSA）算法，通过提升的随机逼近动态和双时间尺度结构实现单样本更新，并证明了该算法的收敛性及其主迭代满足尺度为 $n^{-1/2}$ 的中心极限定理，协方差结构明确。

2605.08416 2026-05-12 cs.AI cs.CY cs.LG

Alignment as Jurisprudence

Nicholas Caputo

AI总结本文探讨了法学与对齐（AI对齐）之间的深层联系，指出二者在预测和塑造强大决策者（法官与人工智能）未来行为方面具有相似的目标与方法。通过结合德沃金的规则导向解释主义和孙斯坦的类比推理法律观，并借鉴宪法AI与案例推理等前沿对齐技术，文章展示了法律思维对AI对齐研究的启发价值，并指出AI有助于深化对法律运作机制的理解。随着AI能力增强和法律理论对人类法官约束的减弱，法学与对齐领域的对话将变得愈发关键。

详情

Journal ref: 27 Yale Journal of Law and Technology 390 (Sept. 2025)

英文摘要

Jurisprudence, the study of how judges should properly decide cases, and alignment, the science of getting AI models to conform to human values, share a fundamental structure. These seemingly distant fields both seek to predict and shape how decisions by powerful actors, in one case judges and in the other increasingly powerful artificial intelligences, will be made in the unknown future. And they use similar tools of the specification and interpretation of language to try to accomplish those goals. The great debates of jurisprudence, about what the law is and what it should be, can provide insight into alignment, and lessons from what does and does not work in alignment can help make progress in jurisprudence. This essay puts the two fields directly into conversation. Drawing on leading accounts of jurisprudence, particularly Dworkin's principle-oriented interpretivism and Sunstein's positivist account of law as analogical reasoning, and on cutting-edge alignment approaches, namely Constitutional AI and case-based reasoning, it illustrates the value of a more sophisticated legally-inspired approach to the interplay of rules and cases in finetuning alignment and points to ways that AI can provide a better understanding of how the law works and how it can be improved by the introduction of AI. AI systems and the law should operate to empower people to act in the world, helping to expand their capabilities and the extent to which they are able to achieve their goals. As AI continues to improve in capacity, and as the constraints that legal theory places on human judges seem be coming undone, the conversation between these two fields will become increasingly essential and may help point to a better version of both.

URL PDF HTML ☆

赞 0 踩 0

2605.08415 2026-05-12 cs.AI

Political Plasticity: An Analysis of Ideological Adaptability in Large Language Models

Bruno Bianchi, Diego Tiscornia, Matias Travizano, Ariel Futoransky

AI总结本文研究了大型语言模型在政治议题上的“政治可塑性”，即模型根据用户提供的上下文调整回答的能力。通过构建包含200个政治相关问题的测试框架，研究发现用户提示能有效诱导模型产生显著的意识形态转变，尤其在经济自由议题上表现明显，而系统提示效果较弱。实验还揭示了模型在不同语言环境下表现出细微但明显的可塑性差异，并指出部分模型可能存在数据泄露问题，整体表明较新的前沿模型具有更稳定和可预测的政治适应能力。

2605.08412 2026-05-12 cs.CV

SYNCR: A Cross-Video Reasoning Benchmark with Synthetic Grounding

Sara Ghazanfari, Siddharth Garg, Prashanth Krishnamurthy, Farshad Khorrami

AI总结 SYNCR 是一个用于跨视频推理的合成基准测试平台，旨在评估多模态大语言模型在多个独立视频流之间的推理能力。该基准通过程序验证的方式构建，包含大量基于物理和空间逻辑的多视频问答对，涵盖时间对齐、空间追踪、比较推理等任务。实验表明，当前主流模型在跨视频推理任务上与人类存在显著差距，尤其在物理和空间细节推理方面表现较弱，突显了现有模型在多视频理解中的局限性。

2605.08409 2026-05-12 cs.AI

Playing games with knowledge: AI-Induced delusions need game theoretic interventions

Will Beaumaster, Paul Schrater

AI总结本文研究了对话式AI在作为知识接口时引发的“认知固化”和“信念螺旋”问题，指出其根源在于用户与AI之间从单向知识搜索转向策略性互动的系统性转变。作者将问题形式化为一个廉价交谈博弈模型，提出一种称为“认知调解者”的干预机制，通过引入认知摩擦迫使用户类型揭示，并设计了“信念版本控制”系统以存储健康信念并实现回滚。实验表明，该方法有效打破了信念螺旋，证明AI的认知安全应从战略信息环境设计而非单纯模型对齐入手。

2605.08408 2026-05-12 cs.LG

AdamFLIP: Adaptive Momentum Feedback Linearization Optimization for Hard Constrained PINN Training

Binghang Lu, Runyu Zhang, Changhong Mou, Na Li, Guang Lin

AI总结该论文提出了一种名为 AdamFLIP 的新型优化方法，用于解决物理信息神经网络（PINN）在硬约束条件下的训练问题。传统 PINN 通常使用软惩罚方式处理约束，容易导致条件不佳和约束满足度低，而 AdamFLIP 将 PINN 训练建模为等式约束优化问题，通过反馈线性化方法结合自适应动量优化，实现了对约束残差的精确控制。实验表明，AdamFLIP 在多个偏微分方程正逆问题中表现优异，尤其在纳维-斯托克斯方程中，其预测解的相对 $L_2$ 误差相比现有方法降低了三分之二以上。

2605.08406 2026-05-12 cs.CL cs.AI

Effective Explanations Support Planning Under Uncertainty

Hanqi Zhou, Britt Besch, Charley M. Wu, Tobias Gerstenberg

AI总结本文研究了在不确定性环境下，如何通过有效的解释来支持规划过程。作者提出了一种计算模型，将语言解释转化为可执行的行动方案，结合大型语言模型和规划代理，在部分可观测条件下执行任务。实验表明，高质量的解释能显著提升导航效率和可靠性，证明了语言指导在不确定性环境中的实用价值。

Comments CogSci 2026

2605.08405 2026-05-12 cs.AI cs.LG

Belief or Circuitry? Causal Evidence for In-Context Graph Learning

Katharine Kowalyshyn, Timothy Duggan, Daniel Little, Michael C Hughes

AI总结本研究探讨了大型语言模型（LLMs）在上下文学习中的机制，即它们是通过匹配最近的token模式，还是通过推断潜在结构来学习。通过设计一个在两个竞争图结构之间进行随机游走的实验任务，研究发现模型既不是单纯依赖局部转移，也不是仅依赖全局拓扑结构，而是同时利用了两种机制。研究通过主成分分析和因果干预实验表明，模型在中间混合比例下能够同时编码两种图结构，并且晚期层的激活修补和图差异引导能够有效影响模型行为，支持了结构推断与归纳电路并行运作的双机制解释。

Comments Under review at ICML Mechanistic Interpretability Workshop 2026

2605.08404 2026-05-12 cs.CL cs.AI cs.CV cs.ET

Built Environment Reasoning from Remote Sensing Imagery Using Large Vision--Language Models

Dongdong Wang, Deepak Balakrishnan, Ravi Srinivasan, Shenhao Wang

AI总结本文研究了如何利用大语言模型（LLM）处理智慧城市中的任务，核心方法是通过遥感影像来刻画建成环境，包括设计建议、可建性评估、土地利用模式和风险识别。研究在多尺度遥感影像输入下评估了多模态语言模型对建成环境推理的效果，并对比了InternVL和Qwen等先进模型在生成建成环境建议时的准确性和可靠性。结果表明，将遥感影像与大语言模型结合，有助于提升智慧城市中的决策支持能力。

Comments Published in the International Conference on Industrialized Construction 2026

2605.08399 2026-05-12 cs.AI

CoCoDA: Co-evolving Compositional DAG for Tool-Augmented Agents

Ziyang Yu, Qiyue Li, Liang Zhao

AI总结 CoCoDA 是一种用于增强工具使用代理的协同演化组合式DAG框架，旨在解决工具库规模扩大时与规划器协同进化的挑战。该方法通过一个组合式代码DAG结构，将工具和规划器共同演化，每个节点存储工具的类型签名、描述及条件规范，推理时通过类型化DAG检索高效筛选候选工具，训练时则将成功轨迹整合为复合工具并优化规划器奖励机制。实验表明，CoCoDA 在多个基准任务中显著提升了小模型的性能，使其在数学推理和代码任务上达到甚至超越大模型的表现。

2605.08396 2026-05-12 cs.CV

Delivering Science as a Service: Sci-Orchestra's Cloud-Native Approach to HPC

Harinarayan Krishnan, Shubhabrata Mukerjee, Jeffrey Donatelli, Daniela Ushizima

AI总结随着现代计算环境日益复杂，研究人员常被基础设施管理、认证协议和容器部署等问题所困扰。本文提出 Sci-Orchestra，一个分层的编排框架，旨在通过自动化实验流程，使科学家能够专注于科学发现而非后台操作。该系统基于 Kubernetes 架构，提供 API 驱动的接口，实现安全认证、资源管理和可扩展部署，并引入自主市场机制促进跨机构协作，支持模块化部署与知识产权保护，加速科研成果向工业应用的转化。

2605.08392 2026-05-12 cs.LG

Geometry-Aware Discretization Error of Diffusion Models

Samuel Hurault, Thomas Moreau, Gabriel Peyré

AI总结本文研究扩散模型在有限去噪步数下的离散化误差问题，分析了该误差如何依赖数据的几何结构及扩散过程的关键参数。通过推导欧拉-马乌亚玛弱误差和弗雷歇特误差的一阶渐近展开式，揭示了离散化误差如何通过数据协方差谱适应数据几何，并为几何感知的参数优化提供了可计算的目标。实验表明，所提出的理论分析在不同几何结构的扩散采样任务中具有良好的鲁棒性。

2605.08390 2026-05-12 cs.LG

The Power of Second Order Methods for Sequence Preconditioning

Annie Marsden, Elad Hazan

AI总结本文研究了用于长记忆动态系统序列预测的二阶方法的潜力，提出了一种结合序列预处理（USP）与Vovk-Azoury-Warmuth（VAW）算法的新方法，有效克服了预处理序列导致的直径和梯度指数增长问题。该方法在不对称隐藏转移矩阵的情况下，实现了对数立方的遗憾界 $O(\log^3 T)$，显著优于传统多项式遗憾结果。此外，文章还拓展了USP的应用范围，通过复分析方法为具有常数复参数的系统提供了新的切比雪夫多项式界。

Comments 14 pages, 5 figures