arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2602.04473 2026-05-15 cs.CV

CC-Pan: Channel-wise Compression based Diffusion for Efficient Pan-Sharpening

Junjie Li, Congyang Ou, Haokui Zhang, Guoting Wei, Shengqin Jiang, Ying Li

AI总结本文提出了一种基于通道压缩的扩散模型CC-Pan，用于高效实现多光谱与全色图像的融合（Pan-Sharpening）。该方法通过训练一个通道独立的变分自编码器，将高分辨率多光谱图像编码为紧凑的潜在表示，从而支持不同传感器的多光谱图像并加速推理过程。同时，通过设计的单向和双向交互控制结构引入光谱物理特性及全色图像，结合轻量化的跨带注意力模块，显著提升了融合精度和光谱一致性。实验表明，CC-Pan在多个数据集上优于现有扩散模型，并实现了2-3倍的加速效果，具有良好的跨传感器泛化能力。

2602.04265 2026-05-15 cs.LG cs.AI

Boosting LLM Reasoning via Human-Inspired Reward Shaping

Wenze Lin, Zhen Yang, Xitai Jiang, Xiaoteng Ma, Gao Huang

AI总结该研究针对大语言模型（LLM）推理能力提升的问题，提出了一种受人类学习行为启发的动态奖励框架T2T。该方法通过区分问题掌握程度，分别采用“厚化”和“薄化”两个阶段的奖励机制：在错误尝试时鼓励广泛探索，在正确解答后则通过长度惩罚促进推理凝练。实验表明，T2T在多个数学基准测试中显著优于现有方法，有效提升了模型的推理性能。

2602.03814 2026-05-15 cs.AI cs.LG

Conformal Thinking: Risk Control for Reasoning on a Compute Budget

Xi Wang, Anushri Suresh, Alvin Zhang, Rishi More, William Jurayj, Benjamin Van Durme, Mehrdad Farajtabar, Daniel Khashabi, Eric Nalisnick

AI总结本文研究了如何在计算资源有限的情况下，通过控制推理过程中的风险来提升大语言模型的推理效率。作者提出了一种名为“共形思考”的风险控制框架，通过设定上界和下界阈值，分别在模型自信时停止推理（可能产生错误输出）和提前终止无法解决的实例（可能过早停止），从而在保证风险可控的前提下最小化计算开销。实验表明，该方法在多种推理任务和模型中均能有效提升计算效率，同时满足用户设定的风险目标。

Comments ICMl 2026

2602.03417 2026-05-15 cs.CL

FactNet: A Billion-Scale Knowledge Graph for Multilingual Factual Grounding

Yingli Shen, Wen Lai, Jie Zhou, Xueren Zhang, Yudong Wang, Kangyang Luo, Shuo Wang, Ge Gao, Alexander Fraser, Maosong Sun

AI总结本文提出FactNet，一个包含10亿规模的多语言事实知识图谱，旨在解决大语言模型在非英语语言中生成内容时缺乏可检索证据支持的问题。FactNet将17亿个Wikidata断言与来自316个母语维基百科的30.1亿个证据指针相结合，通过确定性构建流程确保每个证据单元均可追溯至原始来源。此外，研究还构建了FactNet-Bench评估套件，用于知识图谱补全、问答和事实核查任务，并验证了FactNet在跨语言知识迁移中的有效性。

2602.01664 2026-05-15 cs.AI cs.LG

FlowSteer: Towards Agents Designing Agentic Workflows via Reinforced Progressive Canvas Editing

Mingda Zhang, Wenjin Liu, Tiesunlong Shen, Qika Lin, Rui Mao, Erik Cambria, Xiaoying Tang, Haoran Luo

AI总结 FlowSteer 是一种新型智能体设计代理工作流的范式，旨在解决当前工作流构建中依赖人工、缺乏全局反馈和无法在线修复错误等问题。该方法引入了可执行的流程画布环境，通过强化学习逐步进行原子编辑，实现工作流的端到端自动设计。实验表明，FlowSteer 在多个数据集上显著优于现有方法，且支持多种操作符库和大语言模型后端，具有良好的通用性和扩展性。

Comments 51 pages, 6 figures, 5 tables. Project page: http://flowsteer.org/

2602.01359 2026-05-15 cs.LG cs.AI

PaAno: Patch-Based Representation Learning for Time-Series Anomaly Detection

Jinju Park, Seokho Kang

AI总结尽管近期时间序列异常检测研究越来越多地采用如Transformer和基础模型等大型神经网络架构，但这些方法计算成本高、内存消耗大，难以应用于实时和资源受限的场景，且在严格评估下性能提升不明显。本文提出了一种基于块的表示学习方法PaAno，该方法通过从时间序列中提取短时域块，并使用1D卷积神经网络将其嵌入为向量表示，结合三元组损失和预训练任务损失进行训练，以捕捉块中的有用时间模式。在推理阶段，通过比较正常块与当前块的嵌入向量计算异常分数，实验表明PaAno在TSB-AD基准测试中表现优异，显著优于包括大型架构在内的现有方法。

Comments Accepted by the 14th International Conference on Learning Representations (ICLR 2026)

2602.00992 2026-05-15 cs.RO

Geometry-Aware Sampling-Based Motion Planning on Riemannian Manifolds

Phone Thiha Kyaw, Jonathan Kelly

AI总结本文研究了在黎曼流形上进行几何感知的采样式运动规划问题，旨在在考虑配置空间非欧几里得几何结构的情况下，规划出避障且路径长度最短的运动轨迹。作者提出了一种直接在黎曼流形上运行的采样式规划框架，引入了一种计算高效的黎曼测地距离近似方法，并设计了基于黎曼自然梯度的局部规划器。实验表明，该方法在多种机器人系统中均能生成比传统欧几里得方法和经典数值解法更优的轨迹。

Comments Accepted to the 17th World Symposium on the Algorithmic Foundations of Robotics (WAFR), Oulu, Finland, Jun 15-17, 2026

2602.00807 2026-05-15 cs.CV cs.RO

Any3D-VLA: Enhancing VLA Robustness via Diverse Point Clouds

Xianzhe Fan, Shengliang Deng, Xiaoyang Wu, Yuxiang Lu, Zhuoling Li, Mi Yan, Yujia Zhang, Zhizheng Zhang, He Wang, Hengshuang Zhao

AI总结现有视觉-语言-动作（VLA）模型通常以二维图像作为视觉输入，这限制了它们在复杂场景中的空间理解能力。为提升VLA模型的性能，本文提出Any3D-VLA，通过引入多样化的点云数据增强三维感知能力，并在训练过程中融合仿真、传感器和模型估计的点云，学习跨域通用的三维表示。实验表明，该方法有效提升了模型性能并缓解了领域差异问题。

Comments ICML 2026

2602.00520 2026-05-15 cs.LG

NEST: Nested Event Stream Transformer for Sequences of Multisets

Minghui Sun, Haoyu Gong, Xingyu You, Jillian Hurst, Benjamin Goldstein, Matthew Engelhard

AI总结事件流数据通常具有层次结构，表现为多个事件共现的多重集合序列。现有基础模型大多将其扁平化处理，导致计算效率低且集合级表示质量不高。本文提出嵌套事件流变换器（NEST），保留原始层次结构，引入掩码集合建模（MSM）方法，有效提升预训练效率和下游任务性能。

Comments 10-page main text

2601.23072 2026-05-15 cs.LG

SplineFlow: Flow Matching for Dynamical Systems with B-Spline Interpolants

Santanu Subhash Rathod, Pietro Liò, Xiao Zhang

AI总结本文提出了一种名为SplineFlow的流匹配算法，用于更准确地建模动态系统中的状态演化过程。该方法采用B样条插值来构建条件路径，克服了传统线性插值在处理高阶动态和不规则采样数据时的不足，从而在保证多边际约束的前提下实现更稳定、更平滑的动力学建模。实验表明，SplineFlow在多种确定性和随机动态系统以及细胞轨迹推断任务中均优于现有方法。

Comments 36 pages, 35 tables, 22 figures

2601.21656 2026-05-15 cs.LG

TabClustPFN: A Prior-Fitted Network for Tabular Data Clustering

Tianqi Zhao, Guanyang Wang, Yan Shuo Tan, Qiong Zhang

AI总结本文提出了一种名为TabClustPFN的新型网络，用于解决表格数据聚类这一基础而具有挑战性的问题。该方法基于先验适配网络（PFN），通过在合成数据上进行预训练，实现了对未知数据集的一次性聚类，无需重新训练或调整超参数。TabClustPFN能够处理异构的数值和类别特征，并适应多种聚类结构，实验表明其在合成数据和真实数据集上均优于传统及深度聚类方法，具有良好的鲁棒性和实用性。

2601.21349 2026-05-15 cs.LG cs.AI

L2R: Low-Rank and Lipschitz-Controlled Routing for Mixture-of-Experts

Minghao Yang, Ren Togo, Guang Li, Takahiro Ogawa, Miki Haseyama

AI总结本文提出了一种名为L2R的统一路由框架，用于改进混合专家（MoE）模型中的路由机制。L2R通过在共享的低秩潜在路由空间中进行专家分配，并引入饱和内积评分（SIPS）来显式控制路由函数的Lipschitz行为，从而提升路由几何的平滑性和稳定性。此外，L2R还采用参数高效的多锚点路由机制以增强专家的表达能力。实验表明，L2R在语言和视觉任务中均能有效提升路由性能和模型整体表现。

2601.21174 2026-05-15 cs.LG

Breaking the Reasoning Horizon in Entity Alignment Foundation Models

Yuanning Cui, Zequn Sun, Wei Hu, Kexuan Xin, Zhangjie Fu

AI总结实体对齐是知识图谱融合的关键任务，但现有模型在面对未见过的知识图谱时缺乏迁移能力。本文提出了一种基于并行编码策略的实体对齐基础模型，通过利用种子对齐对作为局部锚点，引导信息流并同时初始化两个并行编码流，有效缩短了推理路径，提升了对稀疏异构结构的适应能力。此外，模型引入了合并关系图和可学习交互模块，以建模全局依赖并实现精准匹配，实验表明该方法在未见过的知识图谱上具有良好的泛化性能。

2601.21151 2026-05-15 cs.LG physics.ao-ph

Learning to Advect: A Neural Semi-Lagrangian Architecture for Weather Forecasting

Carlos A. Pereira, Stéphane Gaudreault, Valentin Dallerit, Christopher Subich, Shoyon Panday, Siqi Wei, Sasa Zhang, Siddharth Rout, Eldad Haber, Raymond J. Spiteri, David Millard, Emilia Diaconescu

AI总结该研究提出了一种名为PARADIS的物理启发式天气预测模型，旨在解决传统机器学习方法在刻画大气输送等物理过程时的效率与准确性问题。其核心方法是将天气动力学分解为输送、扩散和反应三个模块，并通过神经半拉格朗日算子实现基于轨迹的全球输送过程建模，从而在保持物理结构的同时提升预测性能。实验表明，PARADIS在ERA5基准测试中表现出良好的确定性预测能力，尤其在短期预报和中长期预报的谱保真度方面具有显著优势。

2601.19924 2026-05-15 cs.CL cs.AI cs.LG

OPT-Engine: Benchmarking the Limits of LLMs in Optimization Modeling via Complexity Scaling

Yitian Chen, Cheng Cheng, Yinan Sun, Zi Ling, Dongdong Ge

AI总结本文研究了大语言模型（LLMs）在优化建模领域的性能和可扩展性，提出了一种名为OPT-ENGINE的可扩展基准框架，用于系统评估从线性规划到混合整数规划等经典运筹学问题的自动建模与求解能力。通过该框架，研究发现基于纯文本推理的方法在任务复杂度增加时存在鲁棒性不足的问题，而结合外部计算工具虽能提升局部计算能力，却难以满足全局优化约束。研究进一步指出，当前最先进的求解器集成推理方法在自动构建约束条件方面仍面临主要瓶颈，为下一代优化建模大语言模型的发展提供了明确方向。

2601.15620 2026-05-15 cs.LG

Closing the Gap on the Sample Complexity of 1-Identification

Zitian Li, Wang Chi Cheung

AI总结本文研究了多臂老虎机中的1-识别问题，即判断是否存在某个臂的平均奖励超过给定阈值 $μ_0$，否则输出“None”。作者提出了一个新的优化框架，推导出在至少存在一个合格臂的情况下，最小样本复杂度的下界，并设计了一种新算法，其上界与下界在多项式对数因子内一致，从而填补了该问题在样本复杂度分析上的空白。

2601.03969 2026-05-15 cs.AI cs.CL

Anti-Length Shift: Dynamic Outlier Truncation for Training Efficient Reasoning Models

Wei Wu, Liyi Chen, Congxi Xiao, Tianfu Wang, Qimeng Wang, Chengqiang Lu, Yan Gao, Yi Wu, Yao Hu, Hui Xiong

AI总结本文研究了大语言模型在训练过程中因强化学习奖励机制导致的“长度偏移”现象，即模型在简单问题上生成冗余推理内容的问题。为此，作者提出了一种动态异常截断（DOT）方法，在训练时选择性地抑制冗余输出，同时保留对复杂问题的长推理能力。结合辅助KL正则化和预测性动态采样，该方法有效提升了模型的推理效率与性能，实验表明其在多个任务上显著优于现有方法。

Comments Accepted by ACL2026

2601.03630 2026-05-15 cs.CL

Reasoning Model Is Superior LLM-Judge, Yet Suffers from Biases

Hui Huang, Xuanxin Wu, Muyun Yang, Yuki Arase

AI总结本文首次系统比较了大型推理模型（LRMs）与非推理大语言模型（LLMs）在判断任务中的表现，发现LRMs在判断准确性、指令遵循能力以及对对抗攻击的鲁棒性方面均优于非推理模型，但同时也存在较强的评估偏差。为此，作者提出了一种轻量级的评估策略PlanJudge，通过引导模型在判断前生成明确的评估计划，有效缓解了偏差问题，同时保持了整体判断准确性。

Comments Accepted by ACL 2026 Workshop EvalEval

2601.01972 2026-05-15 cs.CL cs.AI cs.LG

Hidden State Poisoning Attacks against Mamba-based Language Models

Alexandre Le Mercier, Chris Develder, Thomas Demeester

AI总结本文研究了针对基于Mamba的状态空间模型（SSMs）的语言模型的隐藏状态中毒攻击（HiSPA），该攻击通过特定的短输入短语不可逆地覆盖模型隐藏状态中的信息，导致其部分遗忘。研究提出了评估模型在遭受HiSPA攻击下信息检索能力的基准RoBench-25，并验证了SSMs在该攻击下的脆弱性，甚至包括最新的混合模型Jamba-1.7-Mini和Nemotron-3-Nano。此外，研究还分析了HiSPA对模型在其他基准上的影响，并提出了可能用于缓解该攻击的隐藏层模式分析方法。

Comments 29 pages, 4 figures

2512.22331 2026-05-15 cs.CV cs.AI

The Multi-View Paradigm Shift in MRI Radiomics: Predicting MGMT Methylation in Glioblastoma

Mariya Miteva, Maria Nisheva-Pavlova

AI总结该研究旨在通过多模态磁共振成像（MRI）数据非侵入性预测胶质母细胞瘤（GBM）中MGMT启动子甲基化状态，这对预后和治疗具有重要意义。为了解决传统单模态和早期融合方法在特征冗余和模态特异性建模方面的不足，作者提出了一种基于变分自编码器（VAE）的多视图潜在表征学习框架，能够在紧凑的概率潜在空间中保留各模态的影像特征并实现晚期融合。实验表明，该方法结合随机森林分类器在测试集上取得了0.77的AUC值，显著优于基线模型和调参后的模型，验证了多视图概率编码在整合互补MRI信息和提升预测性能方面的有效性。

Comments 17 pages, 4 figures

2512.22317 2026-05-15 cs.LG cs.AI cs.CV

LangPrecip: Language-Aware Multimodal Precipitation Nowcasting

Xudong Ling, Chaorong Li, Tianxi Huang, Qian Dong, Guiduo Duan

AI总结短时降水临近预报是一个具有高度不确定性和约束不足的时空预测问题，尤其在快速演变的极端天气事件中更为明显。本文提出了一种语言感知的多模态临近预报框架LangPrecip，通过将气象文本作为降水演变的语义运动约束，结合修正流范式，实现了文本与雷达信息在潜在空间中的高效融合。此外，研究还构建了一个包含160k对雷达序列和运动描述的大规模多模态数据集LangPrecip-160k，并在瑞典和MRMS数据集上验证了方法的有效性，显著提升了重降雨情况下的预测性能。

2512.12083 2026-05-15 cs.CV

RePack then Refine: Efficient Diffusion Transformer with Vision Foundation Model

Guanfang Dong, Luke Schultz, Negar Hassanpour, Chao Gao

AI总结该研究提出了一种名为“RePack then Refine”的三阶段框架，旨在高效利用视觉基础模型（VFM）的语义丰富特征来提升扩散变换器（DiT）的性能。通过RePack模块将高维VFM特征压缩到低维流形，去除冗余并保留结构信息，再在压缩后的潜在空间上训练标准DiT，最后引入一个潜在引导细化模块恢复压缩过程中丢失的高频细节。实验表明，该方法在ImageNet-1K数据集上仅用64个训练周期就达到了1.65的FID值，显著优于现有扩散模型。

2512.11855 2026-05-15 cs.LG cs.AI

Achieving Approximate Symmetry Is Exponentially Easier than Exact Symmetry

Behrooz Tahmasebi, Melanie Weber

AI总结本文研究了在机器学习中强制对称性与近似对称性的代价差异，提出了“平均复杂度”框架来量化对称性约束的成本。研究发现，在标准条件下，精确对称性需要线性级别的平均复杂度，而近似对称性仅需对数级别的复杂度，两者存在指数级的差距。这一理论结果首次从理论上解释了为何近似对称性在实践中可能更具优势，并为对称性在机器学习中的进一步研究提供了新工具。

Comments 33 pages, 2 figures. Published at ICLR 2026

2512.07461 2026-05-15 cs.CL

Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

Tong Wu, Yang Liu, Jun Bai, Zixia Jia, Shuyi Zhang, Ziyong Lin, Yanting Wang, Song-Chun Zhu, Zilong Zheng

AI总结本文提出了一种无需教师模型的框架——原生并行推理器（NPR），使大语言模型能够自主进化出真正的并行推理能力。NPR通过自蒸馏渐进训练、并行感知策略优化算法以及改进的推理引擎，实现了从顺序推理到原生并行认知的转变。实验表明，基于Qwen3-4B训练的NPR在八个推理基准上性能提升了24.5%，推理速度提高了4.6倍，并实现了100%的真正并行执行，为高效、可扩展的智能体推理设立了新标准。

2512.03637 2026-05-15 cs.SD cs.LG stat.ML

AaSP: Aliasing-aware Self-Supervised Pre-Training for Audio Spectrogram Transformers

Kohei Yamamoto, Kosuke Okusa

AI总结该研究提出了一种名为AaSP的音频频谱图Transformer自监督预训练框架，旨在解决传统方法中因时间下采样导致的混叠问题。AaSP通过引入感知混叠的补丁表示、教师-学生掩码建模、跨注意力预测器以及多掩码对比正则化，学习能够整合易受混叠影响频段特征且在不同掩码视图下保持稳定的音频表示。实验表明，AaSP在多个音频识别任务中表现出色，优于现有自监督方法。

Comments Accepted for publication in IEEE Transactions on Audio, Speech and Language Processing (TALSP). Copyright IEEE

详情

DOI: 10.1109/TASLPRO.2026.3690632

英文摘要

Transformer-based audio self-supervised learning (SSL) models commonly use spectrograms, vision-style Transformers, and masked modeling objectives. However, convolutional patchification with temporal downsampling lowers the effective Nyquist frequency and introduces aliasing, while naïve low-pass filtering may remove task-relevant high-frequency cues. We present AaSP, an aliasing-aware self-supervised pre-training framework for audio spectrogram transformers. AaSP combines an aliasing-aware patch representation, teacher-student masked modeling, a cross-attention predictor, and multi-mask contrastive regularization to learn representations that integrate features from alias-prone modulation bands while remaining stable across masked views. Its patch-embedding module, Aliasing-aware Patch Embedding (AaPE), augments standard patch tokens with features from alias-prone modulation bands using a band-limited complex sinusoidal kernel with a two-sided exponential window. The kernel's frequency and decay parameters are estimated from the input, enabling adaptive subband analysis whose outputs are fused with standard patch tokens. We pre-train on AudioSet and evaluate the learned representations by fine-tuning and linear evaluation on acoustic/environmental, speech, and music recognition benchmarks. Under fine-tuning, the full AaSP framework achieves state-of-the-art results on AS-20K, ESC-50, and NSynth among compared self-supervised baselines, while remaining competitive elsewhere. Linear evaluation shows a similar trend, including gains on US8K and NSynth. Overall, AaSP learns representations that are more stable under aliasing-sensitive temporal perturbations and competitive for downstream transfer.

URL PDF HTML ☆

赞 0 踩 0

2512.03532 2026-05-15 cs.CV

OpenTrack3D: Towards Accurate and Generalizable Open-Vocabulary 3D Instance Segmentation

Zhishan Zhou, Siyuan Wei, Zengran Wang, Chunjie Wang, Xiaosheng Yan, Xiao Liu

AI总结 OpenTrack3D 是一种面向开放词汇的3D实例分割框架，旨在提升在复杂、非结构化且无需网格的环境中进行3D目标分割的准确性和泛化能力。该方法通过引入视觉-空间追踪器在线生成跨视角一致的物体提案，并结合深度信息和DINO特征图提取实例特征，实现了无需网格的高效分割。此外，OpenTrack3D 采用多模态大语言模型替代CLIP，显著提升了对复杂用户查询的语义理解能力，实验表明其在多个基准数据集上均取得先进性能。

2512.02482 2026-05-15 cs.CV

G-SHARP: Gaussian Surgical Hardware Accelerated Real-time Pipeline

Vishwesh Nath, Javier G. Tejero, Aravind S. Kumar, Ruilong Li, Filippo Filicori, Mahdi Azizian, Sean D. Huver

AI总结本文提出了一种名为G-SHARP的实时手术场景重建框架，旨在满足微创手术中对可变形组织进行快速而精确3D建模的需求。该方法基于开源的GSplat（Apache-2.0）可微高斯光栅化器构建，实现了原理化的形变建模、鲁棒的遮挡处理以及高保真重建，并在EndoNeRF数据集上取得了领先的重建质量。此外，研究还提供了可在NVIDIA IGX Orin和Thor边缘设备上部署的Holoscan SDK应用，支持实际手术室环境中的实时手术可视化。

2511.21740 2026-05-15 cs.CL cs.AI

A cross-species neural foundation model for end-to-end speech decoding

Yizi Zhang, Linyang He, Chaofei Fan, Tingkai Liu, Han Yu, Trung Le, Jingyuan Li, Scott Linderman, Lea Duncker, Francis R Willett, Nima Mesgarani, Liam Paninski

AI总结该论文提出了一种端到端的脑到文本（BIT）框架，旨在通过神经网络直接将神经活动解码为连贯的句子，从而提升脑机接口的通信能力。核心方法是采用跨任务、跨物种预训练的神经编码器，并结合音频大语言模型与对比学习，实现了比传统分阶段方法更低的词错误率。研究不仅在多个基准测试中取得了新的最先进性能，还展示了跨任务泛化能力，为端到端神经解码提供了重要进展。

2511.21104 2026-05-15 cs.LG cs.PL

BRIDGE: Building Representations In Domain Guided Program Synthesis

Robert Joseph George, Carson Eisenach, Udaya Ghai, Dominique Perrault-Joncas, Anima Anandkumar, Dean Foster

AI总结 BRIDGE 是一个用于多领域程序合成的结构化提示框架，旨在解决在形式化验证工具如 Lean 中生成可验证代码的挑战。该方法将代码生成、规范描述和定理/证明三个领域进行关联，并通过领域特定的中间推理实现它们之间的连接。实验表明，BRIDGE 显著提升了 Lean 中代码的可执行正确性，并在样本效率和 Python 代码生成方面也表现出优越性能，展示了其在可验证程序合成中的实用价值。

Comments 41 pages, 10 figures, 3 tables. Preprint

2511.18903 2026-05-15 cs.LG cs.AI cs.CL

How Learning Rate Decay Wastes Your Best Data in Curriculum-Based LLM Pretraining

Kairong Luo, Zhenbo Sun, Haodong Wen, Xinyu Shi, Jiarui Cui, Chenyi Dang, Kaifeng Lyu, Wenguang Chen

AI总结在基于课程的大型语言模型（LLM）预训练中，高质量数据的利用效率受到学习率衰减策略的限制。本文发现，当使用递减的学习率调度时，按数据质量排序的课程式训练优势会显著减弱。为此，研究提出了两种简单有效的方法：采用更温和的学习率衰减策略，或用模型平均替代学习率衰减，从而在不额外优化数据的情况下提升了模型在多个基准测试中的表现。这一发现为课程式预训练与优化方法的协同设计提供了新思路。