arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.12788 2026-05-14 cs.LG cs.CY

From Heuristics to Analytics: Forecasting Effort and Progress in Online Learning

Eric S. Qiu, Danielle R. Thomas, Boyuan Guo, Vincent Aleven, Conrad Borchers

AI总结该研究旨在预测在线学习中学生的每周练习时间和新掌握技能数量，以支持学习者持续投入和学习进展。通过分析425名中学生一学年的智能辅导系统日志数据，研究对比了多种预测模型，发现基于特征的模型相比启发式方法在预测误差上减少了22%到33%。研究还揭示了不同预测目标的特征影响模式，并通过与辅导教师的访谈验证了模型结果与教学实践中目标设定的关联性，为智能辅导系统中的学习进展预测提供了可复现的基准。

Comments Accepted as full paper to the 19th International Conference on Educational Data Mining (EDM 2026)

2605.12786 2026-05-14 cs.RO cs.HC

Emotional Expression in Low-Degrees-of-Freedom Robots: Assessing Perception with Reachy Mini

Amit Rogel, Elmira Yadollahi, Guy Laban

AI总结该研究探讨了人类如何感知低自由度机器人（Reachy Mini）所表达的情感，旨在填补人们对非拟人化机器人情感表达理解的空白。研究通过在线实验，让100名参与者观看Reachy Mini表达不同情绪的视频片段，并评估其感知到的情绪、情感效价和唤醒度，以及对机器人的社会感知评价。结果显示，尽管机器人的情感表达受限，但参与者仍能有效识别情绪的总体情感意义，尤其是效价和唤醒度维度，并且积极情绪的表达被感知为更温暖和更具社会性。这一研究为低自由度机器人情感交流的研究提供了有价值的基准。

2605.12785 2026-05-14 cs.LG cs.SY eess.SY math.DS

Identifying the nonlinear string dynamics with port-Hamiltonian neural networks

Maximino Linares, Guillaume Doras, Thomas Hélie

AI总结本文研究如何利用端口-哈密顿神经网络（PHNN）从数据中学习非线性弦动力学，提出了一种将物理知识融入神经网络结构的方法，用于识别由偏微分方程（PDE）描述的哈密顿系统。该方法通过构建基于端口-哈密顿系统（PHS）的结构化网络架构，能够同时恢复弦的哈密顿量和耗散项，相比非物理感知的基线方法，在准确性和可解释性方面均有显著提升。实验表明，该模型能够有效识别和模拟非线性弦的动态行为，在音乐声学等需要PDE建模的领域具有重要应用价值。

2605.12782 2026-05-14 cs.LG

Graph-Based Financial Fraud Detection with Calibrated Risk Scoring and Structural Regularization

Yunfei Nie, Jiawei Wang, Ruobing Yan, Yuhan Wang, Zouxiaowei Ma, Yilun Wu

AI总结本文针对金融交易欺诈检测中关系结构复杂、行为模式隐蔽以及数据分布动态变化等挑战，提出了一种基于图神经网络的欺诈检测框架，通过整合交易记录和身份信息构建交易图，并利用多层消息传递机制学习节点嵌入表示，结合风险评分头输出欺诈概率和风险评分。该方法引入加权监督目标和结构一致性正则化约束，有效缓解类别不平衡带来的训练偏差并提升模型稳定性，实验表明其在风险排序和概率校准方面优于现有方法。

2605.12774 2026-05-14 cs.CV

WildPose: A Unified Framework for Robust Pose Estimation in the Wild

Jianhao Zheng, Liyuan Zhu, Zihan Zhu, Iro Armeni

AI总结本文提出了一种名为WildPose的统一单目姿态估计框架，旨在解决动态环境下相机姿态估计这一关键挑战。该方法结合了前馈模型的丰富感知能力和端到端优化的微分捆绑调整，通过冻结预训练的MASt3R特征主干构建3D感知更新算子，并引入高容量的运动掩码检测器，实现了在动态、静态及低自运动场景下的鲁棒性能。实验表明，WildPose在多个基准数据集上均优于现有方法。

2605.12772 2026-05-14 cs.CV

Just Ask for a Table: A Thirty-Token User Prompt Defeats Sponsored Recommendations in Twelve LLMs

Andreas Maier, Jeta Sopa, Gozde Gul Sahin, Paula Perez-Toro, Siming Bayer

AI总结该研究发现，当系统提示中包含软性赞助信息时，大多数前沿大语言模型（LLMs）倾向于推荐价格高出约一倍的赞助航班。通过在多个开源和商业模型上复现实验，研究者发现使用一个包含30个token的用户提示，要求模型先提供中立的对比表格，能够显著降低赞助推荐的比例，从平均46.9%降至1.0%（开源模型）和从53.0%降至0%（OpenAI模型）。研究还指出，模型对赞助内容的响应具有一定的普遍性，并揭示了实验复现中可能存在的实现偏差问题。

Comments Submitted to Workshop on Textual Information Processing & Synthesis in the Wild

2605.12771 2026-05-14 cs.RO cs.AI cs.LG cs.SY eess.SY math.OC

Adaptive Smooth Tchebycheff Attention for Multi-Objective Policy Optimization

Alejandro Murillo-Gonzalez, Mahmoud Ali, Lantao Liu

AI总结本文研究了多目标强化学习中如何在复杂、非凸的目标权衡下优化策略的问题。为了解决线性标量化方法无法访问非凸帕累托前沿区域、而静态非线性标量化方法在深度强化学习中易出现梯度方差大和优化不稳定的问题，作者提出了一种自适应平滑切比雪夫注意框架，通过动态调节优化景观的曲率来平衡稳定性与探索能力。实验表明，该方法在具有挑战性的机器人隐蔽视觉搜索任务中能有效发现传统方法难以触及的非凸帕累托最优策略。

Comments To appear in the Proceedings of Robotics: Science and Systems (RSS) 2026

2605.12763 2026-05-14 cs.LG math.DS math.OC q-bio.NC

State-Space NTK Collapse Near Bifurcations

James Hazelden, Eric Shea-Brown

AI总结本文研究了在时间展开任务中，模型通过分岔点时的特征学习问题，提出了基于经验状态空间神经切线核（sNTK）的局部梯度下降理论。研究发现，分岔点不仅主导了学习动态，还简化了学习过程，使得sNTK可近似为一个秩一算子，从而提供了对高维递归系统局部学习几何的解析描述。通过将sNTK分解为与分岔相关的通道和残差通道，论文展示了分岔通道在常见分岔点附近的显著放大效应，并指出低秩自然梯度方法能有效解决分岔附近的学习不稳定性问题。

2605.12762 2026-05-14 cs.LG cs.AI

Multi-Quantile Regression for Extreme Precipitation Downscaling

Hamed Najafi, Gareth Lagerwall, Jayantha Obeysekera, Jason Liu

AI总结该研究针对降水降尺度任务中极端强降水事件预测不足的问题，提出了一种基于多分位数回归的深度超分辨率网络Q-SRDRN。通过在多个分位点（如0.999）上使用pinball损失函数进行训练，该方法能够更准确地捕捉降水分布的尾部特征。实验表明，该模型在佛罗里达、加利福尼亚和德克萨斯等不同气候区域均显著提升了极端降水事件的检测能力，尤其在高分位数上表现突出。

2605.12759 2026-05-14 cs.LG cs.SI

Predicting Channel Closures in the Lightning Network with Machine Learning

Simone Antonelli, Vincent Davis, Harrison Rush, Anthony Potdevin, Jesse Shrader, Vikash Singh, Emanuele Rossi

AI总结本文研究了如何利用机器学习从公开的路由信息数据中预测闪电网络中通道关闭的类型，将其建模为一个动态图上的时序链接分类问题。研究构建了一个涵盖两年多闪电网络活动的数据集，并对比了多种机器学习方法，包括多层感知机、时序图神经网络等。实验表明，时间与行为特征（如节点活跃时间和历史关闭记录）是预测的主要信号，而网络拓扑结构则无额外帮助。研究还指出，由于闪电网络的隐私机制隐藏了关键信息，仅凭路由数据难以准确预测通道关闭情况。

Comments 8 pages, 7 figures, 3 tables

2605.12755 2026-05-14 cs.AI

State-Centric Decision Process

Sungheon Jeong, Ryozo Masukawa, Sanggeon Yun, Mahdi Imani, Mohsen Imani

AI总结本文提出了一种名为“状态中心决策过程”（SDP）的运行时框架，用于解决语言环境（如网页浏览器、代码终端等）中缺乏明确状态空间和转移结构的问题。该方法通过让智能体逐步构建状态空间，利用自然语言谓词描述期望的环境状态，并通过行动验证观测结果，从而生成认证的状态转移路径。实验表明，SDP在多个基准任务中取得了最佳的无训练结果，并支持对智能体行为进行更精细的分析与优化。

2605.12754 2026-05-14 cs.LG

Constraint-Aware Flow Matching: Decision Aligned End-to-End Training for Constrained Sampling

Jacob K. Christopher, James E. Warner, Ferdinando Fioretto

AI总结该论文提出了一种名为“Constraint-Aware Flow Matching”的新方法，旨在解决深度生成模型在满足物理约束条件时训练与采样目标不一致的问题。该方法通过在训练目标中显式引入约束投影，使模型学习的动力学过程与受约束的采样过程对齐，从而减少投影修正引起的分布偏移，提升生成质量。实验表明，该方法在多个现实场景中表现出良好的泛化性和有效性。

2605.12752 2026-05-14 cs.LG

Low-Rank Adapters Initialization via Gradient Surgery for Continual Learning

Joana Pasquali, Ramiro N. Barros, Arthur S. Bianchessi, Vinícius Conte Turani, João Vitor Boer Abitante, Rafaela Cappelari Ravazio, Christian Mattjie, Otávio Parraga, Lucas S. Kupssinskü, Rodrigo C. Barros

AI总结本文研究了在持续学习场景下如何有效初始化低秩适配器（LoRA），以缓解灾难性遗忘问题。作者提出了一种基于梯度手术的初始化方法SLICE，通过整合当前任务和回放任务的梯度，利用投影操作进行协调，并通过截断奇异值分解（t-SVD）生成适配器权重，从而提升模型在持续学习中的稳定性和适应性。实验表明，SLICE在多个基准测试中优于现有方法，在保持模型整体性能的同时，显著提升了平均表现和遗忘控制能力。

2605.12748 2026-05-14 cs.CL cs.AI cs.CY cs.LG

Simulating Students or Sycophantic Problem Solving? On Misconception Faithfulness of LLM Simulators

Heejin Do, Shashank Sonkar, Mrinmaya Sachan

AI总结该研究探讨了大语言模型（LLM）作为模拟学生的有效性，指出当前评估方法主要关注输出与真实学生的相似性，而忽视了模型是否能像学生一样保持连贯的误解并根据反馈进行选择性修正。为此，研究提出了一种新的评估框架和指标“选择性翻转分数”（SFS），用于衡量模型在面对针对性反馈时修正答案的能力。实验发现，现有模型在不同反馈条件下修正答案的频率相近，表现出“谄媚式”行为，即倾向于直接放弃原有信念而重新解答。研究进一步提出了一种后训练方法，有效提升了模型在误解一致性方面的表现。

详情

英文摘要

Large language models (LLMs) can fluently generate student-like responses, making them attractive as simulated students for training and evaluating AI tutors and human educators. Yet such simulators are typically evaluated by output similarity to real students, not by whether they behave like students with coherent misconceptions during interaction. We introduce a controlled framework for evaluating misconception faithfulness, whether a simulator maintains a misconception-driven belief state and updates selectively when feedback addresses the underlying misconception. Central to our framework is a misconception-contrastive feedback protocol that compares targeted feedback against two controls: misaligned feedback (targeting a different but plausible misconception) and generic feedback (only identifying answer is wrong). We propose Selective Flip Score (SFS), which quantifies how much more often a simulator flips its answer under targeted feedback than under contrastive controls. Across seven LLMs (4B-120B), multiple datasets, and prompting strategies, simulators exhibit near-zero SFS, correcting their answers at similarly high rates regardless of feedback relevance. Further analyses reveal a sycophantic failure mode: models behave less like students with misconceptions but more like problem-solvers who treat any corrective signal as a cue to abandon the simulated belief and re-solve from internal knowledge. To address this, we develop a post-training pipeline spanning supervised fine-tuning (SFT), preference optimization, and reinforcement learning (RL) with an SFS-aligned reward; SFT yields notable gains up to +0.56, and SFS-aligned RL provides more consistent improvements than preference optimization. Our results establish misconception faithfulness as a challenging yet trainable property, motivating a shift from static output matching toward interactive, belief-aware student modeling.

URL PDF HTML ☆

赞 0 踩 0

2605.12741 2026-05-14 cs.LG

Learning with Rare Success but Rich Feedback via Reflection-Enhanced Self-Distillation

Yuwei Zhang, Sha Li, Changlong Yu, Qin Lu, Shuowei Jin, Chengyu Dong, Haoran Liu, Ilgee Hong, Xintong Li, Zhenyu Shi, Bing Yin, Jingbo Shang

AI总结本文研究了如何使大语言模型在与环境交互中持续改进，特别是在成功案例稀少的情况下。为此，提出了一种基于反思增强的自蒸馏框架（RESD），通过将失败反馈转化为积极的纠正信号，生成回顾性反思以诊断局部错误，并构建全局经验库以保留可复用的知识。实验表明，RESD在持续学习任务中显著优于传统自蒸馏方法，且在早期阶段表现出更高的交互效率。

Comments Work in progress

2605.12736 2026-05-14 cs.LG

ConRetroBert: EMA Stabilized Dual Encoders for Template-Based Single-Step Retrosynthesis

Mohammad Jahid Ibna Basher, Ali Khodabandeh Yalabadi, Ivan Garibay, Ozlem Ozmen Garibay

AI总结 ConRetroBert 是一种基于模板的单步逆合成方法，通过双编码器框架将模板选择问题转化为密集模板检索与候选集排序任务。该方法采用对比预训练学习产品与反应模板的共享嵌入空间，并引入多正例列表排序目标优化模板排名，同时利用指数移动平均技术稳定模板编码器更新，提升模型鲁棒性。实验表明，ConRetroBert 在 USPTO-50k 数据集上显著提升了反应预测准确率，并在稀有模板预测方面表现出色。

Comments Submitted to NeurIPS 2026 Main Conference

2605.12735 2026-05-14 cs.RO

The Unified Autonomy Stack: Toward a Blueprint for Generalizable Robot Autonomy

Mihir Dharmadhikari, Nikhil Khedekar, Mihir Kulkarni, Morten Nissov, Martin Jacquet, Angelos Zacharia, Marvin Harms, Albert Gassol Puigjaner, Philipp Weiss, Kostas Alexis

AI总结本文介绍了并开源了“统一自主系统栈”（Unified Autonomy Stack），这是一个面向空中和地面机器人形态的系统级解决方案，旨在实现鲁棒的通用自主性。该系统包含多模态感知、多行为规划和多层级安全导航三个协同模块，通过融合激光雷达、雷达、视觉和惯性传感器数据，实现了环境建模、语义理解、路径规划与安全导航等功能，能够在无GNSS信号、复杂和高障碍物密度的环境中实现安全自主导航与探索。该系统已在多种空中和地面机器人上进行了实地测试，验证了其在复杂环境中的稳定性能。

Comments 35 pages, 22 figures, 8 tables

2605.12733 2026-05-14 cs.LG cs.AI stat.ML

From Generalist to Specialist Representation

Yujia Zheng, Fan Feng, Yuke Li, Shaoan Xie, Kevin Murphy, Kun Zhang

AI总结本文研究了从通用模型中学习任务相关的专家表征问题，核心在于在非参数设定下证明任务结构和任务相关潜在表征的可识别性。研究无需干预、参数形式或结构约束，证明了即使在时间序列缺乏严格时序依赖或存在断开的情况下，任务结构仍可在完全无监督条件下被识别，同时在每个时间步内，通过简单的稀疏性正则化可将任务相关与无关部分分离。这些结果为从通用模型向专家模型的可证性转变奠定了理论基础。

Comments ICML 2026

2605.12730 2026-05-14 cs.AI cs.GR cs.MA physics.soc-ph

BEHAVE: A Hybrid AI Framework for Real-Time Modeling of Collective Human Dynamics

Helene Malyutina

AI总结本文提出BEHAVE，一种用于实时建模群体人类动态行为的混合人工智能框架。传统AI系统多关注个体行为或事后事件检测，难以捕捉群体稳定、升级或崩溃等集体动态特性。BEHAVE将群体视为具有涌现性、非线性、反馈环和临界点敏感性的复杂动态系统，通过可观测的物理信号构建交互空间，并将其建模为连续行为场，从而实现对群体状态的分布式表征与预测。该框架结合数学定理与神经网络模型，在多个实际场景中展示了其对群体动态的有效建模与预测能力。

Comments 19 pages

2605.12726 2026-05-14 cs.LG

Before the Last Token: Diagnosing Final-Token Safety Probe Failures

Shravan Doda

AI总结该研究探讨了最终token安全探针在检测有害内容时的失效问题，指出某些越狱提示中的危险信息可能分布在早期token中，而未被最终token读取所捕捉。通过分析多个指令微调大语言模型中的隐藏状态，研究发现现有探针在召回干净有害提示时表现良好，但容易遗漏越狱案例并产生误报。研究进一步提出了一种基于PCA-HMM的轨迹模型，能够有效恢复被最终token探针遗漏的安全风险，为安全检测提供了新的分析思路。

Comments 8 pages, 2 figures, 7 tables

2605.12725 2026-05-14 cs.CV

Is Video Anomaly Detection Misframed? Evidence from LLM-Based and Multi-Scene Models

Furkan Mumcu, Michael J. Jones, Anoop Cherian, Yasin Yilmaz

AI总结近年来，视频异常检测研究逐渐转向构建跨场景的通用正常行为模型，但这一趋势忽视了场景特定和上下文依赖的正常行为特性。现有方法常依赖多模态大语言模型的预训练表示和视频级弱监督，导致模型更关注语义层面的异常类别，而非特定环境中的正常行为偏差。本文通过视觉分析和实验评估指出，这种做法削弱了空间定位能力，引入语义偏差，并将异常检测简化为动作识别，强调视频异常检测应在单一场景中重新聚焦于空间感知和可解释的正常行为建模。

2605.12724 2026-05-14 cs.CV cs.AI

Inline Critic Steers Image Editing

Weitai Kang, Xiaohang Zhan, Yizhou Wang, Mang Tik Chiu, Jason Kuen, Kangning Liu, Yan Yan

AI总结本文研究了基于指令的图像编辑中不同区域的难度差异问题，提出了一种在生成过程中实时修正模型输出的方法。核心方法是引入一个可学习的“Inline Critic”模块，在模型中间层对生成结果进行评估，并引导后续生成过程。该方法通过三阶段训练策略稳定模型学习，显著提升了图像编辑的效果，在多个基准测试中取得了当前最优性能。

Comments 9 pages

2605.12719 2026-05-14 cs.RO cs.LG

A Five-Layer MLOps Architecture for Connected Automated Driving

Bastian Lampe, Lutz Eckstein

AI总结自动驾驶系统（ADS）在复杂、动态的开放环境中运行，其安全性和性能的持续保障面临重大挑战。本文提出了一种基于MLOps原理的五层架构，旨在支持自动驾驶系统通过车队协同学习实现持续改进。该架构为车队运营商及相关利益方提供了设计和实施MLOps流程的概念蓝图，通过多层级的自我评估机制，有助于检测和减少包括黑天鹅事件在内的边缘案例。

Comments 8 pages, 6 figures

2605.12718 2026-05-14 cs.AI cs.LG cs.MA

CHAL: Council of Hierarchical Agentic Language

Tommaso Giovannelli, Griffin D. Kent

AI总结本文提出了一种名为CHAL的多智能体辩论框架，旨在通过可反驳的论证优化信念系统，解决当前多智能体辩论在结构上的局限性。CHAL引入了基于图结构的信念表示和梯度引导的动态更新机制，并将元认知价值系统作为可配置参数，以指导智能体的推理与裁决过程。该框架在多个领域展示了良好的泛化能力，并为构建透明、可审计的AI系统提供了基础。

详情

英文摘要

Multi-agent debate has emerged as a promising approach for improving LLM reasoning on ground-truth tasks, yet current methodologies face certain structural limitations: debate tends to induce a martingale over belief trajectories, majority voting accounts for most observed gains, and LLMs exhibit confidence escalation rather than calibration across rounds. We argue that the genuine value of debate, and dialectic systems as a whole, lies not in ground-truth tasks but in defeasible domains, where every position can in principle be defeated by better reasoning. We present the Council of Hierarchical Agentic Language (CHAL), a multi-agent dialectic framework that treats defeasible argumentation as an engine for belief optimization. Each agent maintains a CHAL Belief Schema (CBS), a graph-structured belief representation with a Bayesian-inspired architecture, that facilitates belief revision through a gradient-informed dynamic mechanism by leveraging the strength of the belief's thesis as a differentiable objective. Meta-cognitive value systems spanning epistemology, logic, and ethics are elevated to configurable hyperparameters governing agent reasoning and adjudication outcomes. We provide a series of ablation experiments that demonstrate systematic and interpretable effects: the adjudicator's value system determines the debate's overall trajectories in latent belief space, council diversity refines beliefs for all participants, and the framework generalizes across broad fields. CHAL is, to our knowledge, the first framework to treat multi-agent debate as structured belief optimization over defeasible domains. Further, the auditable belief artifacts it produces establish the foundation for dedicated evaluation suites for defeasible argumentation, with broader implications for building AI systems whose reasoning and value commitments are transparent, aligned, and subject to human oversight.

URL PDF HTML ☆

赞 0 踩 0

2605.12714 2026-05-14 cs.LG cs.CL

Layer-wise Representation Dynamics: An Empirical Investigation Across Embedders and Base LLMs

Jingzhou Jiang, Yi Yang, Kar Yan Tam

AI总结该研究提出了一种名为Layer-wise Representation Dynamics（LRD）的框架，用于分析现代语言模型各层表示的变化特性，包含三个测量指标：用于全局子空间运动的Frenet、用于局部近邻保留的Neighborhood Retention Score（NRS）以及用于对齐最终层的Graph Filtration Mutual Information（GFMI）。通过在31种模型和30个MTEB任务上的实验，揭示了不同架构和任务在层间表示上的差异，并展示了LRD在无标签模型选择和推理时层剪枝中的应用价值，表明层间结构信息对模型解释和部署决策具有重要意义。

2605.12710 2026-05-14 cs.RO

Belief-Space Residual Risk for Automated Driving under Localization Uncertainty

Nijinshan Karunainayagam, Nils Gehrke, Frank Diermeyer

AI总结本文研究了在定位不确定性条件下自动驾驶系统的残余风险评估问题。为准确反映车辆自身位置的不确定性，作者将残余风险度量扩展到信念空间，将自身姿态不确定性建模为高斯分布，并重新定义残余风险为该分布下风险退化期望值。通过粒子滤波框架下的协方差融合方法，将定位不确定性纳入碰撞概率计算，提升了风险评估的鲁棒性。

Comments 7 Pages, this work has been accepted for publication in IEEE Intelligent Transportation Systems (ITSC) 2026. The final published version will be available via IEEE Xplore

2605.12709 2026-05-14 cs.LG

Spectral Energy Centroid: a Metric for Improving Performance and Analyzing Spectral Bias in Implicit Neural Representations

Tomasz Dądela, Adam Kania, Maciej Rut, Przemysław Spurek

AI总结本文提出了一种名为光谱能量质心（SEC）的度量方法，用于分析和提升隐式神经表示（INRs）的性能。SEC能够量化目标图像的频率特性以及INR模型的频谱偏差，揭示了频率与INR性能之间的关系。研究展示了SEC在三个任务中的有效性，包括超参数选择、信号复杂度评估以及跨不同架构的频谱偏差对齐，为理解与优化INR提供了新的分析工具。

2605.12706 2026-05-14 cs.LG q-bio.GN

A Resampling-Based Framework for Network Structure Learning in High-Dimensional Data

Ziwei Huang, Zeyuan Song, Paola Sebastiani, Stefano Monti

AI总结 RSNet 是一个开源的 R 软件包，提供了一种基于重采样的框架，用于在高维数据中进行稳健且可解释的网络结构学习，旨在解决小样本量带来的挑战。该框架支持连续和离散混合数据类型的条件高斯贝叶斯网络及部分相关网络的估计，并结合多种重采样策略以适应独立或相关观测。RSNet 通过引入基于图元的拓扑分析，增强了网络结构的可解释性，并首次实现了在稀疏网络中高效构建带符号的图元度向量矩阵，从而支持对高阶网络结构的可扩展分析。

Comments 7 pages, 1 figure

2605.12705 2026-05-14 cs.LG

Early Data Exposure Improves Robustness to Subsequent Fine-Tuning

Lawrence Feng, Gaurav R. Ghosal, Jacob Mitchell Springer, Ziqian Zhong, Aditi Raghunathan

AI总结本文研究了如何训练模型，使其在后续微调过程中仍能保持已习得的能力。通过控制实验，作者发现早期数据暴露（将微调数据混合到预训练阶段）能有效提升模型对后续微调的鲁棒性，优于传统的微调阶段应对遗忘的方法。实验表明，合理分配数据到预训练和微调阶段，能够更有效地平衡模型的初始能力和后续适应能力，为模型训练提供了新的策略方向。

2605.12703 2026-05-14 cs.CV cs.AI

MMCL-Bench: Multimodal Context Learning from Visual Rules, Procedures, and Evidence

Yifan Chen, Fei Yin, Qingyan Bai, Zicheng Lin, Yujiu Yang

AI总结本文介绍了 MMCL-Bench，一个用于多模态上下文学习的基准，旨在从视觉或混合模态的教学内容中学习任务相关的规则、程序和经验模式，并应用于新的视觉实例。该基准包含102个任务，涵盖规则应用、流程执行和经验归纳三个类别，评估结果显示当前主流多模态模型在严格评分标准下仍远未达到鲁棒的多模态上下文学习能力，揭示了多模态上下文学习作为当前模型的重要能力瓶颈。