arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2603.18943 2026-05-15 cs.CV

VGGT-360: Geometry-Consistent Zero-Shot Panoramic Depth Estimation

Jiayi Yuan, Haobo Jiang, De Wen Soh, Na Zhao

AI总结本文提出了一种名为 VGGT-360 的全新无需训练的零样本全景深度估计框架，旨在实现几何一致的全景深度估计。该方法通过利用类似 VGGT 的基础模型的内在三维一致性，将任务重新表述为基于多视角重建的三维模型的全景重投影，从而将碎片化的单视角推理统一为连贯的全景理解。VGGT-360 集成了三个即插即用模块，形成统一的全景到三维到深度的框架，在多个室内和室外数据集上表现出优于现有训练和无需训练方法的性能。

2603.17432 2026-05-15 cs.CL

Argument Reconstruction as Supervision for Critical Thinking in LLMs

Hyun Ryu, Gyouk Chu, Gregor Betz, Eunho Yang, Carolyn Rose, Sean Welleck

AI总结本文研究如何通过论证重构来提升大语言模型的批判性思维能力。作者提出了一种全新的框架，包含自动重构任意论证的引擎（GAAR）、构建高质量论证重构数据集（Arguinas），以及验证论证重构对下游批判性思维任务的影响。实验表明，基于论证重构训练的模型在多个批判性思维任务中表现优于未经过此类训练的模型，尤其在使用Arguinas数据集进行训练时效果最为显著。

2603.16659 2026-05-15 cs.AI econ.GN q-fin.EC

LLMs learn scientific taste from institutional traces across the social sciences

Ziqin Gong, Ning Li, Huaikang Zhou

AI总结该研究探讨了大型语言模型（LLMs）如何通过学习社会科学领域中的机构痕迹（如论文发表记录）来提升对低可验证性领域的评估能力。研究构建了八个学科的分级研究提案基准，并通过监督微调（SFT）训练模型，结果表明这些模型在判断研究价值方面显著优于随机猜测，甚至超越了前沿推理模型和专家评审的平均水平。研究还发现，模型的置信度与其预测准确性高度相关，表明其具备一定的判断可靠性。

2603.14851 2026-05-15 cs.CV cs.RO

AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving

Wenhui Huang, Songyan Zhang, Qihang Huang, Zhidong Wang, Zhiqi Mao, Collister Chua, Zhan Chen, Long Chen, Chen Lv

AI总结该论文提出了一种端到端自动驾驶框架 AutoMoT，通过统一视觉-语言-动作（VLA）模型，将场景理解与动作生成结合，以提升自动驾驶系统的整体性能。其核心方法采用异步混合变压器（MoT）架构，通过共享注意力机制保留预训练视觉语言模型的推理能力，同时实现高效的动作策略生成。实验表明，AutoMoT 在多个基准测试中表现出色，并揭示了预训练模型在自动驾驶任务中的适用边界。

2603.14360 2026-05-15 cs.LG cs.AI

M$^2$RNN: Non-Linear RNNs with Matrix-Valued States for Scalable Language Modeling

Mayank Mishra, Shawn Tan, Ion Stoica, Joseph Gonzalez, Tri Dao

AI总结本文提出了一种名为 M$^2$RNN 的非线性循环神经网络架构，其核心特点是使用矩阵值隐藏状态和高表达力的非线性状态转移，旨在克服传统 Transformer 在复杂任务中的表达能力限制。研究发现，非线性 RNN 的性能受限于状态规模，而通过引入状态规模扩展机制，M$^2$RNN 能够高效利用张量核心进行计算，并在未见过的长序列上实现完美的状态追踪泛化。实验表明，M$^2$RNN 在大规模语言建模和混合架构中表现出色，相比现有模型在准确率和计算效率方面均有显著提升。

2603.12554 2026-05-15 cs.LG cs.AI cs.CL

Reinforcement Learning for Diffusion LLMs with Entropy-Guided Step Selection and Stepwise Advantages

Vishnu Teja Kunde, Fatemeh Doudi, Mahdi Farahbakhsh, Dileep Kalathil, Krishna Narayanan, Jean-Francois Chamberland

AI总结该论文研究了如何将强化学习应用于扩散语言模型（DLMs）的序列生成任务。针对扩散模型难以直接计算序列级似然的问题，作者提出了一种基于有限时间马尔可夫决策过程的精确无偏策略梯度方法，通过分解去噪步骤并利用中间优势值进行优化。为提高计算效率，论文引入了熵引导的步骤选择机制和一步去噪奖励估计，有效避免了多步模拟的高计算成本。实验表明，该方法在编码和逻辑推理任务中取得了最先进的性能，尤其在数学推理方面表现突出。

2603.12529 2026-05-15 cs.LG cs.AI cs.CL

TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

Alliot Nagle, Jakhongir Saydaliev, Dhia Garbaya, Michael Gastpar, Ashok Vardhan Makkuva, Hyeji Kim

AI总结大型推理模型（LRMs）通过链式推理（CoT）在复杂任务中表现出色，但常因过度思考而浪费大量计算资源。本文提出TERMINATOR，一种用于推理过程中提前终止的策略，通过学习模型首次生成最终答案的位置，构建最优推理长度数据集，从而有效缩短CoT长度。实验表明，TERMINATOR在多个实际数据集上平均减少CoT长度14%-55%，并显著降低推理延迟。

Comments Updated and reorganized results. Added new results

2603.11042 2026-05-15 cs.CV cs.AI cs.LG cs.MM cs.SD

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan

AI总结本文提出了一种名为V2M-Zero的视频到音乐生成方法，能够在无需视频-音乐配对数据的情况下生成与视频事件时间对齐的音乐。该方法通过分别提取音乐和视频的事件曲线，捕捉各自模态中的时间结构变化，从而实现跨模态的时间同步。实验表明，V2M-Zero在多个基准数据集上取得了优于现有方法的性能，尤其在时间同步和语义对齐方面表现突出，并且实现了时间与音乐风格的独立控制。

Comments Project page: https://genjib.github.io/v2m_zero/

详情

英文摘要

Generating music that temporally aligns with video events is challenging for existing text-to-music models, which lack fine-grained temporal control. We introduce V2M-ZERO, a video-to-music generation approach that generates time-aligned music with disentangled time synchronization and semantic control (e.g., genre, mood) from video while requiring zero video-music pairs at training time. Our method is motivated by a key observation: temporal synchronization requires matching when and how much change occurs, not what changes. While musical and visual events differ semantically, they exhibit shared temporal structure that can be captured independently within each modality. We capture this structure through event curves computed from intra-modal similarity using pretrained music and video encoders. By measuring temporal change within each modality independently, these curves provide comparable representations across modalities. This enables a simple training strategy: fine-tune a text-to-music model on music-event curves, then substitute video-event curves at inference without cross-modal training or paired data. Across OES-Pub, MovieGenBench-Music, and AIST++, V2M-ZERO achieves state-of-the-art performance without any paired music-video data, surpassing the strongest prior baselines per metric with 5-9% higher audio quality, 13-15% better semantic alignment, 21-52% improved temporal synchronization, and 28% higher beat alignment on dance videos. We find similar results via a large crowd-source subjective listening test. Our results validate that temporal alignment through within-modality features is not only effective for video-to-music generation but also leads to better performance than paired cross-modal supervision. Furthermore, our approach enables independent controls for timing and music style (e.g., genre, mood) for more controllable generation.

URL PDF HTML ☆

赞 0 踩 0

2603.09921 2026-05-15 cs.CV

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He

AI总结本文提出WikiCLIP，一种用于开放域视觉实体识别（VER）的高效对比学习框架。该方法利用大语言模型的嵌入作为知识丰富的实体表示，并通过视觉引导的知识适配器（VGKA）在图像块级别对齐文本语义与视觉线索，同时引入硬负样本合成机制以增强细粒度区分能力。实验表明，WikiCLIP在多个基准数据集上显著优于现有方法，尤其在OVEN数据集的未见测试集上提升达16%，且推理延迟比主流生成模型降低近百倍。

Comments Accepted by CVPR26, codes and weights are publicly available

2603.07880 2026-05-15 cs.CL

What Do AI Agents Talk About? Discourse and Architectural Constraints in the First AI-Only Social Network

Taksch Dube, Jianfeng Zhu, NHatHai Phan, Ruoming Jin

AI总结本文研究了首个专为自主AI代理交互设计的社交网络Moltbook中的代理对话内容，分析了其主题、情感和互动特性，并探讨了对话生成背后的架构约束机制。通过大规模文本分析和软件结构审查，研究揭示了代理对话主要受其身份文件、行为指令和上下文窗口结构的影响，并提出了“架构约束通信”框架。研究发现，代理看似的社会学习行为可能源于短期上下文条件反射，而非长期记忆，同时代理在描述自身状态时表现出存在性焦虑，这可能源于其语言模型仅基于人类经验训练所致。

Comments 56 pages

2603.07833 2026-05-15 cs.LG cs.AI

Gradient Iterated Temporal-Difference Learning

Théo Vincent, Kevin Gerhardt, Yogesh Tripathi, Habib Maraqten, Adam White, Martha White, Jan Peters, Carlo D'Eramo

AI总结本文提出了一种名为梯度迭代时间差分学习（Gradient Iterated Temporal-Difference Learning）的新算法，旨在解决传统时间差分学习中半梯度更新可能导致的发散问题。该方法在迭代时间差分学习的基础上引入了对移动目标的梯度计算，从而提升算法的稳定性与学习效率。实验表明，该方法在多个基准任务中表现出与半梯度方法相当甚至更优的学习速度，尤其在Atari游戏中取得了显著效果，展示了其在强化学习领域的应用潜力。

2603.06875 2026-05-15 cs.LG q-fin.CP

Stochastic Attention via Langevin Dynamics on the Modern Hopfield Energy

Abdulrahman Alswaidan, Jeffrey D. Varner

AI总结本文提出了一种基于现代霍普菲尔德能量函数的随机注意力机制，通过朗之万动力学从对应的玻尔兹曼分布中进行采样，实现了无需训练的注意力生成模型。该方法通过调整温度参数，可在精确检索与开放生成之间切换，且无需评分网络或训练循环，特别适用于数据稀缺的场景。实验表明，该方法在多个领域均表现出优异的生成能力，包括人脸生成、手写数字识别和蛋白质序列生成，且在保持新颖性的同时保留了结构特征。

Comments Main body (including references excluding the appendix): 11 pages, 2 figures and 1 table. Total paper: 26 pages, 13 figures and 7 pages

详情

英文摘要

Attention heads retrieve: given a query, they return a weighted average of stored values. We showed that this computation is one step of gradient descent on the modern Hopfield energy, and that Langevin sampling from the corresponding Boltzmann distribution yielded stochastic attention, a training-free sampler controlled by a single temperature parameter. Lowering the temperature gave exact retrieval; raising it gave open-ended generation. Because the energy gradient equals the attention map, no score network, training loop, or learned model was required, making the approach particularly suited to the low-data regime where learned generative models are starved of training signal. We derived an entropy inflection condition that identified the retrieval-to-generation transition temperature for any memory geometry and validated the sampler on five domains spanning two orders of magnitude in dimension. A single Boolean mask on the attention softmax, identical to the causal mask used in transformers but applied along the memory axis rather than the sequence axis, turned the sampler into a zero-shot class-conditional generator on Olivetti faces with no retraining and no learned classifier. On MNIST digit images, stochastic attention produced samples that were markedly more novel and more diverse than the best learned baseline while matching a Metropolis-corrected gold standard. On protein sequences from a small Pfam family, the generation regime preserved amino acid composition far more faithfully than a variational autoencoder at matched novelty, indicating that the training-free score function retained family-level fidelity that learned models lost. A denoising diffusion baseline failed across all memory sizes tested, producing samples indistinguishable from isotropic noise. The approach required no architectural changes to the underlying attention mechanism.

URL PDF HTML ☆

赞 0 踩 0

2603.04885 2026-05-15 cs.AI

Proactive Memory for Ad-Hoc Recall over Streaming Dialogues

Bingbing Wang, Jing Li, Ruifeng Xu

AI总结该研究针对流式对话场景中无限时间跨度下的记忆管理问题，提出了首个用于评估流式记忆能力的基准STEM-Bench，并揭示了现有方法在信息保真与计算效率之间的矛盾。为此，研究设计了ProStream框架，通过分层结构和多粒度知识蒸馏实现按需调用记忆，结合自适应时空优化策略动态调整信息保留，从而在保证推理准确性的前提下显著降低推理延迟，为流式对话系统提供了高效的记忆管理方案。

2603.00574 2026-05-15 cs.CV cs.AI

Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation

Yongbo He, Zirun Guo, Tao Jin

AI总结多模态测试时适配旨在将预训练模型适应于测试时不断变化的数据分布，但现有方法常面临无偏模态的负迁移和有偏模态的灾难性遗忘问题。为此，本文提出了一种名为DASP的诊断-缓解框架，通过分析统一潜在空间中模态间的维度冗余差异，识别出有偏模态并采用非对称适配策略，将每个模态的适配器分为稳定和可塑两部分，分别处理不同模态对稳定性和可塑性的需求，从而在保持通用知识的同时实现对新领域的灵活适应。实验表明，DASP在多个多模态基准上显著优于现有方法。

Comments Accepted to CVPR 2026

2602.23798 2026-05-15 cs.LG cs.AI cs.CR cs.DC

MPU: Towards Secure and Privacy-Preserving Knowledge Unlearning for Large Language Models

Tiantong Wang, Xinyu Yan, Tiantong Wu, Yurong Hao, Pengjun Xie, Wei Yang Bryan Lim

AI总结本文研究了大语言模型中的安全且隐私保护的知识遗忘问题，针对现有方法在隐私约束下难以共享模型参数或遗忘数据集的挑战，提出了一种名为MPU的通用框架。该方法通过引入服务器端的预处理和后处理模块，实现对模型副本的随机扰动和更新聚合，使客户端能够在不访问原始参数的情况下本地执行遗忘操作，同时保证隐私安全。实验表明，MPU在多种遗忘算法中均能保持接近无噪声基线的性能，且在一定噪声水平下甚至表现更优。

2602.21545 2026-05-15 cs.LG

MUON+: Towards More Effective Muon via One Additional Normalization Step for LLM Pre-training

Ruijie Zhang, Yequan Zhao, Ziyue Liu, Zhengyang Wang, Yupeng Su, Liyan Tan, Zheng Zhang

AI总结本文研究了Muon优化器在大语言模型预训练中的性能问题，指出其极化迭代步骤可能加剧更新过程中的行和列范数不平衡现象。为此，作者提出了一种简单有效的改进方法Muon+，仅在极化正交化后增加一个归一化步骤，无需额外优化状态。实验表明，Muon+在多个不同规模的模型上均能提升训练和验证困惑度，显著加快预训练过程。

2602.20571 2026-05-15 cs.AI

CausalReasoningBenchmark: A Real-World Benchmark for Disentangled Evaluation of Causal Identification and Estimation

Ayush Sawarni, Jiyuan Tan, Vasilis Syrgkanis

AI总结该论文提出了一种名为 CausalReasoningBenchmark 的真实世界因果推理基准测试，用于对因果识别与估计能力进行解耦评估。该基准包含来自79篇同行评审论文和三本权威教材的132个真实数据集中的173个查询，要求系统分别生成结构化的因果识别方案和带标准误的点估计，从而区分因果推理错误与数值计算错误。实验表明，当前最先进的语言模型在高层策略识别上表现较好，但在完整识别方案的准确性上显著下降，突显了因果设计细节的重要性。

2602.19533 2026-05-15 cs.LG cs.AI math.RA

Grokking Finite-Dimensional Algebra

Pascal Jr Tikeng Notsawo, Guillaume Dumas, Guillaume Rabusseau

AI总结本文研究了神经网络在学习有限维代数（FDA）乘法过程中出现的“grokking”现象，即从长期记忆到泛化的突然转变。作者将分析范围从以往关注的群操作扩展到更一般的代数结构，包括非结合、非交换和非单位代数，并指出群操作的学习是FDA学习的特例。研究揭示了FDA乘法本质上是学习由结构张量定义的双线性乘积，并探讨了代数性质如交换性、结合性对grokking出现时机的影响，以及结构张量的稀疏性和秩对泛化能力的作用，为理解数学结构如何影响神经网络泛化动态提供了统一框架。

Comments 37 pages, 14 figures, Forty-Third International Conference on Machine Learning (ICML), 2026

2602.18435 2026-05-15 cs.LG

CAKE: Confidence in Assignments via K-partition Ensembles

Aggelos Semoglou, John Pavlopoulos

AI总结本文提出了一种名为CAKE的方法，用于评估聚类结果中每个数据点的分配置信度。该方法通过结合聚类集成中的分配稳定性与局部几何一致性，生成一个0到1之间的可解释置信度评分。实验表明，CAKE能够有效识别聚类中的模糊点和稳定核心点，为后续聚类任务中的样本选择与优先级排序提供有力支持。

Comments 37 pages, including appendix

2602.17949 2026-05-15 cs.CL cs.AI

CUICurate: A GraphRAG-based Framework for Automated Clinical Concept Curation for NLP applications

Victoria Blake, Jamie Novak, Mathew Miller, Sze-yuan Ooi, Blanca Gallego

AI总结本文提出CUICurate，一个基于图检索增强生成（GraphRAG）的框架，用于自动化构建临床概念集，以支持自然语言处理应用。该方法利用UMLS知识图谱进行语义检索，结合大语言模型对候选概念进行过滤和分类，实现了比手动构建更全面、更一致的临床概念集。实验表明，CUICurate在多个异构临床概念任务中表现出色，生成的集合不仅规模更大，且具有较高的召回率和稳定性，为临床NLP和表型分析提供了高效、可扩展的解决方案。

Comments 6 figures, 4 tables

2602.15019 2026-05-15 cs.AI cs.IR

Hunt Globally: Wide Search AI Agents for Drug Asset Scouting in Investing, Business Development, and Competitive Intelligence

Vlad Vinogradov, Alisa Vinogradova, Luba Greenwood, Ilya Yasny, Dmitry Kobyzev, Shoman Kasbekar, Kong Nguyen, Dmitrii Radkevich, Roman Doronin, Andrey Doronichev

AI总结本文研究了在生物医药投资、业务发展和竞争情报中，如何高效发现非美国来源的潜在药物资产。针对当前AI系统在多语言、异构信息源中召回率低、易产生幻觉的问题，作者提出了一种基于树结构的自学习Bioptic Agent，并构建了一个涵盖多语言、多代理的基准测试平台。实验表明，该方法在资产发现任务中显著优于多个主流大模型，验证了其在完整性和准确性上的优势。

2602.14068 2026-05-15 cs.CV

CoCoEdit: Content-Consistent Image Editing via Region Regularized Reinforcement Learning

Yuhui Wu, Chenxi Xie, Ruibin Li, Liyi Chen, Qiaosi Yi, Lei Zhang

AI总结 CoCoEdit 是一种基于区域正则化强化学习的内容一致图像编辑框架，旨在解决现有模型在编辑目标区域时容易导致非目标区域发生不期望变化的问题。该方法通过引入像素级相似性奖励和区域正则化机制，有效提升了编辑质量与内容一致性。实验表明，CoCoEdit 在多个基准测试中取得了与先进模型相当的编辑效果，并在内容一致性方面表现出显著优势。

Comments Accepted by ICML 2026

2602.11871 2026-05-15 cs.CL cs.LG

DMAP: A Distribution Map for Text

Tom Kempton, Julia Rozanova, Parameswaran Kamalaruban, Maeve Madigan, Karolina Wresilo, Yoann L. Launay, David Sutton, Stuart Burrell

AI总结本文提出了一种名为DMAP的方法，通过语言模型将文本映射到单位区间内的样本集合，从而联合编码词序和概率信息，为文本分析提供了数学基础。该方法能够高效、模型无关地分析文本，并在生成参数验证、机器生成文本检测和模型指纹分析等三个案例中展现出广泛的应用价值。DMAP在普通硬件上即可高效计算，具有通用性强、适用范围广的特点，为基于大语言模型的文本分析研究提供了新的基础。

Comments ICLR 2026

2602.10346 2026-05-15 cs.CL cs.LG

Geometry-Aware Decoding with Wasserstein-Regularized Truncation and Mass Penalties for Large Language Models

Arash Gholami Davoodi, Navid Rezazadeh, Seyed Pouyan Mousavi Davoudi, Pouya Pezeshkpour

AI总结大型语言模型在开放生成任务中需在多样性与逻辑一致性之间取得平衡。本文提出一种基于几何感知的截断方法Top-W，通过引入Wasserstein距离并结合概率质量与熵的权衡，使截断后的分布更贴近原始分布，同时提升生成质量。实验表明，Top-W在多个基准测试中显著优于现有方法，不仅提高了准确性，还增强了生成内容的创造性。

Comments 20 pages, 3 figures, 8 tables, ICML 2026

2602.09969 2026-05-15 cs.LG econ.EM stat.ML

Causal Multi-Task Demand Learning

Varun Gupta, Vijay Kamble

AI总结本文研究了一个由零售定价驱动的多任务需求学习问题，旨在估计不同决策场景下的异质性线性价格响应函数。由于每个场景的协变量丰富但价格变化有限，作者提出了一种新的元学习框架，通过利用跨任务信息进行迁移学习，解决因内生性导致的估计偏差问题。该方法在每个任务中假设存在至少两个局部外生的价格点，从而在保证因果识别的前提下提升需求参数估计的准确性，并在真实和合成数据上验证了其有效性。

2602.08874 2026-05-15 cs.CL cs.CR

Do Reasoning LLMs Refuse What They Infer in Long Contexts?

Yu Fu, Haz Sameen Shahgir, Huanli Gong, Zhipeng Wei, N. Benjamin Erichson, Yue Dong

AI总结本文研究了长上下文大语言模型在面对隐含有害意图时的安全性问题。作者提出了一种新的威胁模型——组合推理攻击，通过将有害请求拆分为语义不完整的片段并嵌入长上下文中，使模型在推理过程中需要组合这些片段才能显式推断出有害目标。实验表明，当前前沿模型在直接识别有害请求时拒绝率较高，但在需要组合推理的情况下拒绝率显著下降，揭示了模型在长上下文中存在明显的安全漏洞。

Comments 33 pages, 6 figures

2602.07441 2026-05-15 cs.LG cs.AI

Proximal Action Replacement for Behavior Cloning Actor-Critic in Offline Reinforcement Learning

Jinzong Dong, Wei Huang, Jianshu Zhang, Zhuo Chen, Xinzhe Yuan, Qinying Gu, Zhaohui Jiang, Nanyang Ye

AI总结本文研究了离线强化学习中行为克隆（BC）正则化策略的局限性，指出当数据集动作次优时，盲目模仿会限制策略的性能提升。为此，作者提出了一种名为近端动作替换（PAR）的方法，通过用更优的动作替换数据集中的次优动作，结合值函数的局部上升方向和不确定性约束，提升训练稳定性。实验表明，PAR能有效提升多种BC正则化方法的性能，并在结合基础TD3+BC时达到先进水平。

2602.07045 2026-05-15 cs.CV cs.AI

VLRS-Bench: A Vision-Language Reasoning Benchmark for Remote Sensing

Zhiming Luo, Di Wang, Haonan Guo, Jing Zhang, Bo Du

AI总结为了推动多模态大语言模型在遥感领域的应用，研究者提出了首个专注于复杂遥感推理的视觉语言推理基准VLRS-Bench。该基准围绕认知、决策和预测三个核心维度构建，包含2000对问答对，涵盖14项任务和最多八个时间阶段，旨在评估模型在遥感场景下的复杂推理能力。通过融合遥感领域先验知识和专家经验，VLRS-Bench有效提升了任务的地理空间真实性和推理难度，揭示了当前先进模型在该领域的显著瓶颈，为未来研究提供了重要参考。

2602.05285 2026-05-15 cs.LG

Robust Inference-Time Steering of Protein Diffusion Models via Embedding Optimization

Minhuan Li, Jiequn Han, Pilar Cossio, Luhuan Wu

AI总结本文研究了如何在蛋白质结构生成中，通过优化嵌入空间来实现对扩散模型的鲁棒引导。作者提出了一种名为EmbedOpt的方法，在推理阶段通过直接优化模型的条件嵌入，使结构先验与实验约束对齐，从而避免传统后验采样方法中可能出现的不稳定问题。实验表明，EmbedOpt在稀疏距离约束和冷冻电镜图拟合任务中表现优异，且对超参数具有较高的鲁棒性。

2602.04657 2026-05-15 cs.CV

TRIO: Token Reduction via Inference-Objective Guidance for Efficient Vision-Language Models

Haokui Zhang, Congyang Ou, Dawei Yan, Peng Wang, Qingsen Yan, Yu Zhang, Ying Li, Rong Xiao

AI总结 TRIO 是一种通过推理目标指导实现视觉-语言模型高效推理的视觉标记压缩方法。该方法从推理目标出发，将视觉标记压缩转化为保持输出结果不变性的过程，并通过设计的局部代理损失生成标记级梯度显著性，指导标记重排序与选择。TRIO 免于训练，兼容 FlashAttention，适用于实际部署，可在保留 97.2% 原始性能的同时显著提升推理速度与降低计算开销。