arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.13292 2026-05-14 cs.CL cs.AI cs.IR cs.LG

IndicMedDialog: A Parallel Multi-Turn Medical Dialogue Dataset for Accessible Healthcare in Indic Languages

Shubham Kumar Nigam, Suparnojit Sarkar, Piyush Patel

AI总结本文介绍了IndicMedDialog，一个包含英印九种语言的平行多轮医疗对话数据集，旨在提升医疗对话系统在印地语系语言中的适用性和对话真实性。该数据集通过大语言模型生成对话并经母语者验证和后处理优化，同时基于该数据集微调了参数高效的医疗语言模型IndicMedLM，以实现更个性化的症状收集。研究通过多语言基线对比和专家评估，验证了模型的临床合理性和有效性。

Comments Accepted in BioNLP @ ACL 2026 Conference

2605.13290 2026-05-14 cs.AI

What properties of reasoning supervision are associated with improved downstream model quality?

Mikołaj Langner, Dzmitry Pihulski, Jan Eliasz, Michał Rajkowski, Przemysław Kazienko, Maciej Piasecki, Jan Kocoń, Teddy Ferdinan

AI总结本文研究了如何在训练前通过内在数据指标可靠预测推理数据集的效用，以减少对昂贵试错调优的依赖。作者提出了一系列定量指标，并通过在语义不同的波兰推理数据集上微调8B和11B模型进行验证，发现这些指标与下游模型性能有显著相关性。研究还揭示了效用预测指标具有规模依赖性：小模型更依赖对齐性指标保证精度，而大模型则受益于高冗余度和详细推理过程以解决复杂任务。这一发现为推理数据验证提供了一个规模感知的框架，有助于更高效地选择训练数据集。

Comments To appear in the Proceedings of the International Conference on Computational Science (ICCS) 2026

2605.13287 2026-05-14 cs.LG cs.AI math.OC stat.ML

Delightful Exploration

Ian Osband

AI总结本文提出了一种名为“Delight-gated exploration”（DE）的探索策略，用于解决大规模动作空间中探索预算有限的问题。该方法通过衡量潜在收益与惊喜值的乘积（即“delight”）来决定是否进行探索，从而更高效地利用有限的探索资源。DE 在多种任务中表现出比 Thompson Sampling 和 $\varepsilon$-greedy 更弱的遗憾增长，并且其超参数具有良好的跨任务迁移性，无需重新调整。

2605.13283 2026-05-14 cs.LG math.ST stat.TH

Byzantine-Robust Distributed Sparse Learning Revisited

Yuxuan Wang, Lixin Zhang, Kangqiang Li

AI总结本文重新研究了高维稀疏线性模型下的拜占庭鲁棒分布式估计问题。作者提出了一种结合局部鲁棒$\ell_1$正则化估计与服务器端鲁棒聚合的框架，适用于伪Huber回归、分位数回归和稀疏支持向量机。该方法在较弱条件下提供了非渐近保证，达到了近似最优的统计收敛速率，同时保持了通信效率，仿真实验验证了其在多种拜占庭攻击下的估计鲁棒性、支持恢复和分类精度。

2605.13277 2026-05-14 cs.CL cs.AI cs.CV cs.IR cs.LG

Utility-Oriented Visual Evidence Selection for Multimodal Retrieval-Augmented Generation

Weiqing Luo, Zongye Hu, Xiao Wang, Zhiyuan Yu, Haofeng Zhang, Ziyi Huang

AI总结本文研究了多模态检索增强生成（RAG）中视觉证据的选择问题，指出现有方法通常基于语义相关性或表面相似性，难以准确反映证据对下游推理的实际效用。为此，作者从信息论角度重新定义了证据的效用，提出通过模型输出分布的信息增益来衡量证据价值，并设计了一种无需训练、基于轻量多模态模型的高效估计框架。实验表明，该方法在多个基准上优于现有RAG方法，同时显著降低了计算成本。

Comments Accepted to ACL 2026

2605.13266 2026-05-14 cs.RO

Galilean State Estimation for Inertial Navigation Systems with Unknown Time Delay

Giulio Delama, Martin Scheiber, Yixiao Ge, Tarek Hamel, Stephan Weiss, Robert Mahony

AI总结本文研究了在存在未知时间延迟的惯性导航系统（INS）中如何进行状态估计的问题。作者提出了一种基于伽利略对称性的几何框架，将时空统一建模，从而实现导航状态与时间延迟的联合估计，并推导出一种等变滤波器（EqF）用于在线估计。实验表明，该方法在保持估计精度的同时具有更好的一致性，优于现有的扩展卡尔曼滤波（EKF）方法，尤其在时间延迟较大时表现更优。

2605.13265 2026-05-14 cs.LG

LightSplit: Practical Privacy-Preserving Split Learning via Orthogonal Projections

Mert Cihangiroglu, Alessandro Pegoraro, Phillip Rieger, Antonino Nocera, Ahmad-Reza Sadeghi

AI总结 Split Learning（SL）通过将神经网络分割在客户端和中央服务器之间实现协作训练，但切分层接口带来了高维激活值通信开销大和表示易受重构攻击的问题。本文提出LightSplit方法，在切分层应用轻量的固定正交随机投影，以降低信息暴露并减少通信开销。该方法基于信息论原理，通过投影限制样本特异性信息，抑制可被利用的样本信号，并在不改变原有架构的前提下实现高效训练，适用于边缘设备，同时保持端到端可微性。实验表明，LightSplit在大幅降低通信维度的情况下仍能保持超过95%的基线准确率。

2605.13262 2026-05-14 cs.LG q-bio.QM

Chem-GMNet: A Sphere-Native Geometric Transformer for Molecular Property Prediction

Deepak Warrier, Raja Sekhar Pappala

AI总结本文提出了一种名为Chem-GMNet的球面原生几何变换器，用于分子属性预测任务。该模型通过将传统变换器中的各个模块替换为基于球面几何的结构，充分利用了化学结构中的几何先验信息。实验表明，Chem-GMNet在参数更少的情况下取得了优于现有方法如ChemBERTa的性能，尤其在无需预训练的情况下也表现出色。

2605.13260 2026-05-14 cs.LG math.AP math.FA stat.ML

Unified generalization analysis for physics informed neural networks

Yuka Hashimoto, Tomoharu Iwata

AI总结本文针对物理信息神经网络（PINNs）及其变体（VPINNs）的泛化能力进行了统一的理论分析。研究通过泰勒展开将非线性微分算子转化为高维空间中的线性算子，结合Koopman分析方法，建立了适用于包含微分操作的神经网络的泛化界。该方法突破了以往对稳定性条件或线性椭圆性的依赖，揭示了微分算子的非线性特性对泛化性能的显著影响，为理解物理信息神经网络的训练与推广提供了新的理论视角。

2605.13255 2026-05-14 cs.AI

Respecting Self-Uncertainty in On-Policy Self-Distillation for Efficient LLM Reasoning

Junlong Ke, Zichen Wen, Weijia Li, Conghui He, Linfeng Zhang

AI总结本文研究了如何在基于策略的自蒸馏中更有效地利用教师模型的不确定性信息，以提升大语言模型的推理效率。提出了一种基于熵引导的强化自蒸馏方法EGRSD，通过结合奖励引导方向、师生似然比幅度以及教师熵置信门机制，动态调整对不同位置token的监督权重，从而提升模型训练效果。进一步引入了因果前瞻变体CL-EGRSD，以区分持续高熵和短暂高熵区域，实验表明该方法在推理准确率与长度的权衡上优于现有可训练方法。

2605.13245 2026-05-14 cs.AI

It's not the Language Model, it's the Tool: Deterministic Mediation for Scientific Workflows

Marios Adamidis, Danae Katrisioti, Yannis Tzitzikas, Emmanuel Stratakis

AI总结该研究探讨了语言模型在科学工作流中生成分析结果的可重复性问题，指出当前模型在同一数据上多次生成时可能得到不同结果，缺乏可信度。为此，作者提出了一种“类型化中介”方法，通过模型调用确定性工具来执行分析，每个工具对应特定仪器的精确操作流程，确保结果的一致性。实验表明，该方法在多个平台上实现了相同分析任务的完全可复现结果，相较商业模型具有更高的稳定性和可靠性，为科学分析中的可重复性需求提供了实用解决方案。

Comments 18 pages, 4 figures, 2 appendices. Submitted to SETN 2026

2605.13236 2026-05-14 cs.CL

A Hybrid Framework for Natural Language Querying of IFC Models with Relational and Graph Representations

Rabindra Lamsal, Sisi Zlatanova, Haowen Xu, Yafei Sun, Johnson Xuesong Shen

AI总结本文提出了一种名为IfcLLM的混合框架，用于通过自然语言查询IFC格式的建筑信息模型（BIM）。该框架将IFC模型转化为互补的表示形式，包括用于结构化属性和几何信息的关系表示，以及用于拓扑关系的图表示，并通过迭代的重试与优化机制整合这两种表示进行大语言模型推理。实验表明，该方法在多个场景下的首次查询准确率高达93.3%至100%，能够有效提升非专家用户对BIM数据的访问与分析能力。

2605.13229 2026-05-14 cs.AI cs.SE

Improving Code Translation with Syntax-Guided and Semantic-aware Preference Optimization

Yuhan Wu, Huan Zhang, Wei Cheng, Chen Shen, Jingyue Yang, Wei Hu

AI总结本文研究如何提升代码翻译的准确性和语义一致性，提出了一种基于语法引导和语义感知的偏好优化方法CTO。该方法通过对比学习训练跨语言语义模型，直接评估源代码与翻译代码的功能等价性，并将语义信号与编译器反馈的语法信号统一到多目标优化框架中。实验表明，CTO在C++、Java和Python代码翻译任务中显著优于现有方法。

Comments Accepted in the 35th International Joint Conference on Artificial Intelligence (IJCAI 2016)

2605.13228 2026-05-14 cs.CV cs.AI

ReTool-Video: Recursive Tool-Using Video Agents with Meta-Augmented Tool Grounding

Xiao Liu, Nayu Liu, Junnan Zhu, Ruirui Chen, Guohui Xiang, Changjian Wang, Kaiwen Wei, Rongzhen Li, Jiang Zhong

AI总结该论文提出了一种名为 ReTool-Video 的递归工具使用视频代理方法，旨在提升视频理解中复杂推理和跨模态分析的能力。为了解决现有视频代理在工具粒度和动作空间上的局限，研究构建了包含134个工具的 MetaAug-Video 工具库（MVTL），支持细粒度操作和多级信息访问，并设计了递归工具调用机制，将高层视频意图逐步分解为可执行的工具链。实验表明，该方法在多个基准测试中表现优异，显著提升了复杂视频理解的稳定性和效果。

2605.13225 2026-05-14 cs.LG

Mix, Don't Tune: Bilingual Pre-Training Outperforms Hyperparameter Search in Data-Constrained Settings

Paul Jeha, Anastasiia Sedova, Louis Béthune, Skyler Seto, Jes Frellsen, Pierre Ablin, Natalie Schluter

AI总结在数据受限的语言模型预训练中，研究对比了超参数调优和双语数据混合两种方法，发现数据混合在验证损失和下游任务准确率上均优于超参数调优，且效果随模型规模增大而增强。研究进一步量化了数据混合的增益，表明其效果相当于增加了2到13倍的目标语言数据，并揭示了验证损失无法全面反映混合带来的好处。基于实验结果，作者建议在数据受限场景中优先采用高资源语言的数据混合，并通过μP方法迁移超参数设置。

2605.13223 2026-05-14 cs.CV

Skill-Aligned Annotation for Reliable Evaluation in Text-to-Image Generation

Abdelrahman Eldesokey, Merey Ramazanova, Ahmad Sait, Ansar Khangeldin, Karen Sanchez, Tong Zhang, Bernard Ghanem

AI总结随着文本到图像生成技术的快速发展，可靠的模型评估变得尤为重要。本文提出了一种技能对齐注释方法，使注释策略更符合不同评估技能的本质特征，从而提升评估的一致性和稳定性。研究还构建了一个自动化评估流程，实现了可扩展的细粒度评估，并强调改进评估基础可以提高效率，而无需单纯增加注释工作量。

Comments Project Page: https://abdo-eldesokey.github.io/skill-aligned-eval/

2605.13221 2026-05-14 cs.AI cs.LG

An Agentic AI Framework with Large Language Models and Chain-of-Thought for UAV-Assisted Logistics Scheduling with Mobile Edge Computing

Hanwen Zhang, Dusit Niyato, Wei Zhang, Xin Lou, Malcolm Yoke Hean Low

AI总结本文研究了无人机辅助物流调度中结合边缘计算的混合调度问题，该问题涉及物理物流决策与计算任务调度的耦合。为解决这一挑战，作者提出了一种基于智能体AI的优化框架，结合大语言模型与链式推理技术将用户输入转化为可解释的数学模型，并设计了一种基于近端策略优化的分层深度强化学习方法，以优化无人机路径规划与任务执行资源分配。实验表明，该框架在任务截止时间满足率和产品收集成功率方面表现出色，性能稳定且优于传统方法。

Comments 15 pages

2605.13218 2026-05-14 cs.LG

Machine Learning-Driven Multimodal Spectroscopic Liquid Biopsy for Early Multicancer Detection

Alejandro Leonardo García Navarro, Javier Cachón Ortiz, Javier González Colsa, Samuel García Díaz, Carlos Viadero Valderrama

AI总结该研究提出了一种基于多种光谱技术与机器学习的多模态液态活检方法，用于早期多癌种检测。通过结合傅里叶变换红外光谱（FTIR）、拉曼光谱和激发-发射矩阵（EEM）荧光光谱，并利用机器学习进行数据融合与分类，实现了对乳腺癌和结直肠癌的高精度检测。实验结果表明，多模态融合方法在灵敏度和特异性方面表现出更均衡的优异性能，ROC-AUC值分别达到0.997和0.994。

2605.13208 2026-05-14 cs.RO

Calibration-Free Gas Source Localization with Mobile Robots: Source Term Estimation Based on Concentration Measurement Ranking

Wanting Jin, Agatha Duranceau, İzzet Kağan Erünsal, Alcherio Martinoli

AI总结本文研究了无需校准的移动机器人气体源定位问题，提出了一种基于浓度测量排名的源项估计方法。该方法通过比较动态采集数据与物理扩散模型之间的浓度排名差异，估计气体源在环境中的概率分布，从而实现高效定位。该方法避免了低成本传感器校准的需求，在仿真和实际实验中均表现出良好的定位精度，适用于真实场景中的应急监测等应用。

Comments This paper has been accepted for publication in the IEEE International Conference on Robotics and Automation (ICRA), 2026

2605.13207 2026-05-14 cs.LG

Switching Successor Measures for Hierarchical Zero-shot Reinforcement Learning

Stefan Stojanovic, Alexandre Proutiere

AI总结本文研究了如何在零样本强化学习中实现分层控制，提出了一种称为“切换继承者度量”的方法，无需额外监督、固定时间范围或手动设计子目标即可实现分层决策。该方法基于经典继承者度量进行扩展，保持其结构特性，并在此基础上设计了FB $π$-Switch算法，能够从正向-反向表示中直接提取高层子目标策略和底层控制策略，从而实现分层行为。实验表明，该方法在目标条件任务和一般奖励任务中均优于非分层基线，并在目标条件任务中达到现有分层方法的性能水平。

2605.13202 2026-05-14 cs.CV cs.AI

STAR: Semantic-Temporal Adaptive Representation Learning for Few-Shot Action Recognition

Hongli Liu, Yu Wang, Shengjie Zhao

AI总结本文研究了少样本动作识别（FSAR）中的语义-时序对齐问题，提出了一种统一的语义-时序自适应表示学习框架STAR。该方法通过引入时序语义注意力机制和语义时序原型细化模块，有效解决了文本提示与动作序列中稀疏视觉线索的对齐问题，并增强了对多尺度时序动态的建模能力。实验表明，STAR在多个基准数据集上均优于现有方法，验证了其在有限样本条件下的有效性。

Comments Accepted for publication in IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)

详情

DOI: 10.1109/TCSVT.2026.3688705

英文摘要

Few-shot action recognition (FSAR) requires models to generalize to novel action categories from only a handful of annotated samples. Despite progress with vision-language models, existing approaches still suffer from semantic-temporal misalignment, where static textual prompts fail to capture decisive visual cues that appear sparsely across sequences, and from inadequate modeling of multi-scale temporal dynamics, as short-term discriminative cues and long-range dependencies are often either oversmoothed or fragmented. To address these challenges, we propose Semantic Temporal Adaptive Representation Learning (STAR), a unified framework, consisting of a semantic-alignment component and a temporal-aware component, effectively bridging the semantic and temporal gaps and transferring the sequence modeling capability of Mamba into the FSAR. The semantic alignment module introduces a Temporal Semantic Attention (TSA) mechanism, which performs frame-level cross-modal alignment with textual cues, ensuring fine-grained semantic-temporal consistency. The temporal-aware module incorporates a Semantic Temporal Prototype Refiner (STPR) that integrates semantic-guided Mamba blocks with multi-frequency temporal sampling and bidirectional state-space refinement, yielding semantically aligned prototypes with enhanced discriminative fidelity and temporal consistency. Furthermore, temporally dependent class descriptors derived from large language models (LLMs) provide long-range semantic guidance. Extensive experiments on five FSAR benchmarks demonstrate the consistent superiority of STAR over state-of-the-art methods. For instance, STAR achieves up to 8.1% and 6.7% gains on the SSv2-Full and SSv2-Small datasets under the 1-shot setting, and 7.3% on HMDB51, validating its effectiveness under limited supervision. The code is available at https://github.com/HongliLiu1/STAR-main.

URL PDF HTML ☆

赞 0 踩 0

2605.13200 2026-05-14 cs.LG cs.ET

A Hybrid Tucker-LSTM Tensor Network Model for SOC Prediction in Electric Vehicles

Han Wang, Ying Wang, Bing Wang

AI总结本文提出了一种结合 Tucker 张量分解与长短期记忆网络（LSTM）的混合模型，用于电动汽车电池荷电状态（SOC）的预测。该方法利用全生命周期的电动汽车实际运行数据，通过 Tucker 分解在保持时间结构的同时降低数据维度，从而提升 LSTM 的预测性能。实验结果表明，该混合模型在多个评估指标上均优于传统 LSTM，显著提高了 SOC 预测的准确性，为基于张量分析的电池管理系统提供了新的研究方向。

2605.13197 2026-05-14 cs.LG cs.AI

McCast: Memory-Guided Latent Drift Correction for Long-Horizon Precipitation Nowcasting

Penghui Wen, Yu Luo, Lintao Wang, Mengwei He, Patrick Filippi, Thomas Francis Bishop, Zhiyong Wang

AI总结现有的降水临近预报方法通常采用自回归框架，但这种方法在长时间预测中容易累积误差，导致预报偏离物理合理的演变轨迹。为了解决这一问题，本文提出 McCast，一种基于记忆引导的潜在漂移校正方法，通过引入时序组织的记忆库，主动校正自回归过程中的潜在演变偏差，从而生成更加时序一致且可靠的长期预报。实验表明，McCast 在 SEVIR 和 MeteoNet 两个基准数据集上取得了最先进的性能，尤其在长期预报任务中表现突出。

2605.13194 2026-05-14 cs.LG cs.AI

ECG-NAT: A Self-supervised Neighborhood Attention Transformer for Multi-lead Electrocardiogram Classification

Mahsa Gazeran, Sayvan Soleymanbaigi, Fatemeh Daneshfar, Amjad Seyedi, Fardin Akhlaghian Tab

AI总结本文提出了一种名为ECG-NAT的自监督邻域注意力变换器，用于多导联心电图（ECG）分类。该方法通过分两阶段训练：首先使用掩码自编码器在未标注数据上进行生成式预训练，学习鲁棒的跨数据集特征表示；随后通过结合监督对比损失和交叉熵损失的双损失函数进行判别式微调，提升分类性能。ECG-NAT采用分层注意力机制，高效捕捉从细粒度心跳形态到更广泛节律模式的多尺度时间特征，在少量标注数据下仍能取得优异的分类准确率，适用于实时心电诊断场景。

2605.13192 2026-05-14 cs.RO

Dynamics Computation of Soft-Rigid Hybrid-Link System and Its Application to Motion Analysis of an Athlete Wearing Sport Prosthesis

Sunghee Kim, Yuta Shimane, Taiki Ishigaki, Ko Yamamoto

AI总结本文提出了一种基于软刚混合连杆系统的运动分析框架，用于分析佩戴运动专用柔性假肢的运动员动作。该方法通过统一建模刚性人体骨骼与柔性假肢的相互作用力，解决了传统刚体多连杆模型难以处理柔性部件的问题。研究应用混合连杆系统的逆运动学进行动作重建，并通过逆动力学估计关节力矩和地面反作用力，实验表明地面反作用力估计误差约为12%，同时考虑了截肢后的肌肉力与假肢变形的相互作用。

2605.13190 2026-05-14 cs.LG cs.AI

N-vium: Mixture-of-Exits Transformer for Accelerated Exact Generation

Aleksander Lorenc, Frédéric Berdoz, Joël Mathys, Roger Wattenhofer

AI总结本文提出了一种名为N-vium的混合退出Transformer模型，旨在提升自回归Transformer的推理效率。该方法通过在不同深度添加预测头，并采用自适应路由机制，将计算部分并行化，从而提高每秒的计算效率，而非单纯减少每个token的计算量。实验表明，N-vium在保持相同困惑度的前提下，实现了比标准Transformer高达57.9%的运行速度提升。

2605.13182 2026-05-14 cs.CV

DiffST: Spatiotemporal-Aware Diffusion for Real-World Space-Time Video Super-Resolution

Zheng Chen, Ruofan Yang, Jin Han, Dehua Song, Zichen Zou, Chunming He, Yong Guo, Yulun Zhang

AI总结 DiffST 是一种高效的时空感知扩散框架，旨在解决真实场景下的时空视频超分辨率（STVSR）问题。该方法通过引入跨帧上下文聚合和视频表示引导模块，提升了对时空信息的利用效率，并采用一步采样策略提高了推理速度。实验表明，DiffST 在多个真实场景任务中取得了领先的性能，且推理速度比现有方法快约17倍。

Comments Code is available at: https://github.com/zhengchen1999/DiffST

2605.13181 2026-05-14 cs.LG cs.AI

Stable Attention Response for Reliable Precipitation Nowcasting

Penghui Wen, Zexin Hu, Sen Zhang, Patrick Filippi, Xiaogang Zhu, Allen Benter, Thomas Bishop, Zhiyong Wang, Kun Hu

AI总结降水临近预报由于大气动力学的高度局部化、快速变化和异质性而具有挑战性。尽管近期方法在单模态和多模态设置中越来越多地采用基于注意力的架构，但主要关注于增强表示学习和预测能力，而忽视了注意力响应在不同样本间的稳定性。本文提出HARECast，一种基于头级注意力响应能量调控的降水临近预报框架，通过减少注意力响应能量在样本间的波动，提升预测的稳定性与可靠性，并在多个基准数据集上取得了最先进的性能。

2605.13179 2026-05-14 cs.CV

Does Engram Do Memory Retrieval in Autoregressive Image Generation?

Jinghao Wang, Qiyuan He, Chunbin Gu, Pheng-Ann Heng

AI总结该研究探讨了Engram模块在自回归图像生成中的作用，发现其虽能减少计算量，但并未提升生成图像的质量。通过实验分析表明，Engram模块更像是一个带有门控机制的辅助路径，而非内容寻址的回忆机制。研究进一步指出，Engram模块对生成结果的改进主要来源于其结构本身，而非记忆表中的内容。

Comments 9 pages

详情

英文摘要

The Engram module -- a hash-keyed, O(1) associative memory injected into Transformer layers -- was recently shown to improve large language model pretraining, with the appealing interpretation that it provides a content-addressed shortcut to recurring local token patterns. We ask whether this interpretation transfers to autoregressive (AR) image generation, or whether the observed gains, if any, come from a different mechanism. We adapt the Engram module to vision with 2D spatial $n$-gram hashing, gated fusion, and KV-cache-compatible incremental inference, and inject it into a class-conditional AR generator trained on ImageNet 256x256. Across a sweep of backbone-to-memory budget ratios $ρ{\in}[0.17, 0.90]$, every Engram-augmented variant trails the pure AR baseline in FID, indicating that the module saves backbone FLOPs but does not, by itself, improve sample quality. We then probe how the module is used. A gate-clamp sweep shows that disabling the Engram pathway entirely is catastrophic, yet a tiny constant gate (g=0.10) matches or beats the learned gate -- inconsistent with a heavily content-addressed recall mechanism. A donor-probe experiment shows that swapping the hash inputs for matched, adversarial, or random same-class exemplars produces statistically indistinguishable next-token distributions, while collapsing or randomising the table degrades them by two to three orders of magnitude. Finally, training a model from scratch with the entire memory table frozen to $\mathcal{N}(0, 1)$ noise costs only $Δ\text{FID}{=}0.10$ and actually raises Inception Score. Together, these findings indicate that the Engram in AR image generation behaves not as a content-addressed retriever but as a gated architectural side-pathway: a hash-keyed residual stream whose benefit is dominated by the pathway itself, with the learned table contributing only a small distributional refinement.

URL PDF HTML ☆

赞 0 踩 0

2605.13171 2026-05-14 cs.AI

Formal Conjectures: An Open and Evolving Benchmark for Verified Discovery in Mathematics

Moritz Firsching, Paul Lezeau, Salvatore Mercuri, Miklós Z. Horváth, Yaël Dillies, Calle Sönne, Eric Wieser, Fred Zhang, Thomas Hubert, Blaise Agüera y Arcas, Pushmeet Kohli

AI总结随着自动推理系统的发展，亟需高质量的数学问题用于评估其能力。为此，研究者提出了“Formal Conjectures”，一个包含2615个用Lean 4形式化的问题的持续演进基准，涵盖836个已解决的问题和1029个未解的数学猜想，用于评估自动证明发现的能力。该基准通过协作开源项目确保形式化正确性，并利用AI生成的证明与反例进行持续优化，已在实际中推动了新的数学发现。

Comments 21 pages, 4 figures, 5 tables