Disentanglement with Holographic Reduced Representations
基于全息约简表示的解缠
发表机构 * Virginia Tech(弗吉尼亚理工大学) ; Worcester Polytechnic Institute(伍斯特理工学院)
AI总结 提出使用全息约简表示(HRR)的无监督解缠算法,利用HRR解绑操作提供归纳偏置,分离数据中的因子变化,并通过信息论分析证明其诱导近似独立的符号-值对。
基于全息约简表示的解缠
发表机构 * Virginia Tech(弗吉尼亚理工大学) ; Worcester Polytechnic Institute(伍斯特理工学院)
AI总结 提出使用全息约简表示(HRR)的无监督解缠算法,利用HRR解绑操作提供归纳偏置,分离数据中的因子变化,并通过信息论分析证明其诱导近似独立的符号-值对。
超越概率相似性:检索增强生成在法律领域的结构性、时间性和因果性局限
发表机构 * Federal Senate of Brazil(巴西联邦参议院)
AI总结 本文指出法律AI中RAG的失败源于概率检索与法律知识层次、时间及制度结构的架构不匹配,提出三种病理(部分盲、历时盲、因果不透明)并推导出确定性设计的四项架构承诺。
基于控制障碍函数的安全多面体在多面体内的运动规划与控制
发表机构 * KU Leuven(鲁汶大学)
AI总结 提出一种安全局部运动规划与控制方法,通过模型预测控制器中的离散时间控制障碍函数约束,保证多面体机器人足迹始终位于连续更新的凸自由空间内,计算时间随障碍物数量增加最多降低91倍。
什么让合成语音听起来讽刺?一项韵律控制的感知研究
发表机构 * University of Groningen(格罗宁根大学)
AI总结 通过可控神经TTS系统操纵语速、音高变化和响度,发现响度主要驱动人类对讽刺的感知,而模型更依赖语速,揭示了韵律线索权重差异。
代理奖励内化与机制性利用:奖励黑客及其泛化的学习前兆
发表机构 * UC Davis(加州大学戴维斯分校) ; Virginia Tech(弗吉尼亚理工大学)
AI总结 提出PRIME概念,通过思维链监控、直接探针和激活级概念向量测量,发现PRIME在持续奖励黑客前分阶段出现,且直接探针得分可预测后续黑客爆发,跨检查点跟踪域外失调。
IS-CoT: 通过交错结构思维打破长文本生成崩溃
发表机构 * Institute of Computer Science and Technology, Soochow University(苏州大学计算机科学与技术学院) ; Information Research Center of Military Science, PLA Academy of Military Science(军事科学院军事科学信息研究中心)
AI总结 针对大语言模型在长文本生成中因静态层次规划导致长度崩溃的问题,提出交错结构思维链(IS-CoT)框架,通过动态规划-写作-反思循环实现持续策略调整,训练IS-Writer-8B模型在长文本基准上取得最优性能。
BrainSurgery:用于模型编辑和升级的可复现且可靠的声明式权重操作
发表机构 * University of Southern Denmark(南丹麦大学)
AI总结 提出BrainSurgery工具,通过声明式YAML计划实现神经网络检查点的鲁棒可复现张量操作,支持结构修改、数学变换和张量重塑,内置断言验证防止静默错误。
局部评分模型何时能跨尺寸外推?诊断理论与基准
发表机构 * The University of Hong Kong(香港大学) ; Department of Physics and HK Institute of Quantum Science & Technology(物理系与香港量子科学与技术研究所)
AI总结 提出诊断理论,证明局部模型能否稳定外推取决于高斯平滑评分的准局部性,并引入有限深度局部流(FDLF)基准进行验证。
学习攻击与防御:通过GRPO对语言模型进行自适应红队测试
发表机构 * Microsoft AI Red Team(微软AI红队) ; Microsoft Azure(微软Azure)
AI总结 提出AdvGRPO框架,通过密集多通道奖励和分离优势归一化实现GRPO在攻击者-防御者联合优化中的稳定训练,产生高效可迁移攻击,防御者优于基线。
Cranio-Diff: 基于扩散的跨模态颅面重建,利用二维X射线颅骨引导和结构身份约束
发表机构 * Indian Institute of Technology Mandi(印度理工学院曼迪分校) ; CSVTU Bhilai(恰蒂斯加尔邦斯瓦米·维韦卡南达技术大学比莱分校)
AI总结 提出Cranio-Diff扩散框架,通过ControlNet的颅骨条件结构引导和生物特征文本条件,从2D X射线颅骨图像重建跨模态人脸,解决结构身份对齐问题,在120名受试者的颅面数据集上优于现有方法。
PsychoSafe:在大语言模型中引发基于心理学的拒绝
发表机构 * University of Southern Denmark(南丹麦大学) ; University of Turin(都灵大学) ; University of Hamburg(汉堡大学) ; University of Lübeck(吕贝克大学)
AI总结 提出PsychoSafe框架,将LLM的拒绝行为重构为基于证据干预策略的结构化支持性沟通,通过构建5个心理风险领域的8019个提示-响应对,对Qwen 3.5 27B进行提示和参数高效微调,在拒绝质量上比通用基线提升28.1%,同时保持非拒绝任务性能。
AutoMegaKernel:用于自我重定目标超内核合成的静态检查代理框架
发表机构 * RightNow AI
AI总结 提出AutoMegaKernel系统,将Llama模型编译为单个持久CUDA内核,通过静态调度验证器确保无死锁和无竞争,自动生成10种模型正确超内核,并在NVIDIA推理卡上以W8A16精度超越cuBLAS bf16。
SoccerNet 2026 以球员为中心的球类动作定位:FOOTPASS 基线的重训练与后处理扩展
发表机构 * GameChanger by Dick’s Sporting Goods(迪克体育用品的GameChanger)
AI总结 针对足球广播中八类动作的球员-动作-时间预测任务,在FOOTPASS基线上提出梯度检查点、GNN与DST融合、平方根频率类别加权和后处理流水线四项扩展,在测试集和挑战集上分别达到0.548和0.446的Macro F1。
基于转换的阿尔茨海默病数字孪生建模在稀疏纵向数据下的应用
发表机构 * University of Southampton(南安普顿大学) ; University Hospital Southampton NHS Foundation Trust(南安普顿大学医院NHS基金会信托) ; Faculty of Medicine, University of Southampton(南安普顿大学医学院)
AI总结 针对阿尔茨海默病进展异质性和数据稀疏问题,提出结合局部转换建模与序列建模的数字孪生框架,利用多模态纵向数据预测认知状态并量化不确定性,在ADNI数据上表现优异。
视觉提示结合基于特征重建的双教师监督异常检测
发表机构 * IBM Research Europe Zurich(IBM欧洲研究院苏黎世分院)
AI总结 针对异常检测在真实场景中因物体尺度、视角等变化失效的问题,提出视觉提示管道、解冻教师模型和扩散生成数据增强,在AeBAD数据集上提升3.5个百分点。
SpatialWorld: 在多模态智能体真实世界任务中基准测试交互式空间推理
发表机构 * Tsinghua University(清华大学) ; Chongqing University(重庆大学) ; Peking University(北京大学) ; ZenoMind AI ; Xi’an Jiaotong University(西安交通大学) ; Beijing Institute of Technology(北京理工大学) ; Southeast University(东南大学) ; Shanghai Jiao Tong University(上海交通大学) ; Joy Future Academy ; The University of Hong Kong(香港大学)
AI总结 提出SpatialWorld基准,集成8种异构模拟后端,通过760个人工标注任务评估多模态智能体在视觉部分可观测环境中的交互式空间理解,发现最强模型GPT-5任务成功率仅17.4%。
具有速率最优队列长度遗憾的上下文队列赌博机算法
发表机构 * KAIST(韩国科学技术院) ; Seoul National University(首尔大学)
AI总结 针对上下文队列赌博机问题,提出三阶段算法CQB-η-2,通过仅在截止轮前进行随机探索,将队列长度遗憾从Õ(T^{-1/4})改进到Õ(T^{-1/2}),并证明该速率在最小最大意义下最优。
基于频率的区间模式约束采样
发表机构 * Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Université Paris-Saclay, CNRS(巴黎-萨克雷大学数字科学跨学科实验室(LISN),法国国家科学研究中心) ; Université Caen Normandie, ENSICAEN, CNRS, Normandie Univ, GREYC UMR6072(卡昂诺曼底大学,卡昂国立高等工程师学校,法国国家科学研究中心,诺曼底大学,GREYC UMR6072)
AI总结 提出CFips方法,将用户定义的句法约束直接融入多步采样框架,通过分解为区间边界上的基本谓词实现精确采样,保证在约束模式空间中按频率比例采样,实验证明能完成超时失败的挖掘任务。
潜空间贝叶斯优化的上下文学习
发表机构 * Aalto University(阿尔托大学)
AI总结 针对潜空间贝叶斯优化中上下文学习模型与优化任务不匹配的问题,提出在分子VAE潜空间上定义合成优化任务进行持续预训练,并引入正则化器保持原始先验,显著提升分子优化性能。
从0到1再到N:MetaAI递归自我设计的可复现工程证据
发表机构 * The Hong Kong Polytechnic University(香港理工大学) ; Shanghai Maritime University(上海海事大学) ; Chizhou University(池州学院)
AI总结 提出可复现证据框架,通过四个标准评估现有系统,其中Darwin Goedel Machine在SWE-bench上提升30%,并给出可复现协议MetaAI-Mini。
当内置思考既有帮助又有害:指令遵循中的约束级错误转移
发表机构 * George Mason University(乔治梅森大学)
AI总结 研究大型推理模型(LRM)的思考模式对指令遵循的影响,发现思考会改变错误模式而非统一降低性能,其中规划类约束改善而精确类约束恶化,并通过分析思考轨迹和激活修补揭示了机制。
端到端上下文压缩的规模化
发表机构 * New York University(纽约大学) ; Modal Labs(Modal实验室) ; University of Maryland(马里兰大学) ; Princeton University(普林斯顿大学) ; Columbia University(哥伦比亚大学) ; Harvard University(哈佛大学) ; Lawrence Livermore National Laboratory(劳伦斯利弗莫尔国家实验室) ; FAIR at Meta(Meta FAIR实验室)
AI总结 本研究通过架构搜索和持续预训练,提出潜在上下文语言模型(LCLMs),一种端到端编码器-解码器压缩器,在通用任务性能、压缩速度和峰值内存上改进帕累托前沿,并可作为长时智能体的高效骨干。
Muon 比 Adam 学习更鲁棒和可迁移的特征
发表机构 * Yale University(耶鲁大学) ; National University of Singapore(新加坡国立大学) ; University of Chinese Academy of Sciences(中国科学院大学) ; Academy of Mathematics and Systems Science, CAS(中国科学院数学与系统科学研究院)
AI总结 本文通过鲁棒性和可迁移性视角,证明 Muon 优化器相比 Adam 和 SGD 能学习到更鲁棒、更可迁移的特征,并通过理论分析支持了经验发现。
超越准确率:机器翻译的社区视角
发表机构 * University of Technology Nuremberg(纽伦堡工业大学) ; University of Maryland, Baltimore County(马里兰大学巴尔的摩县分校) ; University of Aberdeen(阿伯丁大学)
AI总结 本文通过分析社交媒体上四个利益相关者社区(AI开发者、专业译者、语言学习者、语言服务提供商)的帖子,揭示机器翻译技术社区间的分歧与冲突,强调倾听用户社区需求的重要性。
基于概念的表征相似性的统一框架
发表机构 * Brown University(布朗大学) ; ENS Paris Saclay(巴黎萨克雷高等师范学校) ; CNRS(法国国家科学研究中心) ; DEEL - IRT Saint Exupéry(DEEL - IRT 圣埃克苏佩里) ; Goodfire
AI总结 提出统一框架分解概念对齐的两个轴(表征vs.概念、实例级vs.分布级),定义四种性质,并引入干预基准InterVenchA和耦合稀疏自编码器CoSAE,证明对齐是多目标问题。
视频基础模型是否理解直觉物理?逐层探测分析
发表机构 * University of Amsterdam(阿姆斯特丹大学)
AI总结 通过冻结特征探测,研究预训练视频基础模型在直觉物理信息上的编码能力,发现V-JEPA表现最佳,物理信息在中后期层最易获取,且时序破坏显著降低性能。
信息物理系统中的组件与连接建模
发表机构 * Vanderbilt University(范德堡大学)
AI总结 提出基于WebGME的模型集成工具ROSLaunchVisual,通过图形界面可视化ROS启动文件中的节点、发布者、订阅者和参数,提升开发效率和系统理解。
答案从何而来?面向自动驾驶的多视角MLLMs中视角级视觉证据识别基准
发表机构 * University of Waterloo(滑铁卢大学)
AI总结 针对多视角自动驾驶场景,提出一个基准测试,评估多模态大模型在视觉问答中识别支持性相机视角的能力,包含122个冲突中心问题对,并区分视角选择与答案正确性。
MAVIS: 通过结构化视频理解实现多智能体视频检索
发表机构 * School of Computing and Information Technology, Great Bay University(大湾区大学计算机与信息技术学院) ; College of Computer Science, Nankai University(南开大学计算机学院) ; Tsinghua Shenzhen International Graduate School, Tsinghua University(清华大学深圳国际研究生院) ; Graduate School of Information Science and Technology, The University of Tokyo(东京大学信息科学与技术研究生院)
AI总结 提出多智能体框架MAVIS,通过结构化语义库解析视频,利用逻辑感知辩论机制协作推理,无需全库扫描和微调即可实现高效视频检索。
面向欧拉-拉格朗日机器人动力学的物理感知稀疏学习与选择性在线自适应
发表机构 * The University of Manchester(曼彻斯特大学) ; International Institute of Information Technology Hyderabad(海得拉巴国际信息技术学院) ; Delft University of Technology(代尔夫特理工大学) ; Newcastle University(纽卡斯尔大学)
AI总结 提出一种保结构残差学习框架,将模型误差分解为惯性修正、科里奥利项和广义力残差,通过物理约束学习机械部分,并用稀疏历史依赖潜变量模型和贝叶斯线性回归在线自适应扰动敏感部分,提升多机器人平台动力学预测与轨迹跟踪性能。