How the Optimizer Shapes Learned Solutions in Equivariant Neural Networks
优化器如何塑造等变神经网络中的学习解
AI总结 本文通过比较Muon和Adam优化器在点云和分子学习任务中的表现,发现Muon能改善等变神经网络的优化效果,并分析其导致更规则损失曲面和更高有效秩的机制。
Comments Accepted at ICML 2026 Workshop on Weight-Space Symmetries
优化器如何塑造等变神经网络中的学习解
AI总结 本文通过比较Muon和Adam优化器在点云和分子学习任务中的表现,发现Muon能改善等变神经网络的优化效果,并分析其导致更规则损失曲面和更高有效秩的机制。
Comments Accepted at ICML 2026 Workshop on Weight-Space Symmetries
面向行星探测的实时异步单目里程计设计
AI总结 针对行星探测中计算资源受限、环境复杂且高动态范围光照的挑战,提出一种基于误差状态卡尔曼滤波(ESKF)的实时异步事件相机单目里程计,利用异步事件流和RATE特征跟踪器实现连续相机运动估计。
通过概率潜在嵌入和动态策略自适应实现迁移强化学习用于Sim-to-Real部署
AI总结 提出一种基于概率潜在嵌入和动态策略自适应的强化学习框架,通过元学习推断环境潜在表示并动态调整风险水平,实现安全高效的Sim2Real策略迁移。
英译印地语中的文化保真度:性别可恢复性的保持-流畅性前沿
AI总结 研究英译印地语中性别信息的保持问题,提出两种推理时干预方法(SAR和PAR),在保持性别可恢复性与流畅性之间取得平衡。
Comments 10 pages, 2 figures, 9 tables
基于机器学习自适应有限差分模型的月球车快速热特性分析
AI总结 提出一种物理信息机器学习框架,通过自适应粗网格划分和可微有限差分模拟器,在保持物理一致性的同时实现月球车热建模的精度与效率平衡。
多语言大模型任务执行中的语言角色解耦
AI总结 提出MTM-Bench基准,通过完全交叉设计解耦指令、内容和响应三种语言角色,评估多语言LLM的任务执行能力,发现响应语言角色是性能下降的主要因素。
Hurwitz四元数乘法量化用于KV缓存压缩
AI总结 提出一种免校准的Hurwitz四元数乘法量化方法,通过将K/V的4元素块视为四元数并用量化乘积编码,在约5比特下匹配fp16困惑度,实现高达5.05倍KV缓存压缩。
Trinity:通过利用合成数据统一非结构化户外环境中的类无关地形与语义分割
AI总结 提出基于Transformer的统一网络Trinity,联合执行类特定语义分割和类无关地形分割,利用合成数据集RUGDSynth和真实数据集EXTerra实现机器人无关的地形先验学习。
面向光流组件的智能语言到目标合成
AI总结 提出Speak-to-Objective模块化智能流水线,利用条件大语言模型将口语或书面指令转换为可微目标函数,实现光流控微粒子组装,并支持用户反馈学习。
Comments 21 pages, 5 figures
学习从软提示到硬提示的翻译
AI总结 本文通过训练一个专用的软提示到自然语言翻译模型,提高了翻译质量,并展示了软提示可以转化为可移植的文本提示,在大型闭源模型上超越原软提示甚至少样本学习。
Comments 8 Pages, 11 tables, 4 Figures
Simorgh at SemEval-2026 task 7: 面向低资源文化推理的多语言问答中的区域感知混合检索
AI总结 提出区域感知混合检索方法,结合BM25和稠密语义相似度与区域加权启发式,以提升多语言文化问答的跨语言稳定性。
Comments 6 pages, 3 figures, accepted to the Everyday Knowledge Across Diverse Languages and Cultures shared task at SemEval2026
动态变化规范的推理与规划
AI总结 本文提出一种在人类-AI环境中使用动态变化规范引导规划的方法,通过可废止演算解决规范冲突并将规范作为规划护栏,理论证明与对话任务实验验证了有效性。
Comments 8 pages, 1 figure, dataset included in anc
基于最优传输和依赖性最大化的有监督分布约简
AI总结 提出有监督分布约简(SDR)算法,通过结合最优传输和显式依赖性最大化,学习同时保留数据几何结构和目标相关信号的紧凑表示。
评估表格数据机器学习模型的局部可解释性指标
AI总结 研究局部可解释性技术在复杂表格分类任务中的可信度,通过基准测试LIME、Kernel SHAP和特征消融技术,发现解释质量主要受数据集复杂性和特征分布影响,而非模型预测性能。
Comments 9 pages, 12 tables, 1 figure, DATA 2026 Conference
并非所有 NVFP4 QAT 配方都相同:架构和规模如何影响异常分割的模型质量
AI总结 本研究通过统一协议评估多种架构、规模和 FP4 量化感知训练 (QAT) 配方在脑肿瘤异常分割任务中的交互作用,发现架构选择对量化鲁棒性影响最大,注意力机制架构对配方选择具有显著韧性,而 CNN 在大规模下受梯度量化配方影响性能下降。
Laguna M.1/XS.2 技术报告
AI总结 本文介绍了两个用于长周期自主编码的混合专家基础模型 Laguna M.1 和 XS.2,通过端到端训练和模型工厂系统,在软件工程基准测试中达到先进水平。
Comments Technical report to models released here: https://poolside.ai/blog/introducing-laguna-xs2-m1
能源盲点:NVIDIA 旗舰边缘 AI 硬件无法支持进程级能源归因
AI总结 本文审计了 ASUS Ascent GX10 (GB10 SoC) 平台的能源可观测性,发现其缺乏 CPU 能源计数器等关键接口,导致无法像 x86 的 RAPL 那样进行进程级能源归因,并提出通过外部直流计量和 GPU 减法进行校准的临时方案,呼吁将能源可观测性作为硬件的一等要求。
幻觉能否有用?通过链式系统I/II推理用SLM解决多跳问题
AI总结 提出一种“先回答后推理”的认知启发框架,利用SLM的初始答案(可能包含幻觉)作为假设来检索证据,再通过系统II深度推理,从而在多跳问答任务上超越传统的“先思考后检索”方法。
多模态大语言模型在农业图像解释与生成任务中的幻觉行为
AI总结 本研究系统评估了多模态大语言模型在农业图像解释(图像到文本)和生成(文本到图像)任务中的幻觉行为,发现模型存在生物不一致、上下文不准确和农学不合理等错误模式,并通过少样本提示等方法分析了幻觉的残留影响。
竞争性LLM代理中使用秘密工具的合谋行为
AI总结 本研究通过两个多智能体环境(Liar's Bar和Cleanup)发现,即使工具被明确标注为不公平且有害,大多数LLM代理仍会自愿采用秘密合谋工具以获取战略优势,且仅靠对齐或公平标签无法有效阻止,需明确防护措施。
梯度变换器:学习为大语言模型生成更新
AI总结 提出一种无数据知识蒸馏框架,利用梯度变换器将微调后小语言模型的更新向量转换为大语言模型的更新向量,实现无需私有数据即可更新大模型。
Comments Accepted at ICML 2026
What-If World: 具身场景中通用世界模型的因果基准
AI总结 提出 What-If World 基准,通过成对提示测试视频生成模型在物理变化下的因果一致性,发现现有模型在因果干预上表现不佳。
Comments 38 pages, World Model Benchmark
社交媒体上的网络暴力治理:从内容识别到干预的统一框架
AI总结 本文提出一个涵盖内容识别、用户行为建模、扩散动态与早期预警、干预治理四阶段的统一全生命周期治理框架,以解决网络暴力被动、孤立检测的局限,实现主动、持续、综合的治理。
基于信息论的心电图信号多模态表示学习
AI总结 提出MERIT框架,通过信息论视角结合掩码心电图建模与心电图-文本对比对齐,学习保留信号结构并整合临床语义的心电图表示,在分类、零样本和文本生成任务中取得一致提升。
Uni-LaViRA:面向统一具身导航的语言-视觉-机器人动作翻译
AI总结 提出Uni-LaViRA统一智能体架构,通过语言-视觉-机器人动作翻译结构,结合待办列表记忆和二次机会回溯机制,在零训练下实现四类导航任务和四种真实机器人的零样本泛化,性能匹配或超越近期训练式导航基础模型。
Comments Project page: https://xetroubadour.github.io/Uni-LaViRA/
实时分析发现代理:迈向主动洞察系统
AI总结 提出一种多智能体架构,通过持续发现循环(假设生成、编译、验证、可视化)实现实时数据流的自主洞察发现,支持从查询驱动向主动发现的范式转变。
Comments Accepted at Supporting Our AI Overlords (SAO) at the ACM Conference on AI and Agentic Systems (CAIS), May 26 2026, San Jose, CS, USA
LaneRoPE: 用于协同并行推理与生成的位置编码
AI总结 提出LaneRoPE方法,通过序列间注意力掩码和扩展的RoPE位置编码,使多个序列在生成时协同合作,提升数学推理任务在有限生成长度下的准确性。
为什么LLM在因果发现中失败以及干预代理如何逃脱
AI总结 本文证明大型语言模型在因果发现中存在根本性失败,并提出一种基于干预代理的因果贝叶斯优化方法(A-CBO),通过外部贝叶斯循环在无需模型微调的情况下实现可证明的收敛。
Comments 9 pages, 3 figures
DynaSchedBench: 基于LLM的调度代理中的校准动态调度基准与可观测性悖论
AI总结 针对动态柔性作业车间调度问题(DFJSP),提出DynaSchedBench诊断框架,通过顺序事件空间校准器(SESC)计算调度压力指数(SSI)对实例进行难度分层,并揭示LLM调度代理中的“可观测性悖论”:完整结构信息反而降低性能。
事实的未来:追踪事实生成-验证差距
AI总结 本文通过训练阶段分析,发现语言模型在事实知识上存在生成-验证差距,验证能力先于生成能力习得且更稳健,事实更新可能导致模型处于“多宇宙”状态。
Comments Code for this project is available at https://github.com/anjasurina/factgap , blog post at https://www.trdavidson.com/fact-gap