Tango3D: Towards Alignment for Global and Local 2D-3D Correspondence
Tango3D: 向全局和局部2D-3D对应关系对齐迈进
AI总结 本文提出Tango3D,一种统一密集对应和全局检索的3D基础模型,通过几何感知的2D视觉骨干网络和预训练的3D VAE将图像编码为2D片段,点云编码为3D标记,并映射到共享空间以实现局部像素-点对齐和全局语义对齐。
Tango3D: 向全局和局部2D-3D对应关系对齐迈进
AI总结 本文提出Tango3D,一种统一密集对应和全局检索的3D基础模型,通过几何感知的2D视觉骨干网络和预训练的3D VAE将图像编码为2D片段,点云编码为3D标记,并映射到共享空间以实现局部像素-点对齐和全局语义对齐。
通过块近似稀疏注意力实现扩散语言模型的高效长上下文建模
AI总结 本文提出了一种块近似稀疏注意力框架(BA-Att),通过块级预下采样操作识别信息区域,避免依赖脆弱的位置先验,从而在保持高性能的同时提升计算效率,实验表明其在注意力计算上比FlashAttention快6.95倍,并在50%稀疏度下保持接近全注意力性能。
Comments CVPR 2026 Findings paper
大型语言模型中的数学推理:基准测试、架构、评估与开放挑战
AI总结 本文综述了大型语言模型在数学推理方面的最新进展,通过分析数据集、架构、训练策略和评估协议,探讨了数学推理的基准测试、架构设计、评估方法以及未来的研究挑战。
投影潜在RL动作:面向通用化和可扩展的图组合优化
AI总结 本文提出了一种新的RL-GCO方法,通过在连续GNN动作嵌入空间中直接操作,实现高效的图组合优化解算,提升了通用性和可扩展性。
Comments Preprint
CAIT:一种用于儿童-成人互动的句法解析工具包
AI总结 本文提出了一种专门针对CHILDES数据的句法解析工具包CAIT,通过训练先进的依赖解析器和标注工具,提升了对儿童-成人互动句法模式的解析精度,适用于语言习得的大规模可重复研究。
物理闭环:一种混合代理架构用于验证的CAD工程设计
AI总结 本文提出了一种混合代理-物理架构,通过将经过验证的知识工程工具直接嵌入到自主AI代理的决策循环中,以解决大型语言模型在生成CAD设计时缺乏物理理解的问题。该方法通过显式的物理验证指导闭环、顺序决策过程,提高了生成CAD设计的物理正确性。
Comments Accepted in IJCAI-ECAI 2026 (Special Track on AI4Tech)
基于大型语言模型的阿拉伯语金融情绪分析:来自沙特市场的证据
AI总结 本文提出了一种针对沙特市场的阿拉伯语NLP框架,用于大规模金融情绪分析,结合官方财务新闻和社会媒体数据,通过多阶段流程构建阿拉伯语财务语料库,并利用Transformer-based NER和定制公司词典进行情绪标注,最终实现了对公司层面的情绪聚合和情绪动态分析。
Comments Accepted at the 7th Workshop on Open-Source Arabic Corpora and Processing Tools (OSACT7), co-located with LREC 2026, Palma de Mallorca, Spain, May 2026. ISBN: 978-2-493814-52-4
具有物理信息的模拟框架用于真实声纳图像生成和统计验证
AI总结 本文提出了一种基于物理的模拟框架ACOUSIM,用于生成真实声纳图像并进行统计验证,通过比较合成与真实声纳图像的统计特性,建立了可重复的分布级基准。
大型语言模型能否可靠地纠正低资源语音识别中的错误?一项考虑数据污染的西弗里西语案例研究
AI总结 本研究探讨了大型语言模型在低资源语言(如西弗里西语)中通过生成性错误纠正(GER)提升语音识别(ASR)性能的效果,发现GER在大多数设置中提升了ASR性能,并通过详细的错误分析揭示了模型的纠正模式。
Comments Submitted to Interspeech 2026
KIO-planner: 基于双映射的注意力引导单阶段运动规划用于无人机导航
AI总结 本文提出KIO-planner,一种基于注意力引导的单阶段轨迹规划框架,通过整合CBAM模块和双映射机制,实现了在密集障碍环境中低延迟、可靠的运动规划,提高了导航的敏捷性和安全性。
Comments Accepted by an IEEE Vehicular Technology Conference. 6 pages, 4 figures, 1 table
多会话低动态环境下的地面纹理SLAM
AI总结 本文研究了在低动态环境中多会话地面纹理SLAM中的轨迹估计精度影响,探讨了三种技术的影响,发现Kullback-Leibler散度在相似度评分和闭环置信度偏置方面效果最佳,并介绍了一个包含多会话图像和高精度姿态信息的数据集。
Comments 8 pages, 9 figures. To appear at the 23rd International Conference on Ubiquitous Robots, Osaka, Japan. Distribution Statement A: Approved for public release; distribution is unlimited, as submitted under NAVAIR Public Release Authorization 2025-0098
WBCAtt+: 细粒度像素级形态学标注用于白血球图像
AI总结 本文提出WBCAtt+数据集,通过11个形态学属性和5个像素级细胞组件的密集标注,为白血球图像提供了全面的标注,用于改进属性识别和语义分割的基准模型,并展示了可解释AI模型等应用。
Comments Accepted to Medical Image Analysis. arXiv admin note: substantial text overlap with arXiv:2306.13531
D-CLING: 保留先验知识的深度条件细调方法用于导航基础模型
AI总结 本文提出了一种新的细调方法,通过利用大规模预训练同时高效学习新环境或相机配置等新设置,从而在保留预训练知识的同时提升导航模型的鲁棒性和准确性。
Comments This paper has been accepted to the 2026 IEEE International Conference on Robotics and Automation (ICRA 2026), which will be held in Vienna, Austria, from June 1 to 5, 2026
DocQT: 通过多样化的JPEG量化表提高文档伪造定位的鲁棒性
AI总结 本文提出DocQT数据集,通过对比不同架构在不同量化表训练下的表现,证明标准质量因子增强无法代表实际压缩多样性,并展示了显式考虑量化表的架构在实际部署中的鲁棒性优势。
RoVLA: 多一致性约束用于鲁棒的视觉-语言-动作模型
AI总结 本文提出RoVLA框架,通过多一致性约束提升视觉-语言-动作模型的鲁棒性,通过指令语义、轨迹演变和观察扰动三种互补变换增强模型的稳定性和泛化能力。
代理发现冷冻微针制剂配方
AI总结 本研究提出了一种结合文献整理、高斯过程代理建模、贝叶斯优化和顺序湿实验验证的闭环工作流程,用于发现冷冻微针的冷冻保护剂配方,通过迭代湿实验验证提高了配方的准确性和有效性。
将约束程序转换为局部搜索的输入
AI总结 本文通过建立约束优化问题的对称性属性与局部搜索邻域之间的联系,自动从约束规范中生成邻域,用于IDP系统中的元启发式算法,并在六个经典优化问题上评估了生成的邻域。
Comments Unpublished paper accepted and presented at the Fourteenth International Workshop on Constraint Modelling and Reformulation (ModRef) in 2015
基于伪代码的结构化推理用于自动化可靠推理在视觉-语言模型中
AI总结 本文提出了一种基于伪代码的结构化推理框架(PStar),旨在通过自适应选择结构化伪代码推理路径,提高视觉-语言模型在复杂任务中的可靠性和鲁棒性,从而减少幻觉现象并提升推理性能。
OScaR:LLMs及更广泛场景中的极压缩KV缓存量化之奥卡姆之刀
AI总结 本文针对LLMs中KV缓存极压缩时的量化保真问题,提出OScaR框架,通过Canalized Rotation和Omni-Token Scaling有效缓解Token Norm Imbalance,实现近无损的INT2量化性能,同时提升解码速度和吞吐量。
Comments Under review
跨视图泼溅:基于地理参考图像的馈送视图合成
AI总结 本文提出了一种基于地理参考图像的馈送视图合成方法,通过融合正交校正的卫星图像与GPS标记的地面照片,预测统一3D坐标框架中的高斯泼溅,从而提升场景覆盖和新视角合成效果。
Comments Submitted to CVPR 2026. 8 figures, 3 tables. Project page: https://nianticspatial.github.io/cross-view-splatter/
K-量化及其对输出性能的影响
AI总结 本文研究了不同量化级别(2-6位)对大型语言模型(LLM)在MMLU-Pro、CRUXEval和MuSR等任务上的性能和准确性的影响,发现高精度量化(如8位Q8_0)能提升性能,但降维量化(如2位Q2_K)会带来性能损失,且不同模型和任务的响应差异显著。
Comments 13 pages, 4 figures
基于反思生成的基准测试与进化
AI总结 本文提出R^3-Bench基准和R^3-Refiner框架,用于评估和提升反思视觉生成能力,通过改进迭代推理和修正能力,提升文本到图像模型的生成质量。
P2DNav: 全景到俯视视角的零样本视觉-语言导航
AI总结 本文提出P2DNav框架,通过全景到俯视视角的分解、滑动窗口对话记忆和反思重新定位机制,解决零样本视觉-语言导航中的方向推理与局部定位问题,实验表明其在R2R-CE基准上性能优异。
optimize_anything: 一个用于优化任何文本参数的通用API
AI总结 本文提出了一种基于LLM的通用优化系统,能够跨不同领域实现文本参数的优化,展示了其在六个多样化任务中的state-of-the-art性能,通过多任务搜索和跨问题迁移实现了高效的优化。
Comments 16 pages, 11 figures; Blog: https://gepa-ai.github.io/gepa/blog/2026/02/18/introducing-optimize-anything/
HEAT: 基于轨迹引导的世界模型实现异构端到端自动驾驶
AI总结 本文提出一种基于轨迹引导的学习方法,通过规划轨迹组织训练,使模型能够捕捉驾驶意图的领域不变表示,并结合预测未来潜在特征的世界模型,提高特征一致性并缓解领域偏见,从而在多个异构数据集上实现强性能。
EMO-BOOST:情感增强的音频视觉特征用于深度伪造检测中的泛化改进
AI总结 本文提出EMO-BOOST框架,通过融合传统RGB和声学聚焦检测器与基于情感的EmoForensics检测器,利用高阶语义线索提升深度伪造检测的泛化能力,实验显示在FakeAVCeleb数据集上平均跨操纵泛化AUC提升了2.1%。
Comments Accepted at SAFE@CVPRW 2026
从线性查询中最优重建
AI总结 研究如何从近似线性查询中重建未知点,分析查询数量、维度和噪声参数对重建误差的影响,并提出一种改进的重建问题变体。
Comments Accepted to COLT 2026. 46 pages, 4 figures
PrAda:基于文本提示的分割的少样本视觉适应
AI总结 该研究针对文本提示分割在特定领域中的性能下降问题,提出了一种新的少样本视觉适应方法PrAda,通过结合细粒度像素特征和高层Transformer表示学习类特定原型,从而在不改变模型零样本潜力的情况下实现对新领域的强适应。
Comments CVPR 2026 Findings. Code: https://github.com/FocoosAI/PrAda
UniRefiner: 通过对比注册教会预训练ViTs自我处理杂质
AI总结 本文提出UniRefiner,一种通用 refinement 框架,通过对比注册方法教会预训练 ViT 自动处理空间敏感任务中的杂质 token,提升模型在密集预测任务中的表现。
Comments CVPR 2026
基于LiDAR的人体动作捕捉的贝塞尔退化建模
AI总结 本文提出BMLiCap框架,通过时间可压缩的贝塞尔曲线建模人体动作,采用轨迹保留策略减少控制点,设计渐进式动作重建模块,利用时间尺度运动变换器和多级动作聚合器有效融合多尺度曲线,以提高复杂场景下的动作重建精度和时间连续性。
Comments Accepted by CVPR 2026