Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval
Unveil: 统一视觉-文本集成与蒸馏的多模态文档检索
AI总结 提出Unveil框架,通过视觉-文本嵌入和知识蒸馏实现鲁棒的文档检索,兼顾布局与语义信息。
Comments ACL 2025 Main Conference
Unveil: 统一视觉-文本集成与蒸馏的多模态文档检索
AI总结 提出Unveil框架,通过视觉-文本嵌入和知识蒸馏实现鲁棒的文档检索,兼顾布局与语义信息。
Comments ACL 2025 Main Conference
MOSS:自主智能体系统中通过源代码级重写的自我进化
AI总结 提出MOSS系统,通过源代码级重写实现自主智能体系统的自我进化,利用生产故障证据自动批处理和多阶段确定性流水线,在OpenClaw上单周期内将平均评分从0.25提升至0.61。
Comments 12 pages, 3 figures, 2 tables. Preprint. Code: https://github.com/hkgai-official/Moss
AnyMo:野外人体运动的几何感知与设置无关建模
AI总结 提出AnyMo框架,通过物理模拟生成多样化IMU信号、图编码器预训练和LLM对齐,实现跨设备/数据集的零样本活动识别、跨模态检索和运动描述,性能显著提升。
ChronoVAE-HOPE:超越注意力——面向专业时间序列分类的下一代VAE基础模型
AI总结 提出ChronoVAE-HOPE,一种基于VAE和HOPE块(含Titans模块和连续记忆系统)的下一代时间序列基础模型,通过解耦潜在空间分离趋势与季节成分,在UCR基准分类任务上表现优异。
Meta-Soft: 利用可组合元标记实现上下文保持的KV缓存压缩
AI总结 提出Meta-Soft动态压缩框架,通过可学习正交基矩阵和Gumbel-Softmax选择网络合成元标记,结合注意力流整合机制保留丢弃上下文信息,解决KV缓存压缩中的信息丢失和上下文断裂问题。
Comments 9 pages, 2 figures
利用学习随机参数化分解 Lorenz '96 中的集合离散度
AI总结 本研究利用双尺度 Lorenz 1996 系统,通过比较多种集合配置和参数化策略,系统分析了内在变率、初始条件扰动和随机模型不确定性对集合离散度的影响,揭示了随机参数化特别是时间持续结构能增强早期离散度增长并改善离散度-误差一致性。
SMDD-Bench: 大语言模型能否解决真实世界的小分子药物设计任务?
AI总结 提出SMDD-Bench基准,通过502个多轮长时任务实例评估LLM在真实小分子药物设计中的表现,发现最优模型GPT5.4仅解决40.2%任务。
Look-Closer-Then-Diagnose: 通过主动缩放实现置信度感知的超声VQA
AI总结 提出一个模拟超声医师认知流程的框架,通过“缩放-诊断”范式和基于组相对策略优化的不确定性感知奖励,提升超声视觉问答中病灶定位和诊断性能。
排序重要:面向混合情感识别的排名感知选择性融合
AI总结 提出一种排名感知的多编码器框架,通过注意力门控模块选择最有效的编码器进行融合,并解耦预测为存在性和显著性头,结合无监督域适应,在混合情感识别任务中取得第二名成绩。
Comments Accepted at IEEE FG 2026 Workshops. Final system ranked 2nd in the BlEmoRE Challenge. 9 pages including appendix, 8 figures
图像编辑中的语义粒度导航
AI总结 提出NaviEdit,一种无需训练、推理时控制的解耦方法,通过自一致性约束将编辑进度与模型尺度解耦,在保持结构保真度的同时提升语义可编辑性。
Comments Accepted by ICML 2026
基于米勒指数的潜在晶体学断裂面推理与生成:视觉-语言模型方法
AI总结 研究多模态大语言模型能否利用米勒指数作为结构化潜在表示来推理断裂几何,实验表明模型在理想条件下可进行潜在推理,并能拒绝不适用物理的表示。
ClaimDiff-RL: 通过视觉声明比较进行细粒度描述强化学习
AI总结 提出ClaimDiff-RL框架,利用原子声明差异作为奖励单元,通过多模态判断器枚举视觉差异并分配错误类型和严重程度,以解决长描述强化学习中事实性与覆盖度的权衡问题。
AutoResearchClaw: 基于人机协作的自我强化自主研究
AI总结 提出AutoResearchClaw多智能体自主研究系统,通过结构化辩论、自愈执行、可验证报告、七种人机协作模式和跨运行进化机制,在ARC-Bench基准上比AI Scientist v2提升54.7%。
当技能无济于事:关于程序性知识在进攻性网络安全中工具型智能体的负面结果
AI总结 本文通过重新分析一项控制实验,发现当环境反馈带宽高时,技能(Skills)对智能体性能的边际效益消失甚至产生负面影响,并提出了可证伪的假设。
Comments Accepted as a poster at ACM CAIS 2026 AgentSkills Workshop
尺度思考:通过自适应连续推理加速千兆像素病理图像分析
AI总结 提出PathCTM模型,通过动态尺度切换和注意力引导的区域剪枝实现高效连续推理,大幅减少计算开销并保持诊断性能。
Comments Accepted to ICML 2026
资源受限硬件上扑翼机器人的神经形态控制
AI总结 针对重量小于30克的蝴蝶仿生扑翼机器人,提出一种层次化神经形态控制框架,在低成本ESP32微控制器上部署两个轻量级脉冲神经网络实现状态估计与控制,通过模仿学习训练,在无系留飞行中实现稳定俯仰和航向跟踪,相比传统人工神经网络延迟降低36%、功耗降低18%。
解锁持续模型合并的潜力:ODE视角
AI总结 提出ODE-M框架,将持续模型合并建模为参数空间中的轨迹,通过整流时变速度场和效用感知时间调度平衡历史知识与新任务,提升长任务流性能。
Comments 21 pages, 8 figures
前沿模型的成长之痛:当排行榜不再区分以及接下来衡量什么
AI总结 本文通过分解SWE-bench和GPQA Diamond分数为种群耦合趋势和每版本残差(h场),诊断前沿模型能力之间的协作与权衡,并提供三步诊断法、每实验室测量优先级表及七个可证伪预测。
Comments 13 pages, 5 figures, 4 tables. Companion paper: "Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling." ( https://doi.org/10.48550/arXiv.2605.18838 ). Code: https://github.com/adilamin89/cape-scaling . Dashboard: https://zehenlabs.com/cape/
KairosHope: 一种基于双记忆架构的下一代时间序列基础模型,用于专门分类
AI总结 针对标准注意力计算瓶颈和经典统计知识缺失问题,提出KairosHope模型,通过双记忆系统(Titans模块和连续记忆系统CMS)替代二次注意力,并融合深度表示与统计特征的混合决策头,在UCR基准上实现优越分类性能。
不要猜测,只需询问:通过多轮澄清解决指代分割中的歧义
AI总结 提出IC-Seg框架,通过多轮对话主动澄清用户意图,并引入Hi-GRPO分层优化策略,有效解决指代分割中用户查询歧义问题。
VLA 推理是否忠实?自动驾驶模型中因果链的安全性探究
AI总结 通过分析300次VLA推理,发现输出推理与轨迹的忠实度仅42.5%,存在大量漏检行人、轨迹脆弱及推理-动作不一致问题,并提出了信息论忠实度形式化定义与安全架构。
Comments Accept (Poster), CVPR 2026 Workshop DriveX NonArchival Track
少样本示例如何累加:上下文学习中函数向量的因果分解
AI总结 本文通过因果分解揭示少样本提示中函数向量由示例级子向量线性组合而成,并发现模型通过注意力重加权机制根据上下文调整示例贡献。
Comments Accepted at ICML 2026. 70 pages, 65 figures
多语言OCR感知微调和提示引导的链式思维推理用于多模态大语言模型
AI总结 提出一种多语言OCR感知的多模态训练框架,通过合成数据生成、OCR感知微调和结构化视觉链式思维提示,提升多模态大语言模型在复杂视觉条件下的OCR完整性和多语言翻译准确性。
OHP-RL:在线人类偏好作为机器人操作强化学习中的指导
AI总结 提出OHP-RL框架,利用人类干预作为偏好信息,通过状态依赖偏好门自适应调节策略学习,在Franka机器人接触丰富的操作任务中实现高成功率、快速收敛和低人类干预。
SaaS-Bench:计算机使用代理能否利用真实世界SaaS解决专业工作流程?
AI总结 提出SaaS-Bench基准,包含23个可部署SaaS系统和106个真实工作场景任务,评估计算机使用代理在长期规划、跨应用协调等能力上的表现,发现最强模型端到端任务完成率不足4%。
Comments 24 pages, 11 figures
DimMem:面向高效长期智能体记忆的维度结构化
AI总结 提出DimMem维度记忆框架,通过原子化、类型化、自包含的记忆单元(含时间、地点、原因等显式字段)实现维度感知检索与更新,在LoCoMo-10和LongMemEval-S上分别达到81.43%和78.20%准确率,且每查询token成本降低24%。
科学贡献图:基于文献的规模化自动技术路线图绘制
AI总结 提出从学术论文中提取科学贡献并链接其前提条件的自动技术路线图任务,构建包含200万贡献和1250万前提边的AI/NLP领域科学贡献图,并引入科学前提预测任务,实验表明现有模型在该任务上表现快速提升。
Comments 8 pages, 5 figures
分词器生育率与基础模型在乌克兰法律文本上的零样本性能:一项比较研究
AI总结 本研究比较了七种基础模型在乌克兰法律文本上的分词器生育率和零样本性能,发现分词器生育率差异达1.6倍,Qwen 3模型比Llama系列多消耗60%的token,而NVIDIA Nemotron Super 3 (120B)以更低的成本取得最佳性能,同时揭示了少样本提示在形态丰富语言上的退化以及战时法律语言对模型泛化的影响。
Comments 25 pages, 13 tables, 5 figures; v2 adds cross-temporal generalization experiment and classical baseline
PyCSP3-Scheduling: PyCSP3的调度扩展
AI总结 提出PyCSP3 Scheduling库,通过53个专用约束和27个表达式为PyCSP3添加调度抽象,并编译为标准约束,在261个实例上验证了与原始公式的目标一致性,但运行时性能因编译开销而异。
LiWi: 野外分层
AI总结 提出基于代理驱动数据分解和联合优化光度保真度与alpha边界的方法,实现野外自然图像的高保真分层分解,构建了LiWi-100k数据集并达到SOTA性能。
Comments Project Page https://rassetmusty.github.io/LiWi