Native Active Perception as Reasoning for Omni-Modal Understanding
原生主动感知作为全模态理解的推理
发表机构 * The Chinese University of Hong Kong(香港中文大学) ; Shanghai Jiao Tong University(上海交通大学) ; Nanyang Technological University(南洋理工大学) ; Qwen Team, Alibaba Group(阿里巴巴集团Qwen团队)
AI总结 提出OmniAgent,一种基于POMDP迭代观察-思考-行动循环的原生全模态智能体,通过主动感知将推理复杂度与视频时长解耦,在多个基准上达到开源模型最优性能。
Comments Accepted at ICML 2026. Code and models: https://github.com/harryhsing/omniagent