Beyond the Current Observation: Evaluating Multimodal Large Language Models in Controllable Non-Markov Games
超越当前观测:评估多模态大语言模型在可控非马尔可夫博弈中的表现
发表机构 * Fudan University(复旦大学) ; Shanghai Innovation Institute(上海创新研究院) ; Shanghai Artificial Intelligence Laboratory(上海人工智能实验室) ; Zhejiang University(浙江大学) ; The Chinese University of Hong Kong(香港中文大学)
专题命中 多模态评测 :非马尔可夫博弈评估多模态模型记忆
AI总结 提出RNG-Bench基准套件,通过配对记忆和3D迷宫两个博弈,评估多模态大模型在非马尔可夫环境中重建历史观测并据此行动的能力,发现主要错误源于遗忘而非决策,微调可提升性能。