Agentick: A Unified Benchmark for General Sequential Decision-Making Agents
AI总结 本文提出 Agentick,一个用于评估通用序列决策智能体的统一基准,旨在公平比较从头学习的强化学习智能体、基于预训练知识的语言模型智能体以及混合智能体等不同方法。Agentick 提供了 37 个程序生成的任务,涵盖六类能力、四个难度等级和五种观测模态,并通过统一的 Gymnasium 接口实现,同时配套了编码接口、参考策略、训练数据集和实时排行榜。实验表明,不同方法在不同任务上各有优劣,突显了当前智能体研究仍有较大提升空间,Agentick 为推动通用自主智能体的发展提供了重要的实验平台。