机器之心编辑部
这几天,Anthropic 的最新模型 Claude Fable 5 发布之后,在 AI 圈激起了不小的震动。
今天一早,大模型评测平台 Arena 放出了智能体基准测试(Agent Arena)的成绩:Fable 5(High)排名第一,OpenAI 的 GPT-5.5(xHigh)屈居第二。另外,在「确认成功率」和「可引导性」等两项指标上,Fable 5(High)也稳压 GPT-5.5(xHigh)。
从 Agent Arena 的跑分来看,Fable 5 的性能强悍可见一斑。该基准通过数百万个真实世界的长周期智能体任务来评估模型,需要调用网页搜索、文件系统、终端等工具,完成写代码、制作幻灯片、网页研究、构建应用以及分析文档等复杂工作流。
但与此同时,在另一个智能体基准测试中,Fable 5 败给了一个多月前发布的 GPT-5.5。
它是加州大学伯克利分校宋晓东(Dawn Song)教授团队开发的ALE,全称为 Agents' Last Exam(智能体的最后考试),用来衡量 AI 智能体是否真的能够在广泛的真实世界领域中完成具有经济价值的工作。
ALE 测试涵盖 55 个非体力职业,包含 1500 + 项任务,由来自 100 + 机构的 300+ 位专家贡献,覆盖科学、工程、医学、法律、金融、教育等多个领域。另外,该基准提供完整的 GUI + CLI 环境,并基于最终结果进行可验证评估。
在 ALE 中,团队评测了 Fable 5、GPT-5.5、Composer 2.5 以及其他前沿 Agent 系统。结果既令人印象深刻,也足够让人冷静:
现在的 Agent 已经能够解决相当一部分专业任务,但当我们看向最难的那一类任务,也就是那些需要持续推理、深厚领域知识,以及长周期可靠执行的任务时,它们距离人类水平仍然很远。「有用的 Agent 时代已经到来,但真正能胜任工作的 Agent 时代,还没有。」
团队希望 ALE 能够成为一个新的参照系,帮助行业开发出能够在广泛领域中稳定完成经济价值工作的 Agent。
针对 Fable 5,ALE 的以下几点测试结果值得我们关注:
一是,在整体榜单中,GPT-5.5 凭借 24.0% 的通过率居于榜首,超越了 Fable 5 的 22.0%;余下依次为 composer-2.5、Gemini-3.1-pro-preview、Deepseek-v4-pro 和 Qwen-3.7-Max。
二是,成本差异巨大。虽然 Fable 5、GPT-5.5 和 Composer 2.5 的整体表现处在同一梯队,但每项任务的成本差异非常明显:Fable 5 平均每题花费约 .70,GPT-5.5 仅 .80,Composer 2.5 为 .33。
也就是说,在性能相近的情况下,Fable 5 每完成一项任务的成本大约是其他模型的 4 到 12 倍。
三是,最难一档全军覆没。在最高难度「Last-Exam」档位,包括 Fable 5 在内的所有前沿 agent 通过率为 0%。
另外,ALE 中还有一个仅支持命令行环境的子集——ALE-CLI。
相比 Terminal-Bench 和 SWE-bench-Pro,它的覆盖范围更广、任务周期更长,难度也明显更高:
这说明,Agent 离真正成熟还有很长的路要走,也还有很大的提升空间。
在谈到为什么 ALE 的结果和一些其他基准不太一样,尤其是 Fable 5?宋晓东表示,原因很简单:不存在一个在所有场景下都最强的 Agent。包括 Fable 5 在内,每个前沿模型都有自己擅长的领域,也都有表现吃力的领域。
总分会把 55 个职业、1500 多个任务的结果平均到一起,因此很多模型的分数会挤在相近区间。但真正重要的,不是平均分。真正有价值的信号在于:Agent 在哪里成功,在哪里失败,以及这些成败模式如何随领域而变化。同样的任务,不同模型失败的原因往往完全不同。
最常见的失败模式依然是一个熟悉的问题: Agent 还没有真正验证自己的工作,就先宣布任务完成。典型的完成回复往往是:「已完成,所有检查都通过了。」但实际输出可能缺少必要文件、统计数量有误、遗漏关键字段,或者违反了任务说明中明确写出的约束条件。
ALE 研究介绍
ALE 是一个包含 1000 多个任务实例的基准测试,覆盖 55 个子领域和 13 个行业集群,由来自 100 + 机构的 300 + 位专家贡献。
为了确保行业覆盖足够广泛且具有代表性,专家顾问委员会会梳理各个领域的工作流图景,并基于 O*NET / SOC 2018 职业分类体系,识别具有经济意义的工作流类型。
ALE 任务工作流来自真实的专业实践。它并不是凭空设计合成场景,而是由专家提供他们已经完成过的真实项目。这些项目在被纳入基准之前,还要经过多轮质量控制,包括初步审核、工程师试运行,以及专家委员会的最终同行评审。
大多数任务都要求智能体使用计算机,并在 GUI 交互和 CLI 操作之间来回切换。GUI 交互包括桌面应用、浏览器和特定领域软件;CLI 操作包括 shell 脚本、代码执行和文件处理。
这意味着,ALE 要求智能体同时具备多种能力,而这些能力在现有基准中往往是被分开测试的。
ALE 的目标评测对象是 GCUA(Generalist Computer-Use Agent)智能体,例如 Claude Code 或 Codex。这类智能体能够在同一个行动循环中结合视觉感知、代码执行、工具使用和长周期规划。按照设计,ALE 的任务形态覆盖范围要大于仅测试 GUI 的基准,例如 OSWorld,也大于仅测试 CLI 的基准,例如 Terminal-Bench 。
在任务收集上,ALE 不是随便收集一些任务来考验 AI,而是要求任务必须满足三个条件:
另外,ALE 中的任务不是由普通众包工人来提供;而是来自领域专业人士的真实日常工作,并经过严格筛选,以确保真实性、复杂性和技术可执行性,共包含五道关卡。
值得一提的是基准污染问题,这种污染可能来自预训练数据重叠,也可能来自针对具体任务的优化。为此,ALE 只公开 1490 个任务实例中的 150 个,约占 10%;其余任务保留在私有池中。
在具体评测流程上,ALE 将一个基准实例拆分为三个相互解耦的组件,这些组件通过定义清晰的接口进行交互。
最后,团队希望 Agents' Last Exam(ALE)能够成为一个新的路标和北极星,指引行业开发出能够在广泛领域中可靠完成经济价值工作的智能体。