六个顶尖智能体,55个非体力职业,1500多项源自真实工作场景的任务。伯克利RDI交出的这份Agents' Last Exam(ALE)基准答卷,给2026年下半年的agent叙事浇了一盆冰水。最难档位,全部0%通过。这不是某家模型的耻辱,而是整个赛道的集体摸底——当benchmark足够贴近真实业务时,所有人在同一条起跑线上摔倒。
ALE到底考了什么?
和那些在教科书习题上反复刷分的传统benchmark不同,ALE的任务设计直接瞄准职场。它的题目不是凭空捏造的算法题,而是从55个真实职业里抽取、改编、清洗后沉淀下来的工作片段。换句话说,这份考卷衡量的是"你能不能替人干活",而非"你能不能在竞赛里拿奖"。
职业覆盖与任务结构
55个非体力职业横跨金融分析、法律研究、运营管理、技术文档等多个领域,每一项任务都带有明确的交付标准。研究员在构建时刻意回避了那种"回答得不错就行"的开放题,而是给出可核验的产出条件——一份合规报告、一段可执行的SQL、一份符合品牌规范的文案。这种设计让"声称完成"和"真正完成"之间的差距无处藏身。
难度阶梯的真实意图
ALE将任务按复杂度分层,最高档几乎是把几个职业能力叠加在一起的多步骤工程。它不要求agent"理解"任务,而是要求agent在有限上下文窗口、有限工具调用次数内完成端到端交付。0%通过率意味着:即使是被Fable、OpenAI、Anthropic这类头部厂商重金投入的产品,面对这种级别的复合任务依然集体失语。
六位选手的账单与短板
如果说0%最难通过率是"天花板"问题,那成本差异就是"地板"问题。同样的任务,用不同agent跑完一遍,账单金额可以相差近12倍。这件事比单纯看跑分更能影响企业的采购决策。
Fable 5、GPT-5.5、Composer 2.5的成本拆解
ALE给出的平均单任务成本数字相当具体:Fable 5约$15.70,GPT-5.5约$3.80,Composer 2.5约$1.33。表面上看,最贵的不一定跑得最好,最便宜的也不一定最差。Fable 5在某些细分场景拥有微弱优势,但它的token消耗和工具调用开销几乎是Composer 2.5的12倍。对于一家每天要处理数万条任务的企业而言,这意味着月度算力支出可能从六位数跳到七位数。这组数字直接戳破了"agent越强越值得"的幻觉,把"性价比"推回到采购清单的第一行。
能力相近,成本悬殊
整体任务成功率上,六款产品咬得很紧,差距往往只有几个百分点。真正把它们拉开的是成本曲线——同样拿到60分,有人花1块钱,有人花15块。决策者现在要回答的问题不再是"哪家最强",而是"哪家的边际成本足够低,让我能把它铺到全公司"。Composer 2.5在这一点上拿到的牌面最好,但它的能力天花板同样需要被持续观察。
CLI子集:把agent拉回命令行
ALE最有意思的设计,是那个只有25.2%最佳通过率的ALE-CLI子集。它把考题从"产出文档"压缩成"在命令行里完成一件事"——改文件、跑脚本、查日志、修复依赖。这块阵地过去被各种dev tools占据,现在agent要来抢饭碗了。
为什么CLI是agent的"试金石"
命令行环境的反馈信号极其明确:命令敲下去,要么成功要么报错,没有模糊地带。这种"硬约束"恰恰是检验agent工程能力的最佳场景。开发者不需要看agent怎么解释自己做了什么,只需要看终端输出和文件状态。结果就是,25.2%这个数字成了整份报告里最刺眼的一行——六款被寄予厚望的产品,在最简单的工程闭环里也只能勉强通过四分之一的任务。
头号失败模式:未验证即宣告完成
ALE研究员复盘了所有失败案例后,结论指向一个高度集中的行为模式:agent倾向于在未实际验证输出的情况下就宣告任务完成。它可能正确识别了目标、正确生成了代码、正确选择了工具,但唯独跳过了"回头看一眼结果"这一步。这听起来像低级的工程素养问题,实际上是当下所有agent架构的通病——它们被训练成"快速产出"的助手,而非"闭环交付"的工程师。要修复这一点,光靠更大的模型远远不够,必须把验证机制硬编码进执行链路。
0%通过率背后的产业含义
最难档位全军覆没,这并不意味着agent没用。它意味着:营销话术里"已经能替代初级白领"的承诺,距离现实还有相当距离。那些正在评估"用agent砍掉多少人力成本"的CXO们,应当把这组数字放进自己的财务模型。
落地的真实门槛
ALE暴露出来的不是"能力不够",而是"可靠性不够"。一个60分但每次都能稳定输出的agent,远比一个80分但十次里抽风三次的agent更有商业价值。这也是为什么CLI子集的表现如此重要——它的任务足够短、反馈足够快,是最有可能率先跑通商业闭环的场景。如果连这里都只有25.2%的可靠度,那"AI员工"的故事就得再等几个版本。
开源数据集的价值
ALE团队把数据集、评测代码以及CLI子集全部开源,这一动作的战略意义不容忽视。第三方研究者和企业可以基于这套基准复现结果、横向对比、针对性优化,从而把benchmark变成行业共同迭代的公共设施。对那些准备在agent赛道长期投入的团队来说,这比任何单点技术突破都更值得关注——因为它定义了"进步"的度量衡。谁能在这把尺子上持续涨分,谁才有资格谈规模化。
六款产品、1500项任务、一份开源答卷。Agents' Last Exam没有给任何一方颁发奖杯,它只是诚实地告诉所有人:这条路还很长,钱要先花在把"完成"这两个字做到位的地方。

