伯克利RDI发布Agents' Last Exam基准

发布时间： 2026-06-16 文章分类： AI前沿技术

阅读量： 0

企业级AI智能体开发与部署

LumeValley提供全栈式企业级AI智能体开发与部署服务，涵盖战略规划、场景化开发、企业级应用构建、行业解决方案及算力支撑。从需求分析到持续优化，确保智能体高效稳定运行，助力企业实现智能化转型，提升运营效率与竞争力。

六个顶尖智能体，55个非体力职业，1500多项源自真实工作场景的任务。伯克利RDI交出的这份Agents' Last Exam（ALE）基准答卷，给2026年下半年的agent叙事浇了一盆冰水。最难档位，全部0%通过。这不是某家模型的耻辱，而是整个赛道的集体摸底——当benchmark足够贴近真实业务时，所有人在同一条起跑线上摔倒。

ALE到底考了什么？

和那些在教科书习题上反复刷分的传统benchmark不同，ALE的任务设计直接瞄准职场。它的题目不是凭空捏造的算法题，而是从55个真实职业里抽取、改编、清洗后沉淀下来的工作片段。换句话说，这份考卷衡量的是"你能不能替人干活"，而非"你能不能在竞赛里拿奖"。

职业覆盖与任务结构

55个非体力职业横跨金融分析、法律研究、运营管理、技术文档等多个领域，每一项任务都带有明确的交付标准。研究员在构建时刻意回避了那种"回答得不错就行"的开放题，而是给出可核验的产出条件——一份合规报告、一段可执行的SQL、一份符合品牌规范的文案。这种设计让"声称完成"和"真正完成"之间的差距无处藏身。

难度阶梯的真实意图

ALE将任务按复杂度分层，最高档几乎是把几个职业能力叠加在一起的多步骤工程。它不要求agent"理解"任务，而是要求agent在有限上下文窗口、有限工具调用次数内完成端到端交付。0%通过率意味着：即使是被Fable、OpenAI、Anthropic这类头部厂商重金投入的产品，面对这种级别的复合任务依然集体失语。

六位选手的账单与短板

如果说0%最难通过率是"天花板"问题，那成本差异就是"地板"问题。同样的任务，用不同agent跑完一遍，账单金额可以相差近12倍。这件事比单纯看跑分更能影响企业的采购决策。

Fable 5、GPT-5.5、Composer 2.5的成本拆解

ALE给出的平均单任务成本数字相当具体：Fable 5约$15.70，GPT-5.5约$3.80，Composer 2.5约$1.33。表面上看，最贵的不一定跑得最好，最便宜的也不一定最差。Fable 5在某些细分场景拥有微弱优势，但它的token消耗和工具调用开销几乎是Composer 2.5的12倍。对于一家每天要处理数万条任务的企业而言，这意味着月度算力支出可能从六位数跳到七位数。这组数字直接戳破了"agent越强越值得"的幻觉，把"性价比"推回到采购清单的第一行。

能力相近，成本悬殊

整体任务成功率上，六款产品咬得很紧，差距往往只有几个百分点。真正把它们拉开的是成本曲线——同样拿到60分，有人花1块钱，有人花15块。决策者现在要回答的问题不再是"哪家最强"，而是"哪家的边际成本足够低，让我能把它铺到全公司"。Composer 2.5在这一点上拿到的牌面最好，但它的能力天花板同样需要被持续观察。

CLI子集：把agent拉回命令行

ALE最有意思的设计，是那个只有25.2%最佳通过率的ALE-CLI子集。它把考题从"产出文档"压缩成"在命令行里完成一件事"——改文件、跑脚本、查日志、修复依赖。这块阵地过去被各种dev tools占据，现在agent要来抢饭碗了。

为什么CLI是agent的"试金石"

命令行环境的反馈信号极其明确：命令敲下去，要么成功要么报错，没有模糊地带。这种"硬约束"恰恰是检验agent工程能力的最佳场景。开发者不需要看agent怎么解释自己做了什么，只需要看终端输出和文件状态。结果就是，25.2%这个数字成了整份报告里最刺眼的一行——六款被寄予厚望的产品，在最简单的工程闭环里也只能勉强通过四分之一的任务。

头号失败模式：未验证即宣告完成

ALE研究员复盘了所有失败案例后，结论指向一个高度集中的行为模式：agent倾向于在未实际验证输出的情况下就宣告任务完成。它可能正确识别了目标、正确生成了代码、正确选择了工具，但唯独跳过了"回头看一眼结果"这一步。这听起来像低级的工程素养问题，实际上是当下所有agent架构的通病——它们被训练成"快速产出"的助手，而非"闭环交付"的工程师。要修复这一点，光靠更大的模型远远不够，必须把验证机制硬编码进执行链路。

0%通过率背后的产业含义

最难档位全军覆没，这并不意味着agent没用。它意味着：营销话术里"已经能替代初级白领"的承诺，距离现实还有相当距离。那些正在评估"用agent砍掉多少人力成本"的CXO们，应当把这组数字放进自己的财务模型。

落地的真实门槛

ALE暴露出来的不是"能力不够"，而是"可靠性不够"。一个60分但每次都能稳定输出的agent，远比一个80分但十次里抽风三次的agent更有商业价值。这也是为什么CLI子集的表现如此重要——它的任务足够短、反馈足够快，是最有可能率先跑通商业闭环的场景。如果连这里都只有25.2%的可靠度，那"AI员工"的故事就得再等几个版本。

开源数据集的价值

ALE团队把数据集、评测代码以及CLI子集全部开源，这一动作的战略意义不容忽视。第三方研究者和企业可以基于这套基准复现结果、横向对比、针对性优化，从而把benchmark变成行业共同迭代的公共设施。对那些准备在agent赛道长期投入的团队来说，这比任何单点技术突破都更值得关注——因为它定义了"进步"的度量衡。谁能在这把尺子上持续涨分，谁才有资格谈规模化。

六款产品、1500项任务、一份开源答卷。Agents' Last Exam没有给任何一方颁发奖杯，它只是诚实地告诉所有人：这条路还很长，钱要先花在把"完成"这两个字做到位的地方。

企业级AI智能体开发与部署方案

LumeValley打造企业级AI智能体全流程方案，涵盖需求洞察、定制开发、多平台适配部署。凭借专业算法与丰富经验，确保智能体精准理解业务，高效执行任务，无缝融入企业生态，为企业数字化转型提供强劲智能引擎，提升核心竞争力。

点赞 | 5

Lumevalley——全栈AI服务领航者，以“战略-应用-算力”三位一体服务框架，为企业提供从顶层战略规划、场景化AI智能体（AI Agent）开发/搭建/部署，到企业级AI应用开发、AI+行业场景解决方案的全链路服务，并配套AI大模型部署与高性能AI算力底座支撑，助力客户在营销、服务、运营等核心环节实现效率倍增与模式创新。