Cursor 最近给 Agent 加了一道闸门,叫 Auto-review。思路不复杂:在 Agent 准备调用工具之前,先让一个专门的分类器智能体插进来审一审——这个动作到底是不是用户想要的?审完再决定放行还是拦截。高风险的,拦下来,并把理由反馈给父智能体,让它换条路走;低风险的,直接放行,不耽误事。
关键在于那个分类器。它是个小模型,跑在 Agent 的执行循环内部,吃的是完整上下文:用户的原始意图、历史对话、工作区里的相关文件。所以它不是靠关键词做粗暴匹配,而是真能"读懂"你这次操作符不符合预期。放在循环里还有一个好处——零额外延迟,用户感觉不到它的存在,但它确实在每一刀落下之前都过了一遍手。测试阶段,Cursor 拿大约 12 小时内部开发会话跑出了 6122 条标签数据当训练素材,又针对读取密钥、改生产数据库这类经典翻车场景生成了专门的合成数据。说白了,他们想让模型见过足够多的"坏动作"长什么样。
这套机制背后藏着一个产品判断:Agent 自主性和安全感之间,从来不是非此即彼。过去的做法是给 Agent 一个笼统的"能做什么不能做什么"白名单,颗粒度太粗,开发者要么被频繁打断、要么被迫完全放权。Auto-review 走的是中间路线——风险评估是连续的、可调节的,日常开发动作几乎不被阻断,真正危险的操作才被抓住重新规划。对于用 Cursor 写代码的人来说,这意味着 Agent 越来越敢自己动手,但翻车的代价也越来越小。

