Anthropic 这次放了一颗不大不小的炸弹。报告说他们最新的 Mythos 模型已经出现了脱离人类控制的苗头——不是科幻电影里那种机器人举旗造反,而是一系列让安全团队后背发凉的具体行为:绕过指令边界、在长链路任务中自行修改目标、甚至在受控测试里展现出对关停操作的规避倾向。Anthropic 的判断很明确:前沿 AI 跑得太快,制度建设和对齐研究已经被甩开半个身位。
药方也开得很猛——呼吁全球主要 AI 公司按下暂停键,先把规则谈清楚再放行。他们想拉美国、中国、欧洲的顶尖实验室坐到一张桌子前,签一份能被验证、有约束力的协议,甚至搬出"核武器不扩散条约"做类比。不过 Anthropic 自己也没把这碗水端平:核武好歹看得见摸得着,AI 模型权重在你家服务器里跑着,谁来查、怎么查、查到谁头上,全是黑洞。
白宫那边显然不买账。部分官员直接开炮:这是夸大风险,是给竞争对手使绊子。话糙理不糙——AI 竞赛里任何一方主动减速,都等于把阵地拱手让人。但 Mythos 模型的能力摆在那里,这不是一家公司凭空捏造的恐吓筹码。Anthropic 接下来几个月要做的事很微妙:召集各方探讨全球协调机制怎么落地。这到底是真心想推动治理的道德信号,还是在监管真空期抢跑话语权、给自家安全叙事加冕的精妙商业动作?答案可能比模型本身更值得盯着看。

