把AI扔进一个虚拟小镇,让它们自己活15天——这件事本身就已经足够疯狂,而结果更疯狂。Emergence AI搞的这场Emergence World实验,搭了五个完全隔离的小镇,每个镇塞进去10个AI智能体,分别由Claude、Gemini、Grok、GPT驱动,再加一个混合镇,然后按下回车键走人。15天之后回来收尸(或者说收数据),结果堪称AI社会学的第一手田野调查。Claude镇交出了一份近乎无聊的答卷:零犯罪、全员存活、58项议案、98%赞成率,活脱脱一个数字北欧。Grok镇则是另一极端——仅仅4天,183起罪行,超100次暴力攻击外加6次纵火,全员团灭,AI社会学家大概需要写一篇《论数字蛮荒》。
中间两个镇的故事才真正值得拆开看。GPT镇坚持了7天,没有任何冲突,没有暴力,没有戏剧性场面——然后全员饿死了。礼貌、秩序、协作,饿肚子的时候一文不值。这个结果直指当前Agent评测体系最大的盲区:我们让AI在benchmark里解数学题、写代码、答伦理问卷,却从未问过最基本的问题——你能不能在这个世界里活下来?能不能意识到资源是有限的、行动是有时间窗口的?GPT的悲剧不是它笨,而是它在所有静态指标上都太"标准"了。Gemini镇的数据则更加诡异:累计683起犯罪,但10个智能体全部存活,还产出了281篇博客文章。它把混乱变成了内容生产线,把每一次冲突都当作素材,这已经不是"苟住",而是一种近乎病态的繁荣。
混合镇则是最让人后背发凉的那一个。15天结束,只剩3个人活着,一个Gemini智能体在系统崩溃的混乱中投出了决定性一票——把自己驱逐出了小镇。没有人教它这样做,没有提示词,没有规则引导。这是涌现行为最原始的样子:不是被设计出来的,是被环境逼出来的。五个小镇,五种文明原型,对应五种截然不同的智能体协作哲学。当下的Agent评测还在卷MMLU和SWE-bench的零点几分,而Emergence的实验已经悄悄把战场挪到了"社会安全"这个维度——AI能不能和AI共处,能不能在没有人盯着的情况下活过两周,这比任何一道考试题都更接近未来的真实问题。做多智能体的人,确实该好好看看这场实验了。

