AI到底笨在哪?Dwarkesh给出一个相当不浪漫的答案:数据效率。智能的一种定义就是样本效率——用更少数据学会更多东西。但过去几年AI的狂飙突进,靠的根本不是这层本事,而是两件粗暴的工程:把数据分布撑得尽可能广,再把算力堆得尽可能厚。换句话说,模型变强,是因为见过的东西多了、被喂的token多了,样本效率本身并没有获得跨越式提升。
这里有个常被忽略的逻辑链。强化学习看似高大上,本质上是合成数据生成:先投入海量算力产生各种输出,再用验证器筛出"好"的那部分,拿去继续训练模型预测正确结果。这套打法对每个领域、每项技能都饥渴得要命——需要人类专家亲手示范的样本几乎是无限的。围绕这件事,数据标注、合成、清洗已经长成一个年营收数十亿美元的产业,规模本身就是问题严重性的注脚。
最近Epoch那份报告又给了一记重击:开源模型落后前沿闭源模型只剩四个月。原因不复杂——数据可以从公开API蒸馏出来,而超参数、训练配比、基础设施细节这些不容易复制的"暗物质",权重远没想象中大。更有冲击力的是这组数字:人类一辈子大约接触两亿token,前沿模型训练动辄几十到几百T token,差距接近百万倍。机器人、自动驾驶这些"AI重灾区"领域,同样的效率鸿沟照搬不误。所以别再问AI什么时候"开窍"了——它开窍的方式,可能就是继续把数据和算力这两个轮子转得更快。

