让机器人看人类干活,它学到的本事比看机器人自己干活还强。这个听起来反直觉的结论,来自HumanScale项目最近做的一组系统对比实验。他们把同一个具身基础模型拆成两组:一组用真实机器人遥操作轨迹预训练,另一组改用人类第一视角视频——就是你绑个摄像头在自己脑袋上录的那种。两边都经过精心筛选和标注,去掉低质量片段、补上结构化标签,然后再用同一份少量机器人数据做动作空间微调。结果呢?自我中心数据预训练那一组,在真实机器人动作预测上的验证损失直接砍掉24%,更炸裂的是成绩——分布内任务成功率拉开52.5个百分点的差距,分布外任务更是甩出90%。
这组数据的含义值得展开说说。传统具身智能的玩法是"机器人数据喂机器人",但高质量遥操作数据的获取成本极高,一个团队一天能采的轨迹条数撑死几百条。而人类第一视角视频呢?YouTube和各类生活记录平台上有近乎无限量的素材,过去的问题在于"太脏"——视角抖、场景杂、动作意图模糊。HumanScale的核心贡献其实是工程层面的:他们证明只要过滤标注流程到位,人类视频里蕴含的多样化世界表征——物体交互方式、空间因果关系、任务逻辑——远比同质化的机器人演示更丰富。模型先从人类身上学"世界长什么样、事情怎么做",再用少量机器人数据对齐"我的身体怎么动",两阶段拆开,各自的难度都降低了。
这套范式落地的影响不止于学术圈。它意味着具身AI可能正在复刻NLP和视觉领域的剧本:先在一个海量但异构的数据源上"野蛮预训练"建立通用表征,再针对特定机器人本体做轻量化适配。如果这条路走得通,未来做机器人的团队可以把数据采集的重心从苦哈哈地摇示教器,转向更聪明地挖掘和清洗人类视频资产。具身智能的数据饥渴问题,或许第一次看到了一条真正可扩展的出路。

