3D 运动预测这件事,过去几年一直被"特定物体"和"模板化轨迹"捆住手脚——你只能预测人手、人脸,或者在预设好的关节骨架上跑数据。Allen AI 这次扔出来的 MolmoMotion,直接把这条线拆了:它基于 Molmo 2 骨干网络,输入几帧视频、在物体表面点几个 3D 标记、给一句动作指令,比如"把桌上那个木碗挪到旁边再转一下",模型就能预测未来几秒内这些点会跑出一条什么样的 3D 轨迹。桌子、碗、水果——什么物体都行,没有预设骨架的限制,这是它和以往工作最本质的区别。
技术实现上给了两个变体。MolmoMotion-AR 是自回归路线,一步一步地吐坐标,适合需要精确控制的场景;MolmoMotion-FM 走流匹配(Flow Matching)路线,在连续空间里做变换,能更好地处理"未来运动本身就有多种可能"的情况——比如我端起杯子,既可能往左放,也可能往右放。两个版本覆盖了确定性预测和概率性预测两种需求,研究者按场景挑就行。
配套资源也相当豪放。MolmoMotion-1M 数据集包含 116 万个视频的 3D 点轨迹和动作描述,规模在同类数据里数一数二;PointMotionBench 是专门搭的评测基准,2700 个经过人工核验的视频片段,够用也好用。模型权重、数据集、基准测试全部开源,研究门槛被直接拍到了地板上。对做机器人和视频生成的人来说,这是个值得认真花时间看的工具——它不会明天就落地进产线,但作为研究基础设施,已经把"任意物体 3D 运动预测"这件事往前推了一大步。

