每日AI快讯 | MolmoMotion：语言引导的3D运动预测模型

发布时间： 2026-06-17 文章分类： AI快讯

阅读量： 0

企业级AI智能体开发与部署

LumeValley提供全栈式企业级AI智能体开发与部署服务，涵盖战略规划、场景化开发、企业级应用构建、行业解决方案及算力支撑。从需求分析到持续优化，确保智能体高效稳定运行，助力企业实现智能化转型，提升运营效率与竞争力。

3D 运动预测这件事，过去几年一直被"特定物体"和"模板化轨迹"捆住手脚——你只能预测人手、人脸，或者在预设好的关节骨架上跑数据。Allen AI 这次扔出来的 MolmoMotion，直接把这条线拆了：它基于 Molmo 2 骨干网络，输入几帧视频、在物体表面点几个 3D 标记、给一句动作指令，比如"把桌上那个木碗挪到旁边再转一下"，模型就能预测未来几秒内这些点会跑出一条什么样的 3D 轨迹。桌子、碗、水果——什么物体都行，没有预设骨架的限制，这是它和以往工作最本质的区别。

技术实现上给了两个变体。MolmoMotion-AR 是自回归路线，一步一步地吐坐标，适合需要精确控制的场景；MolmoMotion-FM 走流匹配（Flow Matching）路线，在连续空间里做变换，能更好地处理"未来运动本身就有多种可能"的情况——比如我端起杯子，既可能往左放，也可能往右放。两个版本覆盖了确定性预测和概率性预测两种需求，研究者按场景挑就行。

配套资源也相当豪放。MolmoMotion-1M 数据集包含 116 万个视频的 3D 点轨迹和动作描述，规模在同类数据里数一数二；PointMotionBench 是专门搭的评测基准，2700 个经过人工核验的视频片段，够用也好用。模型权重、数据集、基准测试全部开源，研究门槛被直接拍到了地板上。对做机器人和视频生成的人来说，这是个值得认真花时间看的工具——它不会明天就落地进产线，但作为研究基础设施，已经把"任意物体 3D 运动预测"这件事往前推了一大步。

企业级AI智能体开发与部署方案

LumeValley打造企业级AI智能体全流程方案，涵盖需求洞察、定制开发、多平台适配部署。凭借专业算法与丰富经验，确保智能体精准理解业务，高效执行任务，无缝融入企业生态，为企业数字化转型提供强劲智能引擎，提升核心竞争力。

点赞 | 10

Lumevalley——全栈AI服务领航者，以“战略-应用-算力”三位一体服务框架，为企业提供从顶层战略规划、场景化AI智能体（AI Agent）开发/搭建/部署，到企业级AI应用开发、AI+行业场景解决方案的全链路服务，并配套AI大模型部署与高性能AI算力底座支撑，助力客户在营销、服务、运营等核心环节实现效率倍增与模式创新。