具身智能喊了这么多年,最让人头疼的不是算法,而是碎片化——操作臂是操作臂的模型,腿足机器人是腿足机器人的数据,自动驾驶又是另一套体系。阿里通义千问团队最新放出的Qwen-RobotWorld,瞄准的就是这道硬伤。它把语言当作统一的动作接口,用双流Multimodal Diffusion Transformer(MMDiT)架构,把视觉、文本和动作信号在同一空间里对齐。更关键的一步是把Qwen2.5-VL直接当动作编码器用,让一个2.5-VL级别的视觉语言模型具备"看懂就动手"的能力。这不是简单换个backbone,而是把语言模型在开放世界里的常识理解,灌进了物理动作的决策里。
效果上看,这份模型在4个基准测试中拿到SOTA,统一起20余种机器人形态——从固定基座的机械臂到移动底盘,从仿真到真实硬件,全在同一个训练框架里消化。背后是860万条跨场景训练对、1300多项操作技能、500多种动作类别,这些数字的意义不在于"大",而在于"杂":操作、自动驾驶、室内导航三类任务首次被扔进同一个损失函数里联合训练。语言接口在这里变成了粘合剂,把原本互不兼容的本体和任务压成同一套语义。
对从业者而言,两个能力值得单独拎出来。一个是Scene2Robot的人类到机器人迁移——人做一遍示范,机器人能直接学到,而不是靠遥操或代码映射;另一个是2到4路多视角几何一致视频生成,意味着它在"想象"动作结果时已经具备空间推理。落地层面,这给了机器人厂商一个非常明确的信号:别再为每个形态单练一套模型了,统一的语言-动作接口正在变成可用的工程方案。

