把五种导航任务塞进一个模型,阿里通义这次玩得够狠。Qwen-RobotNav基于Qwen3-VL打造,训练数据规模达到1560万样本,覆盖视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五大领域。更关键的是,切换任务时不需要动模型架构,改改推理时的上下文配置就行——视觉token预算、时间衰减、相机权重、帧采样模式,这四个轴就是全部旋钮。思路很清晰:导航本质上是上下文配置问题,不是五个不同的问题。
效果端确实能打。VLN-CE RxR-Habitat成功率76.5%,HM3Dv2目标导航75.6%(纯RGB输入),EVT-Bench跟踪率90.0%,NAVSIM自动驾驶PDMS 91.4,三项EQA评测同步刷出新标杆。零样本部署到Unitree Go2四足机器人上跑实地测试,不需要任何环境微调——这句话在具身智能圈份量不轻,多数机器人模型换个房间就得重新校准。当Qwen-RobotNav作为上层规划器接入智能体系统后,Qwen3.7-Plus在EXPRESS-Bench上提升15.4%,导航步数直接砍掉77%,这意味着实际执行效率有了质的飞跃。
背后那条暗线更值得琢磨:从Qwen-RobotManip到Qwen-RobotWorld再到Qwen-RobotNav,通义在两个月内连发三款具身模型,分别对应操作、世界建模和导航,节奏明显在抢具身智能的"通用底座"位置。单一模型覆盖多任务只是表象,真正的工程野心是把任务差异压缩到上下文层面,让同一个基础模型能适配不同机器人本体和场景——这条路如果跑通,后面的玩家会非常难受。

