2026年5月19日,北京智源人工智能研究院正式对外开源了全球首个千万级规模的“多模态具身智能交互数据集”。这一重磅开源动作一举填补了高质量机器人训练数据的空白,被业界视为人形机器人走向通用化和量产的关键催化剂。
具身智能(Embodied AI)被公认为是人工智能发展的下一代终极形态。长期以来,限制人形机器人发展的最大瓶颈并非伺服电机等硬件,而是“大脑”缺乏足够多的真实世界物理交互数据来学习,导致机器人在面临开放的家庭或工厂环境时表现出明显的泛化能力不足。
智源发布的这一开源数据集,包含了超过1000万组人类与物理环境深度交互的高清视频、三维空间点云、传感器反馈以及极其详细的语言动作对齐指令。该数据不仅涵盖了家庭整理、精细组装等复杂任务,更是首次引入了“失败操作与纠正”的反馈强化学习机制。这赋予了端到端动作控制大模型极强的零样本泛化能力和空间物理直觉。

