智元发布首个通用具身基座大模型：完成小样本快速泛化，降低具身智能门槛

生活
2025-03-10 13:04:05
26

　　每经记者朱成祥每经编辑文多

　　3月10日，智元发布首个通用具身基座大模型——智元启元大模型（GO-1）。据了解，该架构由VLM（多模态大模型）+MoE（混合专家）组成。其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力，MoE中的Latent Planner（隐式规划器）借助大量跨本体和人类操作数据获得通用的动作理解能力，MoE中的Action Expert（动作专家）借助百万真机数据获得精细的动作执行能力。三者环环相扣，可以利用人类视频学习、完成小样本快速泛化并且降低具身智能门槛。其已成功部署到智元多款机器人本体，而且还会持续进化，将具身智能推上一个新台阶。

　　对于多模态大模型与混合专家大模型的具体分工，智元具身研究中心常务主任任广辉回复《每日经济新闻》记者问题时表示：“我们多模态大模型本身，自带了一个专家。Latent Planner负责我们互联网规模的图文录像训练，它来理解视频中的动作，比如倒水这个动作，肯定需要手腕旋转。而Action Expert（动作专家），则是在看了很多理论，看了很多视频动作后，负责在机器人本体（上的）执行。”

　　任广辉补充表示：“各个模型分工明确，各司其职，并且是分层的。就如人类学东西一样，先学理论，再看别人如何操作，再自己操作。这样分层次（学习），也令整个学习、训练相对而言更容易一点。”