GigaBrain-0 - 开源的具身基础模型，由世界模型生成数据驱动

作者:Jam 发布时间: October 31, 2025 分类:技术 No Comments

GigaBrain-0是国内首个利用世界模型生成数据实现真机泛化的端到端视觉-语言-动作（VLA）具身基础模型，由极佳视界与湖北人形机器人创新中心联合发布开源。采用混合Transformer架构，融合预训练视觉语言模型（VL-M）与动作扩散Transformer（DIT），支持RGB-D输入，增强3D空间感知能力。引入“具身思维链（Embodied CoT）”机制，生成中间推理步骤（如操作轨迹、子目标语言），提升长时程任务规划能力。以“世界模型”为核心构建数据引擎，通过仿真生成、风格迁移、视角变换等技术，生成多样化训练数据，减少对真实世界数据的依赖。数据覆盖工业、商业、办公、家居等多场景，提升模型泛化能力。

>>展开阅读

Jam's Blog II

JamLee.Life 心情演绎

GigaBrain-0 - 开源的具身基础模型，由世界模型生成数据驱动