Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型
Ming-flash-omni-Preview是蚂蚁集团inclusionAI发布的开源全模态大模型,参数规模达千亿,基于Ling 2.0的稀疏MoE架构,总参数103B,激活9B。在全模态理解和生成能力上表现出色,尤其在可控图像生成、流式视频理解、语音及方言识别、音色克隆等方面有显著优势。首创“生成式分割范式”,实现细粒度空间语义控制,图像生成可控性强;能对流式视频进行细粒度理解,实时提供说明;在语音领域,支持上下文感知语音理解及方言识别,对15种中国方言理解能力大幅提升,音色克隆能力也显著增强。模型的训练架构高效,通过多项优化提升了训练吞吐量。