英伟达的奇迹,还能持续多久?

  1. 英伟达的市值完成从5千亿美元到5万亿美元的跨越,只花了四年零四个月的时间。我们一般称呼超级牛股“十年十倍”,而英伟达是四年十倍;如果从2022年下半年的低点算起则更快。

    >>展开阅读

Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

Ming-flash-omni-Preview是蚂蚁集团inclusionAI发布的开源全模态大模型,参数规模达千亿,基于Ling 2.0的稀疏MoE架构,总参数103B,激活9B。在全模态理解和生成能力上表现出色,尤其在可控图像生成、流式视频理解、语音及方言识别、音色克隆等方面有显著优势。首创“生成式分割范式”,实现细粒度空间语义控制,图像生成可控性强;能对流式视频进行细粒度理解,实时提供说明;在语音领域,支持上下文感知语音理解及方言识别,对15种中国方言理解能力大幅提升,音色克隆能力也显著增强。模型的训练架构高效,通过多项优化提升了训练吞吐量。Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

>>展开阅读

OmniVinci - NVIDIA开源的全模态大语言模型

OmniVinci 是 NVIDIA 开发的开源全模态大型语言模型,通过架构革新和数据优化解决多模态模型中的模态割裂问题。通过 OmniAlignNet 加强视觉和音频嵌入的对齐,利用时间嵌入分组捕捉相对时间对齐信息,采用约束旋转时间嵌入编码绝对时间信息。OmniVinci 通过数据合成和精心设计的数据分布策略,生成大量单模态和全模态对话样本进行训练。两阶段训练策略先进行单模态训练,再进行全模态联合训练,有效整合多模态理解能力。OmniVinci 在多个基准测试中表现优异,如在 DailyOmni 上评分比 Qwen2.5-Omni 高出 19.05 分,且训练标记量大幅减少。已应用于医疗 CT 影像解读、半导体器件检测等领域,展现出强大的多模态理解能力。OmniVinci - NVIDIA开源的全模态大语言模型

>>展开阅读