Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

作者:Jam 发布时间: October 30, 2025 分类:技术 No Comments

Ming-flash-omni-Preview是蚂蚁集团inclusionAI发布的开源全模态大模型，参数规模达千亿，基于Ling 2.0的稀疏MoE架构，总参数103B，激活9B。在全模态理解和生成能力上表现出色，尤其在可控图像生成、流式视频理解、语音及方言识别、音色克隆等方面有显著优势。首创“生成式分割范式”，实现细粒度空间语义控制，图像生成可控性强；能对流式视频进行细粒度理解，实时提供说明；在语音领域，支持上下文感知语音理解及方言识别，对15种中国方言理解能力大幅提升，音色克隆能力也显著增强。模型的训练架构高效，通过多项优化提升了训练吞吐量。

>>展开阅读

OmniVinci - NVIDIA开源的全模态大语言模型

作者:Jam 发布时间: October 30, 2025 分类:技术 No Comments

OmniVinci 是 NVIDIA 开发的开源全模态大型语言模型，通过架构革新和数据优化解决多模态模型中的模态割裂问题。通过 OmniAlignNet 加强视觉和音频嵌入的对齐，利用时间嵌入分组捕捉相对时间对齐信息，采用约束旋转时间嵌入编码绝对时间信息。OmniVinci 通过数据合成和精心设计的数据分布策略，生成大量单模态和全模态对话样本进行训练。两阶段训练策略先进行单模态训练，再进行全模态联合训练，有效整合多模态理解能力。OmniVinci 在多个基准测试中表现优异，如在 DailyOmni 上评分比 Qwen2.5-Omni 高出 19.05 分，且训练标记量大幅减少。已应用于医疗 CT 影像解读、半导体器件检测等领域，展现出强大的多模态理解能力。

>>展开阅读

Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

作者:Jam 发布时间: October 28, 2025 分类:技术 No Comments

Dexbotic是原力灵机（Dexmal）开源的具身智能视觉-语言-动作（VLA）模型一站式科研服务平台，解决具身智能领域研究碎片化、效率低等问题。以 PyTorch 为基础，为具身智能领域的研究和开发提供了一站式的解决方案。Dexbotic 的核心优势在于其统一的模块化框架，能兼容多种主流大语言模型接口，集成具身操作与导航模块，并预留了扩展能力，为未来更复杂的任务场景提供了架构基础。提供了高性能的预训练基础模型，针对多种主流算法进行了优化，显著提升了在仿真和真实任务中的表现。Dexbotic 支持云端和本地一体化训练，适配多种研发环境，提供了全链路的机器人训练与部署支持，覆盖从仿真验证到真实机器人落地的完整流程。

>>展开阅读

ValueCell - 开源的多智能体金融平台，多个Agent分工协作

作者:Jam 发布时间: October 28, 2025 分类:技术 No Comments

ValueCell是开源的多智能体金融应用平台，通过AI技术提升金融分析和投资管理的效率。模拟专业投资团队，多个AI智能体分工协作，涵盖市场分析、情绪分析、基本面研究、自动交易等功能，为用户提供全面的金融洞察。支持OpenAI、OpenRouter等多种大语言模型，覆盖美股、A股、加密货币等多市场数据，兼容LangChain等主流AI框架。提供深度研究报告、自动交易策略、实时市场数据推送，以及基于知名投资大师理念的智能体（如巴菲特、芒格风格），帮助用户优化投资组合。

>>展开阅读

olmOCR 2 - AI2开源的多模态文档解析模型

作者:Jam 发布时间: October 28, 2025 分类:技术 No Comments

olmOCR 2是Allen Institute for Artificial Intelligence（AI2）开源的多模态文档解析模型，是olmOCR的升级版本。将数字化的打印文档（如 PDF）高效转换为干净、自然排序的纯文本。基于Qwen2.5-VL-7B模型，通过强化学习（RLVR）优化，结合合成数据生成与单元测试机制，解决传统OCR在复杂场景（如数学公式、表格、多列布局）中的精度问题。在文档解析任务中表现突出，尤其在处理复杂格式和结构化内容时，准确率显著高于同类模型。例如，在数学公式识别、表格数据提取等任务中，能更精准地还原文档内容。

>>展开阅读

见证历史！互联网AI生成内容数量首超人类：52%比48%

作者:Jam 发布时间: October 28, 2025 分类:相册 No Comments

见证历史！互联网AI生成内容数量首超人类：52%比48%

>>展开阅读

硅谷最红经济学家：人类 vs AI，差距到底有多大？

作者:Jam 发布时间: October 27, 2025 分类:日志 No Comments

最近，Tyler Cowen，乔治梅森大学教授、硅谷最受欢迎的经济学家之一，在一次访谈中说：如果让 GPT-5 和我一起参加经济学考试，我会输。这句话暴露的，不是技术细节，而是 AI 和人类能力差距的真实处境：从“辅助工具”到“直接对手”的跨越。Cowen没有制造恐慌。他不关心“AI对齐”或“模型意识”这些热门话题。他关心更现实的问题：当 GPT-5 能考赢经济学教授，你的文凭还值钱吗？当 AI 能创作、写作、讲故事，你的创作还算人类专属吗？当大多数认知工作可被替代，什么才是真正的护城河？Cowen 的答案是：未来不会被替代的，不是有学历的人，而是“懂人”的人。这篇文章，我们跟随 Cowen 的视角，回答三个现实问题：人和 AI 差距有多大？会改变什么？我们怎么赢？

>>展开阅读

LongCat-Video - 美团LongCat开源的视频生成模型

作者:Jam 发布时间: October 27, 2025 分类:技术 No Comments

LongCat-Video是美团LongCat团队开源的13.6亿参数视频生成模型，采用MIT开源协议，支持文生视频、图生视频和视频续写三大任务。模型通过"粗到细"生成策略和块稀疏注意力机制，能在数分钟内生成720P高清长视频，保持色彩一致性且无质量衰减。技术亮点包括多奖励强化学习优化，性能接近商业级SOTA模型，在内部测试中多项指标超越同类开源模型。模型已在Hugging Face和GitHub开源，提供文本/图像输入、视频续写等一键式部署方案。

>>展开阅读

Jam's Blog II

JamLee.Life 心情演绎

Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

OmniVinci - NVIDIA开源的全模态大语言模型

Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

ValueCell - 开源的多智能体金融平台，多个Agent分工协作

olmOCR 2 - AI2开源的多模态文档解析模型

见证历史！互联网AI生成内容数量首超人类：52%比48%

硅谷最红经济学家：人类 vs AI，差距到底有多大？

LongCat-Video - 美团LongCat开源的视频生成模型