FireRedChat - 小红书开源的全双工语音交互系统

作者:Jam 发布时间: October 6, 2025 分类:技术 No Comments

FireRedChat 是小红书开源的全双工语音交互系统，具有实时双向对话能力，支持可控打断功能。采用模块化设计，包括转录控制模块、交互模块和对话管理器等，支持级联和半级联架构，可灵活部署。系统基于 LiveKit RTC Server 实现实时通信，搭配 AI-Agent Bot Server 处理智能代理响应，通过 WebUI 提供用户交互界面。还配备 Redis Server 支持多节点托管，以及 TTS 和 ASR Server 分别处理语音合成和自动语音识别。 FireRedChat - 小红书开源的全双工语音交互系统

>>展开阅读

Logics-Parsing - 阿里开源的文档解析模型

作者:Jam 发布时间: October 6, 2025 分类:技术 No Comments

Logics-Parsing 是阿里开源的端到端文档解析模型，基于 Qwen2.5-VL-7B。通过强化学习优化文档布局分析和阅读顺序推断，能将 PDF 图像转换为结构化 HTML 输出，支持多种内容类型，包括普通文本、数学公式、表格、化学公式和手写中文字符。模型采用两阶段训练：第一阶段是监督微调，学习生成结构化输出；第二阶段是布局为中心的强化学习，优化文本准确性、布局定位和阅读顺序。在 LogicsParsingBench 基准测试中表现出色，尤其在纯文本、化学结构和手写内容解析方面优于其他方法。 Logics-Parsing - 阿里开源的文档解析模型

>>展开阅读

Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型

作者:Jam 发布时间: October 5, 2025 分类:技术 No Comments

Hunyuan3D-Part（混元3D-Part）是腾讯发布并开源的3D生成模型。由P3 - SAM和X - Part组成，首次实现高精度、可控的组件式3D生成，支持50 + 组件自动生成。用户可先用混元3D 2.5或3.0生成整体Mesh，再由P3 - SAM进行自动、精确的组件分割，X - Part将其分解为独立部件，输出高保真、结构一致的部件几何体，同时保持灵活可控性。混元3D - Part生成的模型精度高、可编辑、结构合理，让模型更易编辑、生产和应用。在游戏建模、3D打印等领域有广泛应用，如将汽车模型拆分车身和轮子，便于游戏绑定滚动逻辑或3D打印分步制作。代码和权重已开源，可通过c创作引擎免费使用。

>>展开阅读

HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

作者:Jam 发布时间: October 5, 2025 分类:技术 No Comments

HunyuanImage 3.0（混元图像3.0）是腾讯发布并开源的原生多模态图像生成模型。模型参数规模达80B，是目前测评效果最好、参数量最大的开源生图模型。混元图像3.0支持实时生图功能，用户可边打字边出图，毫秒级响应，超写实画质。支持复杂文本生成，如海报、漫画等，以及多种风格的图像生成，如实物摄影、科普插画等。具备原生多模态能力，可同时处理文字、图片、视频与音频等多种模态的输入与输出，无需多个模型组合。混元图像3.0拥有强大的语义理解与推理能力，能解析千字级别的复杂语义，生成长文本内容，可生成真实的高质感图片。

>>展开阅读

Lynx - 字节跳动开源的高保真视频生成模型

作者:Jam 发布时间: October 4, 2025 分类:技术 No Comments

Lynx 是字节跳动开源的高保真个性化视频生成模型，仅需单张人像照片，能生成身份一致的视频。基于扩散 Transformer（DiT）基础模型构建，引入 ID-adapter 和 Ref-adapter 两个轻量级适配器模块，分别用于控制人物身份和保留面部细节。Lynx 采用人脸编码器捕捉面部特征，通过 X-Nemo 技术增强表情，LBM 算法模拟光影效果，确保人物身份在不同场景下的一致性。其交叉注意力适配器可将文本提示与人脸特征结合，生成符合场景要求的视频。Lynx 具备“时间感知器”，能理解动作物理规律，保持视频时间连贯性。在大规模测试中，Lynx 在面部相似度、场景匹配度和视频质量等多个维度上表现优异，超越同类技术。

>>展开阅读

Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型

作者:Jam 发布时间: October 1, 2025 分类:技术 No Comments

Claude Sonnet 4.5 是 Anthropic 公司推出的人工智能模型，专为编程、计算机操作和复杂任务自动化设计。模型在代码生成、长时间任务处理、推理和数学计算方面表现出色，支持从初始规划到代码重构的完整软件开发生命周期。模型具备强大的计算机操作能力，可通过浏览器扩展完成各种任务。Claude Sonnet 4.5 在安全性和对齐性方面进行改进，减少不良行为、增强防御能力。Claude Sonnet 4.5推出Imagine with Claude临时研究预览功能，支持 Max 订阅用户通过自然语言指令实时生成和调整软件代码及功能，无需预设代码，提供高效灵活的交互体验。Claude Sonnet 4.5版本模型已全面上线，通过Claude、App和 API提供访问。

>>展开阅读

DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

作者:Jam 发布时间: September 30, 2025 分类:技术 No Comments

DeepSeek-V3.2-Exp是DeepSeek开源的实验性AI模型，通过引入DeepSeek Sparse Attention（DSA）机制，显著提升长文本处理的效率。模型基于DeepSeek-V3.1-Terminus持续训练而成，仅在架构上引入了DSA，实现了细粒度稀疏注意力机制，借助闪电索引器（lightning indexer）高效选择关键信息，在长文本训练和推理时大幅提高效率。DeepSeek-V3.2-Exp在多个公开评测集上与DeepSeek-V3.1-Terminus基本持平，展现了其在不同领域的能力。

>>展开阅读

所有知识型岗都要被AI“吞了，清华大学教授刘嘉：未来大学分化猛烈，软件公司靠 “几人 + Agent” 就够

作者:Jam 发布时间: September 29, 2025 分类:日志 No Comments

人类与 AI 间的对决，自 2016 年的 AlphaGo 打赢世界围棋冠军李世石起，就开始不断出现在大众视线中，出圈的例子更是不少。曾担任《最强大脑》节目首席科学家的刘嘉，也亲眼见证过这样一场比赛。当时，还是百度大脑首席科学家的吴恩达带着搭载百度大脑的智能机器人小度上了舞台，与人类组选手比拼起“看照片认脸”。面对多轮挑战，最终人类最顶尖的面孔识别选手不敌 AI。这个结果，好似当头一棒重重敲向了此时正往北京师范大学副校长一职奔赴的刘嘉。他火速向学校递交辞呈，重新钻进实验室，将全部心思转投到了脑科学与 AI 的交叉研究中。

>>展开阅读

Jam's Blog II

JamLee.Life 心情演绎

FireRedChat - 小红书开源的全双工语音交互系统

Logics-Parsing - 阿里开源的文档解析模型

Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型

HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

Lynx - 字节跳动开源的高保真视频生成模型

Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型

DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

所有知识型岗都要被AI“吞了，清华大学教授刘嘉：未来大学分化猛烈，软件公司靠 “几人 + Agent” 就够