SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

作者:Jam 发布时间: October 16, 2025 分类:技术 No Comments

SongBloom是腾讯AI Lab联合香港中文大学（深圳）与南京大学研发的开源歌曲生成模型，解决AI音乐生成中的“塑料感”问题，实现高质量、结构完整的歌曲生成。只需输入10秒参考音频和对应歌词，即可生成2分30秒的双通道/48kHz高保真完整歌曲，包含前奏、主歌、副歌、尾声等完整结构。通过创新技术大幅降低歌词与旋律不匹配的“幻觉生成”现象，音素错误率显著降低，歌词准确性达行业新高度。人声音质细腻度超越顶尖商业模型Suno-V4.5，音乐性媲美专业创作，首次将自回归扩散模型引入长时歌曲生成，结合离散sketch token和VAE latent技术，兼顾结构连贯性与音质细节。

>>展开阅读

Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

作者:Jam 发布时间: October 16, 2025 分类:技术 No Comments

Pyscn是专为Python开发者设计的智能代码质量分析工具，主要用于检测代码中的潜在问题以提升可维护性。通过控制流图分析死代码、利用APTED+LSH算法识别重复代码，计算模块耦合度和圈复杂度等指标。工具采用Go和Tree-sitter开发，分析速度可达每秒10万行代码，支持生成HTML或JSON格式的报告。开源免费，可通过GitHub获取，特别适合用于检查AI生成代码的质量问题，如冗余代码或模块间过度依赖等。

>>展开阅读

Youtu-Embedding - 腾讯优图开源的通用文本表示模型

作者:Jam 发布时间: October 15, 2025 分类:技术 No Comments

Youtu-Embedding 是腾讯优图实验室开源的通用文本表示模型，专为企业级应用设计。通过深度神经网络将文本映射到高维向量空间，使语义相似的句子在该空间中距离更近，实现精准的语义检索。与传统信息检索系统依赖关键词匹配不同，Youtu-Embedding 通过语义理解提升搜索和问答系统的“理解力”，尤其适用于构建检索增强生成（RAG）系统。模型在中文语境下进行了优化，尤其在专业术语识别和多轮对话上下文关联方面表现出色，准确率提升了30%以上。广泛应用于企业客服、智能问答、内容推荐和知识管理等场景，能为大语言模型（LLM）提供更准确的外部知识，使生成的答案更精确、可控且可解释。

>>展开阅读

LLaVA-OneVision-1.5 - 免费开源的多模态模型，高性能多模态理解

作者:Jam 发布时间: October 15, 2025 分类:技术 No Comments

LLaVA-OneVision-1.5是EvolvingLMMS-Lab团队开源的多模态模型，采用8B参数规模，通过紧凑三阶段训练流程（语言-图像对齐、概念均衡与知识注入、指令微调）在128张A800 GPU上4天完成预训练，总成本约1.6万美元。其核心创新包括RICE-ViT视觉编码器支持原生分辨率与区域级细粒度语义建模，以及通过"概念均衡"策略优化数据利用率。在OCR、文档理解等任务上性能超越Qwen2.5-VL，并首次实现全流程开源（含数据、训练工具链、评测脚本），显著降低多模态模型复现门槛。模型代码已发布在GitHub，支持社区低成本复现与二次开发。 1760419266-1760419266-LLaVA-OneVision-1.5-website1.png

>>展开阅读

MineContext - 字节开源的主动式上下文感知AI伙伴

作者:Jam 发布时间: October 14, 2025 分类:技术 No Comments

MineContext是字节跳动Viking团队开源的主动式上下文感知AI伙伴，帮助用户高效管理海量信息，提升知识工作效率。过屏幕截图和内容理解技术，自动记录用户日常操作（如浏览网页、编辑文档等），支持多模态信息收集（未来扩展至文档、图片、视频等）。数据本地存储，保障隐私安全。提炼关键信息，以每日总结、待办事项等形式主动推送，帮助用户聚焦重要信息，告别被动查询。在创作或决策时，动态提供相关资料、笔记和历史记录，激发灵感，提升创作效率。

>>展开阅读

sageread - 支持 AI 对话电子书阅读器

作者:Jam 发布时间: October 14, 2025 分类:技术 No Comments

有时候看电子书对一些内容不理解或者啥的，你可能会去搜索相关的介绍，现在可以用这款支持 AI 对话电子书阅读器「SageRead」你可以用它来读电子书，做笔记和高亮标注。不懂的地方直接问 AI，它会根据书籍内容给你解答。 20251013-4

>>展开阅读

DeepSider侧边栏AI智能助手安装教程

作者:Jam 发布时间: October 13, 2025 分类:技术 No Comments

DeepSider是一款集成于浏览器侧边栏的AI对话工具，可免费使用所有顶级大模型包括最新的Sora2, GPT-4o画图, GPT-4.1, GPT-o3, Grok 4, Claude 4 Sonnet, Claude 4 Opus, Gemini 2.5 Pro, FLUX画图, DeepSeek R1等以极简交互与超快的响应速度，完成AI搜索、实时问答、内容创作、翻译、代码生成等复杂任务

>>展开阅读

Jam's Blog II

JamLee.Life 心情演绎

SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

Youtu-Embedding - 腾讯优图开源的通用文本表示模型

LLaVA-OneVision-1.5 - 免费开源的多模态模型，高性能多模态理解

MineContext - 字节开源的主动式上下文感知AI伙伴

sageread - 支持 AI 对话电子书阅读器

DeepSider侧边栏AI智能助手安装教程

最新版国内直连Sora2，无水印免费使用教程