万事问AI的时代,如何搞流量?

在美国发现大家聊得最多的不是大模型谁家最强,也不是哪家大模型炒股挣了多少钱,或者xxx融了多少钱,而是:GEO(生成式引擎优化)和GTM(Go to Market),都是流量,说明美国现在不缺AI产品点子,缺的是流量、曝光、声量、被看见的机会,以及,当然,增长。

>>展开阅读

DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS 是清华大学和巨人网络联合开源的多方言语音合成框架,基于国际音标(IPA),解决方言数据稀缺、正字法不一致和音系变化复杂等问题。通过统一的 IPA 前端标准化音素表示,消除跨方言差异,采用方言感知的 Mixture-of-Experts(MoE)架构,让不同专家网络专注于学习不同方言的特征,保留每种方言的独特音色和韵律。框架基于 F5-TTS 构建,引入低秩适配器(LoRA)和条件适配器,实现参数高效的方言迁移,仅需微调少量参数即可完成方言扩展。完全基于开源数据训练,无需昂贵的人工标注语音,降低了技术门槛。实验表明,DiaMoE-TTS 能生成自然且富有表现力的语音,在仅使用几小时数据的情况下,对未见方言和专业领域(如京剧)实现了零样本性能。DiaMoE-TTS 支持 11 种方言和普通话,可扩展到欧洲语言。DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

>>展开阅读

UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel是香港理工大学、腾讯、中国科学院和vivo等机构联合提出的新型多模态模型,实现像素级视觉语言理解。通过统一对象指代和分割能力,支持多种细粒度任务,如图像分割、视频分割、区域理解以及PixelQA任务。UniPixel的核心优势在于其强大的像素级推理能力,能根据语言描述生成精确的像素级掩码,实现语言与视觉的深度融合。在多个基准测试中,UniPixel表现出色,例如在ReVOS推理分割基准上,UniPixel-3B达到了62.1 J&F的高分,超越了现有所有模型。UniPixel提供了丰富的模型权重和数据集,支持灵活的硬件设置和高效的训练技术,为研究和应用提供了极大的便利。在智能监控、内容创作、教育、医疗影像分析和自动驾驶等领域的广泛应用前景。UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

>>展开阅读

AI让答案变得廉价,好问题才能让你脱颖而出

AI让答案触手可及,当人人都能给出标准答案,好问题越来越稀缺。提出一个好问题太重要了。一个好问题能拓展认知疆域,重构问题本身。巧妙地提问会让你更加聪明。通过提问,我们学习、交流、观察、创造;我们打破界限、发现秘密、探索疆界,设想做事情的新途径……那么什么是一个好问题?如何才能提出一个好问题呢?本文我们就来聊聊这件事。

>>展开阅读

为什么只有5%的AI Agent落地成功?

为什么 95% 的 AI Agents 部署都失败了?成功的那些有什么实践经验可以借鉴?前两天,在旧金山的一场行业研讨会上,来自 Uber、WisdomAI、EvenUp 和 Datastrato 的工程师与机器学习负责人们,聊了聊构建 AI Agent “冰山之下的核心关键” :上下文选择、语义层、记忆编排、治理机制以及多模型路由。

>>展开阅读