VibeVoice - 微软推出的文本到语音模型

VibeVoice 是微软推出的新型文本到语音(TTS)模型。模型能生成多达 4 位不同说话者的对话式音频,支持长达 90 分钟的连续语音输出,突破传统 TTS 系统的长度限制。VibeVoice 生成的语音富有表现力,能根据文本内容产生带有情感和语调的语音,让对话更自然生动。VibeVoice支持多种语言的语音合成,能处理跨语言对话场景,生成的语音质量高,接近人类自然语音。VibeVoice 能应用在播客制作、有声读物、虚拟助手、教育和培训、娱乐和游戏等多个领域,为相关场景提供自然流畅的语音交互体验。VibeVoice - 微软推出的文本到语音模型

>>展开阅读

Grok 2.5 - 马斯克旗下xAI开源的人工智能模型

Grok 2.5是埃隆·马斯克旗下的xAI公司开源的人工智能模型。拥有2690亿参数,基于混合专家(MoE)架构,具有强大的性能和推理能力。模型在研究生级科学知识(GPQA)、通用知识(MMLU、MMLU-Pro)和数学竞赛(MATH)等测试中表现卓越,接近当前前沿水平。Grok 2.5的文件包含42个权重文件,总容量约500GB,需要至少8个显存超过40GB的GPU才能运行。xAI建议使用SGLang语言和最新版的SGLang推理引擎来运行该模型。在逻辑推理和代码生成方面表现出色,适合用于学术研究和解决复杂问题。Grok 2.5 - 马斯克旗下xAI开源的人工智能模型

>>展开阅读