DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架
DiaMoE-TTS 是清华大学和巨人网络联合开源的多方言语音合成框架,基于国际音标(IPA),解决方言数据稀缺、正字法不一致和音系变化复杂等问题。通过统一的 IPA 前端标准化音素表示,消除跨方言差异,采用方言感知的 Mixture-of-Experts(MoE)架构,让不同专家网络专注于学习不同方言的特征,保留每种方言的独特音色和韵律。框架基于 F5-TTS 构建,引入低秩适配器(LoRA)和条件适配器,实现参数高效的方言迁移,仅需微调少量参数即可完成方言扩展。完全基于开源数据训练,无需昂贵的人工标注语音,降低了技术门槛。实验表明,DiaMoE-TTS 能生成自然且富有表现力的语音,在仅使用几小时数据的情况下,对未见方言和专业领域(如京剧)实现了零样本性能。DiaMoE-TTS 支持 11 种方言和普通话,可扩展到欧洲语言。