Dia-1.6B:开源文本转语音模型,支持人声情感和语调控制,对话更生动自然
由 Nari Labs 开发的开源文本转语音(TTS)模型 Dia-1.6B,凭借其卓越的对话生成能力和高度逼真的语音效果,正在重新定义 TTS 领域。该模型拥有 16 亿参数,能够直接将文本脚本转换为自然流畅的对话语音,并支持情感和语调控制。
此外,Dia-1.6B 还能生成非语言声音,如笑声、咳嗽声和清嗓子声,使对话更加生动自然。
核心功能
自然对话生成:Dia-1.6B 可以生成高度逼真的对话语音,支持多说话者标记(如 [S1]、[S2]),适合多人对话场景。
情感与语调控制:用户可以通过音频提示或固定种子调整生成语音的情感和语调,使语音更...
点击查看剩余70%
网友评论