美团开源高效高保真零样本文本转语音克隆(TTS)模型LongCat-AudioDiT

美团开源高效高保真零样本文本转语音克隆(TTS)模型LongCat-AudioDiT

LongCat-AudioDiT 是美团 LongCat 团队开源的高保真文本转语音(TTS)模型,以波形潜空间直接建模的核心创新,彻底颠覆传统 TTS 技术路径。

800_auto

模型摒弃 “文本→梅尔谱→声码器→波形” 的多阶段流程,仅由Wav-VAE 波形编码器与扩散 Transformer(DiT)构成极简架构,大幅减少信息损耗与误差累积。其 3.5B 版本在中文...

点击查看剩余70%

{{collectdata}}

网友评论