AI开源拟声生成音效人声和音乐工具audioldm-BFW编程笔记

AI开源拟声生成音效人声和音乐工具audioldm

AudioLDM是一种基于潜在空间的文本转语音(TTA)系统。它利用对比学习的语言-音频预训练(CLAP)来学习连续的音频表示。

800_auto

预训练的CLAP模型使我们可以在采样期间训练潜在扩散模型(LDM),同时提供文本嵌入作为条件。通过学习音频信号及其组合的潜在表示而无需建模跨模态关系,AudioLDM在生成质量和计算效率方面具有优势。

AudioLDM在单个GPU上训练了AudioCaps,根据客观和主观指标(例如,Fréchet距离)达到了最先进的TTA...

点击查看剩余70%

打赏博主×