分享6款文字语音生成驱动虚拟数字人说话的开源项目-BFW博客

分享6款文字语音生成驱动虚拟数字人说话的开源项目

今天给大家介绍一下6款虚拟数字人的开源项目，可以下载源码进行学习。

一、FACEGOOD的Audio2Face

github地址：https://github.com/FACEGOOD/FACEGOOD-Audio2Face

FACEGOOD 对输入和输出数据做了相应的调整，声音数据对应的标签不再是模型动画的点云数据而是模型动画的 blendshape 权重。最终的使用流程如下图 1 所示：

分享6款文字语音生成驱动虚拟数字人说话的开源项目

上面的流程中，FACEGOOD 主要完成 Audio2Face 部分，ASR、TTS 由思必驰智能机器人完成。如果你想用自己的声音，或第三方的，ASR、TTS 可以自行进行替换。当然，FACEGOOD Audio2face 部分也可根据自己的喜好进行重新训练，比如你想用自己的声音或其它类型的声音，或者不同于 FACEGOOD 使用的模型绑定作为驱动数据，都可以根据下面提到的流程完成自己专属的动画驱动算法模型训练。那么 Audio2Face 这一步的框架是什么样呢？又如何制作自己的训练数据呢？具体如下图 2 所示：

分享6款文字语音生成驱动虚拟数字人说话的开源项目

常规的神经网络模型训练大致可以分为三个阶段：数据采集制作、数据预处理和数据模型训练。第一阶段，数据采集制作。这里主要包含两种数据，分别是声音数据和声音对应的动画数据。声音数据主要是录制中文字母表的发音，以及一些特殊的爆破音，包含尽可能多中发音的文本。而动画数据就是，在 maya 中导入录制的声音数据后，根据自己的绑定做出符合模型面部特征的对应发音的动画；第二阶段，主要是通过 LPC 对声音数据做处理，将声音数据分割成与动画对应的帧数据，及 maya 动画帧数据的导出。第三阶段就是将处理之后的数据作为神经...

点击查看剩余70%

打赏博主×

分享6款文字语音生成驱动虚拟数字人说话的开源项目

网友评论0

AI崛起：虚拟乌托邦还是人类末日的前奏？

如何在c#winform中嵌入chrome浏览器内核

程序员必经阶段“菜鸟”，看看你是否也是

5G给程序员带来哪些机遇？

vue编写兼容chatgpt、coze、千问、智谱流式ai问答助手webui交互页面

php正则匹配多个结果，按位置顺序替换结果

mysql 根据关键词权重搜索

微信小程序获取formid订阅消息并发送给用户

一步一步带你用超级账本fabric打造一个联盟链的应用

大牛给出的10条提高网站加载速度的建议

{{item.title}}

deepfacelive实时换脸直播视频通话教程

浅谈AI克隆人的几个开源项目

这个世界是真实的吗？

分享6款文字语音生成驱动虚拟数字人说话的开源项目

deepfakelab进行换脸入门教程

GitHub上的17款开源项目推荐

AI人工智能实时克隆别人声音将你的声音变成任意一个人的声音

教你用ChilloutMix让ai人工智能创作真假难辨的美女照片

教你实现在国内正常访问chatgpt接口

声音驱动照片或视频人物说话嘴唇同步开源库Wav2Lip教程

人形机器人的运动能否有端侧ai全面接管？

有没有抓取抖音头条等自媒体平台指定主题的评论的python开源程序？

css如何实现多个代码块向下滚动右上角复制按钮sticky粘性在顶部效果？

python+Quill如何实现多人实时文档编辑html？

什么是ai的6A工作流规则？

&、nohup、screen、tmux在linux中后台执行的区别？

python如何将调用ai大模型生成的文件修改行操作指令修改原文件后保存？

python如何将2d平面线图转换成数字2d线稿图？

acejs代码编辑器如何调用openai api实现选择代码修改与代码自动补全？

ace.js如何获取选择文本的开始和结束行数？