抖音数字分身虚拟数字人直播技术的几种实现方式

最近各大直播平台的数字人直播太火了,数字人不仅可以24小时直播,而且还能与观众互动,甚至如果直播不说,你还以为是真人主播,太逼真了,主要用于文旅、餐饮、带货、服装等行业。我去咨询了一下价格,起步都是几万块,太贵了,明明是开源的软件,国内就变成商业收费的项目了,今天我来说一下实现这种数字人虚拟分身的几种开源实现方式,给大家省点钱。

抖音数字分身虚拟数字人直播技术的几种实现方式

一、数字主播话术文案脚本生成

主播说的文字可以通过chatgpt直接生成文案,你只要告诉chatgpt你的要求,chatgpt就能帮你生成24小时都说不完的文案,太强大了。当然国内也有一些模仿chatgpt的跟随者。这个文字就是后面驱动数字人说话生成音频声音及声音的基础。

网址:https://chat.openai.com/chat

二、首先是数字人声音克隆

数字人直播首先我们从声音克隆开始,因为直播都是通过声音来驱动的,我们可以将真人主播的声音进行克隆训练,生成一个模型,然后就可以通过文字来生成直播说话的声音了,推荐一个开源项目so-vits-svc,支持文件和实时转换输出。

https://github.com/svc-develop-team/so-vits-svc

如果不克隆真人主播声音,可以使用其他的文本转语音服务商提供的接口,输出文本,选择主播声音,生成声音文件。

三、数字人主播画面

数字人主播的画面有很多,目前抖音上看到的有以下几种:

1、视频实时换脸直播

可以使用开源软件DeepFaceLive来实时将真人主播直播或录播画面中主播的脸部更换成其他任何人的脸部。结合实时的声音克隆工具可以实时将摄像头前的主播脸部与声音更换成其他人的脸与声音,换的连他妈都认为是本人(切勿用户非法用途)。

开源地址:https://github.com/iperov/DeepFaceLive

2、三维模型数字人说话

这个就是创建一个三维人物模型,通过文字或声音来驱动三维模型说话眨眼做出一些表情,亦可以通过动捕或面部设备实现。

用到的技术主要是unreal中的metahuman和三维建模技术

开源项目:https://code.bfw.wiki/code/16587364154693830069.html

3、二维卡通数字人说话

这个通过创建一个二维卡通人,通过文字或声音来驱动三维模型说话眨眼做出一些表情。

可以看看这个开源的项目:https://code.bfw.wiki/code/16822152954848100013.html

https://code.bfw.wiki/code/16822156839257730041.html

4、真人录制片段+文字声音匹配口型输出

这个需要预先录制一段真人主播的视频,一般10分钟左右,然后通过ai技术将主播的声音进行克隆,然后输入文字,生成一段直播读稿的声音,然后通过ai技术将声音与视频进行口型匹配及无缝循环输出,这样就能看到一个主播的数字分身了。

开源项目教程:https://blog.bfw.wiki/user12305/16788860964880190033.html

5、ai绘画生成数字人照片,结合照片说话技术

这个通过midjourney或stable diffusion生成一个逼真的数字人,然后通过文字转语音生成声音,驱动照片说话就好了。

照片说话开源技术:https://blog.bfw.wiki/biji_16817760453103150098.html

{{collectdata}}

网友评论0