阿里开源实时声音克隆与人像嘴唇同步表情控制数字人对话技术OmniTalker-BFW编程笔记

阿里开源实时声音克隆与人像嘴唇同步表情控制数字人对话技术OmniTalker

OmniTalker 是阿里巴巴通义实验室推出的一款实时文本驱动的说话头像生成框架，能够在实时零样本场景中同时生成同步的语音和说话头像视频，同时保留语音风格和面部风格。只要给出一个人说话的视频作为参考，再给一段文字，就能生成一个以假乱真的真人数字人克隆说话视频，并能实时与他进行对话。

核心功能与技术特点

多模态输入处理：OmniTalker 能够处理文本、图像、音频和视频等多种模态输入。

表情控制：可以参考同一个人物不同表情视频，结合文字输入自动判断情感生成不同表情的视频

800_auto

流式生成：采用分块处理方法，支持流式输入和即时输出，音频和视频编码器按块处理长序列多模态数据，降低延迟并提高效率。

音视频精准同步：通过 TMRoPE（时间对齐...

点击查看剩余70%

打赏博主×