又一款开源声音驱动照片说话项目KDTalker来了-BFW编程笔记

又一款开源声音驱动照片说话项目KDTalker来了

KDTalker 是一个由利物浦大学、蚂蚁集团、西交利物浦大学、昆山杜克大学和理光软件研究中心共同推出的新型框架，用于从单张图像和音频生成自然且动态的“说话肖像”视频。

800_auto

它结合了无监督的隐式 3D 关键点和时空扩散模型，能够显著提升生成视频的唇部同步精度、头部姿态多样性和生成效率。

主要功能

唇部同步：通过精确的唇部运动与音频同步，生成自然的说话效果。

头部姿态多样性：生成丰富多样的头部姿态，使动画更加生动自然。

高效生成：在保持高质量的同时，实现快速的实时生成，适...

点击查看剩余70%

打赏博主×