又一款开源声音驱动照片说话项目KDTalker来了
KDTalker 是一个由利物浦大学、蚂蚁集团、西交利物浦大学、昆山杜克大学和理光软件研究中心共同推出的新型框架,用于从单张图像和音频生成自然且动态的“说话肖像”视频。
它结合了无监督的隐式 3D 关键点和时空扩散模型,能够显著提升生成视频的唇部同步精度、头部姿态多样性和生成效率。
主要功能
唇部同步:通过精确的唇部运动与音频同步,生成自然的说话效果。
头部姿态多样性:生成丰富多样的头部姿态,使动画更加生动自然。
高效生成:在保持高质量的同时,实现快速的实时生成,适...
点击查看剩余70%
网友评论