微软发布一种利用文本、图像和轨迹作为三个基本控制因素的可控视频生成模型DragNUWA

微软发布一种利用文本、图像和轨迹作为三个基本控制因素的可控视频生成模型DragNUWA

800_auto

DragNUWA 是一种视频生成模型,可以从语义、空间和时间三个方面实现高度可控的视频生成。

文本进行提示,图片作为参考,图片中物体绘制轨迹,这样就生成...

点击查看剩余70%

{{collectdata}}

网友评论