字节跳动发布 "MagicAvatar"替代Runway:AI 捕捉运动信号,一键生成视频
近日字节跳动荣幸地宣布发布全新的多模态框架 "MagicAvatar",这一框架可将文本、视频和音频等不同输入方式转化为动作信号,从而轻松生成并动画化虚拟人物。
"MagicAvatar" 的独特之处在于其多模态输入生成视频的能力。用户可以通过简单的文本提示创建虚拟人物,也可以根据源视频生成跟随给定动作的虚拟形象,甚至可以将特定主题的虚拟人物带入动画世界。
例如,只需输入"一个在火山里踢踏舞的宇航员",就可以生成对应的虚拟形象。
或者,用户可以直接提供源视频,然后 AI 将创建一个跟随给定动作的虚拟形象。
许多网友对 "MagicAvatar" 的生成效果赞叹不已,称之为 Runway 的 Gen-1 和 Gen-2 的替代品。
字节团队解释说,与以往直接从多模态输入生成视频不同,"MagicAvatar" 将视频生成明确分解为两个阶段。
第一阶段将多模态输入(文本、视频、语音等)转换为表示运动的信号,如人体姿态、深度信息和 DensePose 等。
第二阶段将第一阶段生成的运动信号与外观描述一起输入模型,然后生成视频。
不得不提的是,DensePose 是一种计算机视觉技术,用于将人体在图像上的姿态信息与一个3D人体模型进行关联。
例如,如果我们想生成一个 "女子交叉手臂在舞池跳舞" 的视频,只需将提示词输入 AI,AI 将先识别生成交叉手臂的动作,然后再生成目标形象。
这种方法的优势在于降低了学习难度,不同模态之间可以使用独立的数据进行训练,而且不需要所有模态同时存在的数据集。
此外,"MagicAvatar" 还支持用户上传目标人物的图片,以为特定人物生成动画,满足个性化需求。
未来,研究团队表示还将推出音频引导形象生成的功能,用户只需通过音频输入就能创建形象,如说话或唱歌。这一创新的多模态框架将为内容创作者和虚拟形象设计者提供更多创作可能性。
github:https://magic-avatar.github.io/
网友评论