AI可以模仿你的声音,播音员要失业了

AI可以模仿你的声音,播音员要失业了

AI可以模仿你的声音,播音员要失业了

当谈到个人隐私和信息安全的话题时,我们首先想到的都是密码、指纹甚至是自己的脸,这些都可以成为进行身份验证的关键信息。

但是你考虑过声音吗?如果有人可以完全模仿你的声音,那么能够进行哪些不法活动呢?没错,他们可以联系你的朋友家人,获取你的个人信息和财物。别以为这是危言耸听,这种可能性是真实存在的,并且能够给我们的个人财产安全造成极大的威胁。现在有一种人工智能技术,通过深度学习只需要60秒就能自动模仿我们的声音,你说可怕不可怕?

最近来自加拿大一家名叫Lyrebird的公司开发出了一种新的声音复制技术,听起来简直让人毛骨悚然。通过我们60秒的声音片段,再加上复杂的算法,就可以将我们的声音彻底分解,然后再将数据反向同步到计算机中,最后模拟出与我们一模一样的新声音。这种人工智能语音技术还可以通过文本的方式控制语音的内容,从而以我们的声音来复述任何内容。

这听起来的确非常疯狂,不过DigitalTrends指出,目前这只是一项概念技术,因此暂时还不能实现像电影中那么神奇的效果,但是未来一旦这项技术研制成功,那么可以造成的影响不容小觑。从好的方面说,我们可以将自己的声音融入到视频游戏或虚拟现实环境中,听起来就是自己的虚拟角色,甚至还可以像摩根·弗里曼一样拍摄一段属于自己的纪录片,这听起来都很不错。

但是,一旦这种技术被不怀好意的人利用,那么就可以通过模拟你的声音给亲朋好友打电话,借钱、充话费、诈骗等等,这才是一个真正的噩梦。

因此,任何技术和事物都有两面性,因此如何确保这种强大而神奇的新技术在积极的途径中使用,降低被坏人利用的风险,让我们的生活更方便、娱乐方式更多样,也是另外一个需要解决的问题。

另外百度也在这一领域进行了研究,并推出了deep voice

Deep Voice推出于一年多以前,是一个能实时合成语音的神经网络系统。当时的第一代产品,一个系统只能学习一个人的声音,而且需要用几小时音频进行训练。

百度一直在优化Deep Voice,随后的第二、三代模型就将所需的训练数据降到了半小时,一个系统还能模仿数千人的声音。

这次的“语音克隆”研究,是这一系统的最新进步。

效果究竟如何呢?需要亲耳听一听:

百度放出了用最新技术合成语音的几组例子,上面是量子位转录的其中一个,前一句是真人,后一句是AI克隆出来的。

更多例子在这里:https://audiodemos.github.io

这些例子中,语音克隆系统最多用了10段说话人语音样本,最少只有1个,每段样本只有3秒。量子位听了页面上的这些例子,通过10段样本合成出来的语音,就很自然、和原说话人非常相似了。1段、5段样本训练出来的语音,无论用哪种模型,依然明显不像人类。

在最新公布的论文Neural Voice Cloning with a Few Samples中,百度探讨了解决语音克隆问题的两种基本方法:说话人适应(speaker adaptation)和说话人编码(speaker encoding)

两种方法都适用于带有说话人嵌入的多说话人语音生成模型,不会降低其质量。

说话人适应基于反向传播,用少量样本对多说话人生成模型进行微调。这种适应可以应用于整个模型,也可以只用到低维的说话人嵌入(speaker embedding)上。如果只用于说话人嵌入,会拉长克隆所需的时间、降低音频质量,但可以用更少的参数来表示每个说话人。

说话人编码会单独训练一个模型,根据要克隆的音频,结合多说话人生成模型,来推理新的说话人嵌入。说话人编码模型具有从每个音频样本中检索身份信息的时间和频率域处理模块、以最优的方式将它们结合在一起的注意力模块。这种方法的优点是克隆所需时间短,表示每个说话人的参数少,在计算资源不足的设备上也能部署。


这种方法中的说话人编码器除了能计算出说话人嵌入,还能学会以有意义的方式将不同的说话人投射到嵌入空间,比如不同的性别,或者不同地方的口音会聚集到一起。因此,这个模型还能转换说话人的口音或者性别。

男声变女声、英音变美音的例子,可以在页面最下边找到:https://audiodemos.github.io

听几句话就能模仿你,百度并不是唯一一家,加拿大AI创业公司Lyrebird去年也发布了类似的产品,能通过1分钟音频模仿说话人。这款产品模仿川普、奥巴马、希拉里的音频,可以说是广为流传。

最后,想深入了解百度这次的语音克隆进展,还是要看论文:https://arxiv.org/pdf/1802.06006.pdf

百度研究院博客原文:http://research.baidu.com/neural-voice-cloning-samples/

{{collectdata}}

网友评论0