OpenAI的新模型Whisper要替代5万名转录员
9月21日,OpenAI 发布了一个名为「Whisper 」的神经网络,声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。

「Whisper 」是一个自动语音识别(ASR)系统,研究团队通过使用从网络上收集的68万个小时多语音和多任务监督数据,来对其进行训练。
训练过程中研究团队发现,使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。
此前有不同研究表明,虽然无监督预训练可以显著提高音频编码器的质量,但由于缺乏同等高质量的预训练解码器,以及特定于数据集中的微调协议,因此在一定程度上限制了模型的有效性和鲁棒性;而在部分有监督的方式预训练语音识别系统中,其表现会比单一源训练的模型呈现出更高的鲁棒性。
对此,在「Whisper 」中,OpenAI 在新数据集比现有高质...
点击查看剩余70%
网友评论