NVIDIA开源高性能自动语音识别(ASR)模型Parakeet-TDT-0.6B-v2

NVIDIA开源高性能自动语音识别(ASR)模型Parakeet-TDT-0.6B-v2

800_auto

Parakeet-TDT-0.6B-v2 是NVIDIA开发的一款高性能自动语音识别(ASR)模型,专为高质量英语转录设计,具备自动标点、大写和精确的逐字时间戳预测功能。该模型拥有6亿参数,结合了FastConformer编码器和Token-and-Duration Transducer(TDT)解码器,针对NVIDIA GPU(如A100、H100、T4、V100)进行了优化。它能在大约1秒内转录1小时的音频,实现实时因子(RTFx)约3386。

性能与特点

高准确率:在Hugging Face的Open ASR Leade...

点击查看剩余70%

{{collectdata}}

网友评论