Parakeet TDT 0.6B 是英伟达推出的开源自动(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其持续时间加速推理,减少计算开销。模型在1秒内可转录60分钟音频,实时因子(RTFx)达3386,平均单词错误率(WER)仅为6.05%,在LibriSpeech-clean数据集上WER低至1.69%,位居Hugging Face Open ASR Leaderboard榜首。

Parakeet TDT 0.6B – 英伟达开源的自动语音识别模型  第1张
(图片来源网络,侵删)
Parakeet TDT 0.6B – 英伟达开源的自动语音识别模型  第2张
(图片来源网络,侵删)