Reverb ASR是Rev公司推出的开源自动语音识别和说话人分离模型,基于20万小时的人工转录英语数据训练而成。模型在长语音识别领域表现卓越,适合处理如播客和财报电话会议等场景。Reverb ASR支持用户控制输出文本的逐字程度,支持从完全逐字到非逐字的不同风格,满足精确转录和提高可读性的需求。Reverb ASR提供多种解码模式,包括注意力解码和CTC前缀束搜索,适应不同的识别任务。在长篇幅语音识别方面,Reverb ASR的性能超过现有的开源模型,如OpenAI的Whisper和NVIDIA的Canary-1B。

Reverb ASR – Rev公司开源的自动语音识别和说话人分离模型  第1张
(图片来源网络,侵删)
Reverb ASR – Rev公司开源的自动语音识别和说话人分离模型  第2张
(图片来源网络,侵删)