3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态开源项目,基于结合声学、语义、视觉信息,实现高精度的说话人识别和语种识别。3D-Speaker提供工业级模型、训练和推理代码,及大规模多设备、多距离、多方言的数据集,支持高挑战性的语音研究。最新更新增强多说话人日志功能,提升识别效率和准确性,适用于大规模对话数据的高效处理。

3D-baidu09Speaker – 阿里通义推出的多模态说话人识别任务开源项目  第1张
(图片来源网络,侵删)
3D-baidu09Speaker – 阿里通义推出的多模态说话人识别任务开源项目  第2张
(图片来源网络,侵删)