VideoChat是开源的实时数字人对话系统,支持语音输入和实时对话功能。用户自定义数字人的形象和音色,无需训练即可进行音色克隆,首包延迟可低至3秒,适用于直播、新闻播报和聊天助手等多种实时语音交互场景。系统支持支持GLM-4-Voice,提供ASR-LLM-TTS-THG和MLLM-THG两种生成方式。VideoChat用Gradio框架构建交互式应用,支持流式视频输出,方便快速部署和构建。

VideoChat – 开源的实时数字人对话系统,首包延迟低至3秒  第1张
(图片来源网络,侵删)
VideoChat – 开源的实时数字人对话系统,首包延迟低至3秒  第2张
(图片来源网络,侵删)