OmniTalker – 阿里推出的实时文本驱动说话头像生成框架

baidu09_com 2025-08-30 8 0

OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术，能同时处理文本、图像、音频和视频等多种模态输入，以流式方式生成自然语音响应。核心架构为 Thinker-Talker 架构，Thinker 负责处理多模态输入并生成语义表征和文本内容，Talker 将这些信息转化为流畅的语音输出。OmniTalker 采用了 TMRoPE（时间对齐多模态旋转位置嵌入）技术，确保视频与音频输入的精准同步。