OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术,能同时处理文本、图像、音频和视频等多种模态输入,以流式方式生成自然语音响应。核心架构为 Thinker-Talker 架构,Thinker 负责处理多模态输入并生成语义表征和文本内容,Talker 将这些信息转化为流畅的语音输出。OmniTalker 采用了 TMRoPE(时间对齐多模态旋转位置嵌入)技术,确保视频与音频输入的精准同步。

OmniTalker – 阿里推出的实时文本驱动说话头像生成框架  第1张
(图片来源网络,侵删)
OmniTalker – 阿里推出的实时文本驱动说话头像生成框架  第2张
(图片来源网络,侵删)