FLOAT是DeepBrain AI 和韩国先进科技研究院推出的音频驱动说话人头像生成模型,基于流匹配生成模型,学习运动潜在空间实现高效的时间一致性运动设计。模型基于Transformer架构的向量场预测器,实现帧间时间一致性,支持语音驱动的情感增强,让生成的说话动作更自然、富有表现力。FLOAT在视觉质量、运动保真度和生成效率方面均超越现有的基于扩散和非扩散的方法,达到业界领先水平。

FLOAT – 基于流匹配的音频驱动说话人头像生成模型  第1张
(图片来源网络,侵删)
FLOAT – 基于流匹配的音频驱动说话人头像生成模型  第2张
(图片来源网络,侵删)