EchoMimicV3是蚂蚁集团推出的高效多模态、多任务框架。框架拥有13亿参数,基于任务混合和模态混合范式,结合新颖的训练与推理策略,实现快速、高质量、强泛化的数字人视频生成。EchoMimicV3基于多任务掩码输入和反直觉任务分配策略,及耦合-解耦多模态交叉注意力模块和时间步相位感知多模态分配机制,让模型在仅13亿参数下,能在多种任务和模态下表现出色,为数字人动画领域带来重大突破。

EchoMimicV3 – 蚂蚁集团推出的多模态数字人视频生成框架  第1张
(图片来源网络,侵删)
EchoMimicV3 – 蚂蚁集团推出的多模态数字人视频生成框架  第2张
(图片来源网络,侵删)