Mora是由来自微软和理海大学的研究人员推出的一个多智能体(AI Agents)框架,专门用于通用视频生成任务,目标是模拟并扩展OpenAI的视频生成模型。该框架的核心理念是通过多个视觉智能体的协作来生成高质量的视频内容,Mora通过分解视频生成过程为多个子任务,并为每个子任务分配一个专门的智能体,从而实现了各种视频生成的功能。

根据论文中的实验结果显示,Mora在生成高分辨率(1024×576)且时间持续12秒的视频方面表现出色,总共包含75帧。但当涉及大量物体运动的场景时,Mora与Sora相比存在显著的性能差距。此外,尝试生成超过12秒的视频会导致视频质量显著下降。

Mora的工作原理基于一个多智能体框架,该框架通过协同多个专门化的AI智能体来完成视频生成任务。每个智能体都负责处理特定的子任务,这些子任务共同构成了完整的视频生成流程。

Mora – 微软等推出的可生成12秒视频的多AI智能体框架  第1张
(图片来源网络,侵删)

以下是Mora工作流程的详细步骤: