Draw an Audio 是中国科学院自动化研究所和美团点评的研究人员推出的视频生成音频系统。根据视频内容自动生成匹配的声音效果,类似于电影制作中的 Foley 艺术。系统分析视频结合多种输入指令,如文本、视频遮罩和响度信号,生成与视频内容、时间和响度一致的音频。核心架构包括潜在扩散模型(LDM)、文本条件模型、掩码注意力模块(MAM)和时间-响度模块(TLM),组件共同确保音频生成的高质量和准确性。为视频内容创作者提供了一个强大的工具,声音设计过程更加高效和灵活。

Draw an Audio – 中科院联合美团推出的视频生成音频系统  第1张
(图片来源网络,侵删)
Draw an Audio – 中科院联合美团推出的视频生成音频系统  第2张
(图片来源网络,侵删)