SongGen是上海AI Lab、北京航空航天大学和香港中文大学推出的单阶段自回归Transformer模型,用在从。SongGen基于歌词和描述性文本(如乐器、风格、情感等)作为输入,支持混合模式和双轨模式两种输出方式,分别用于直接生成人声与伴奏的混合音频,及分别合成人声和伴奏方便后期编辑。SongGen基于创新的音频标记化策略和训练方法,显著提升生成歌曲的自然度和人声清晰度,解决传统多阶段方法中训练和推理流程繁琐的问题。SongGen的开源性和高质量数据集为未来音乐生成研究提供了新的基准。

SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型  第1张
(图片来源网络,侵删)
SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型  第2张
(图片来源网络,侵删)