SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型

baidu09_com 2025-08-30 7 0

SongGen是上海AI Lab、北京航空航天大学和香港中文大学推出的单阶段自回归Transformer模型，用在从。SongGen基于歌词和描述性文本（如乐器、风格、情感等）作为输入，支持混合模式和双轨模式两种输出方式，分别用于直接生成人声与伴奏的混合音频，及分别合成人声和伴奏方便后期编辑。SongGen基于创新的音频标记化策略和训练方法，显著提升生成歌曲的自然度和人声清晰度，解决传统多阶段方法中训练和推理流程繁琐的问题。SongGen的开源性和高质量数据集为未来音乐生成研究提供了新的基准。