TANGOFLUX是高效的文本到音频生成模型,是新加坡科技设计大学(SUTD)和NVIDIA共同推出的。模型拥有约5.15亿参数,能在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。TANGOFLUX用CLAP-Ranked Preference Optimization(CRPO)框架,基于迭代生成和优化偏好数据来提升模型的音频对齐能力。模型在客观和主观基准测试中均展现出优异的性能,在GitHub等平台开源代码和模型,支持进一步的研究。


TANGOFLUX是高效的文本到音频生成模型,是新加坡科技设计大学(SUTD)和NVIDIA共同推出的。模型拥有约5.15亿参数,能在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。TANGOFLUX用CLAP-Ranked Preference Optimization(CRPO)框架,基于迭代生成和优化偏好数据来提升模型的音频对齐能力。模型在客观和主观基准测试中均展现出优异的性能,在GitHub等平台开源代码和模型,支持进一步的研究。
全部评论
留言在赶来的路上...
发表评论