TANGOFLUX – 英伟达联合新加坡科技设计大学开源的文本到音频生成模型

baidu09_com 2025-08-31 7 0

TANGOFLUX是高效的文本到音频生成模型，是新加坡科技设计大学（SUTD）和NVIDIA共同推出的。模型拥有约5.15亿参数，能在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。TANGOFLUX用CLAP-Ranked Preference Optimization（CRPO）框架，基于迭代生成和优化偏好数据来提升模型的音频对齐能力。模型在客观和主观基准测试中均展现出优异的性能，在GitHub等平台开源代码和模型，支持进一步的研究。