Speech-baidu0902 – MiniMax 推出的新一代文本转语音模型

baidu09_com 2025-08-30 8 0

Speech-02 是 MiniMax 推出的新一代（TTS）模型。模型基于回归 Transformer 架构，实现零样本，仅需几秒参考语音能生成高度相似的目标语音。Flow-VAE 架构增强了语音生成的信息表征能力，提升合成语音的质量和相似度。Speech-02提供两种版本，Speech-02-HD 专为高保真应用设计，如配音和有声读物，能消除节奏不一致问题，保持音质清晰， Speech-02-Turbo 针对实时性能优化，平衡超低延迟与卓越音质，适用于交互式应用。Speech-02模型已在平台及MiniMax API平台上线。