Speech-02 是 MiniMax 推出的新一代(TTS)模型。模型基于回归 Transformer 架构,实现零样本,仅需几秒参考语音能生成高度相似的目标语音。Flow-VAE 架构增强了语音生成的信息表征能力,提升合成语音的质量和相似度。Speech-02提供两种版本,Speech-02-HD 专为高保真应用设计,如配音和有声读物,能消除节奏不一致问题,保持音质清晰, Speech-02-Turbo 针对实时性能优化,平衡超低延迟与卓越音质,适用于交互式应用。Speech-02模型已在平台及MiniMax API平台上线。


全部评论
留言在赶来的路上...
发表评论