OpenAI 最近推出了音频 API,其中包括基于其 TTS(文本到语音)技术的文本到语音功能 – speech
。该功能提供六种内置语音,分别为 Alloy、Echo、Fable、Onyx、Nova 和 Shimmer。
Now it’s time to create your first text-to-speech. Refer to the code below, and replace YOUR_API_KEY_HERE
with your actual API key.
现在是创建第一个文本到语音的时候了。请参考下面的代码,并将此处的 YOUR_API_KEY_HERE
替换为您的实际 API 密钥。
示例:
复制整段代码,粘贴到终端(Windows 用户可以使用 Command Prompt 或 PowerShell),然后按 Enter。
就是这样!此操作将创建一个名为 example.mp3
的音频文件,文件名为 “hello world”。
现在,您已经熟悉了使用 OpenAI 音频 API 将文本转换为逼真的口语音频,让我们深入了解一下您可以进行的其他调整,这些调整将影响 TTS 输出的质量和风格。
基本上,您可以修改以下内容:
默认模型为 tts-1
,响应速度快,但质量稍差。您可以切换到 tts-1-hd
型号,以获得更高清晰度的音频输出。
任何用双引号括起来的文本都将转换成语音。示例:
目前有六种不同的声音可供选择: alloy
, echo
, fable
, onyx
, nova
, 和 shimmer
。示例:
默认情况下,输出为 .mp3 格式。不过,您可以更改文件名或选择其他支持的音频格式。目前支持的格式包括
示例:
在哪里可以找到创建的音频文件?
输出文件位于执行 cURL 脚本的同一文件夹或路径中。要查找终端(Windows 用户:PowerShell 或 Command Prompt)的当前目录,请使用以下命令:
能否创建和使用我的语音的自定义副本?
OpenAI 目前不支持此功能。
其他语音选项听起来如何?
您可以使用不同的语音参数生成音频,听一听其他语音的声音,也可以访问聆听样本。
它支持其他语言吗?
是的,它支持多种语言。我已经用日语、中文(普通话)、越南语和西班牙语进行了测试,它们听起来都很合理。
全部评论
留言在赶来的路上...
发表评论