首页 / 人工智能 / 如何使用OpenAI将文本转换为语音

如何使用OpenAI将文本转换为语音

baidu09_com 2025-08-30 8 0

OpenAI 最近推出了音频 API，其中包括基于其 TTS（文本到语音）技术的文本到语音功能 – speech。该功能提供六种内置语音，分别为 Alloy、Echo、Fable、Onyx、Nova 和 Shimmer。

如何使用OpenAI将文本转换为语音第1张

Now it’s time to create your first text-to-speech. Refer to the code below, and replace YOUR_API_KEY_HERE with your actual API key.

现在是创建第一个文本到语音的时候了。请参考下面的代码，并将此处的 YOUR_API_KEY_HERE 替换为您的实际 API 密钥。

示例:

复制整段代码，粘贴到终端（Windows 用户可以使用 Command Prompt 或 PowerShell），然后按 Enter。

就是这样！此操作将创建一个名为 example.mp3 的音频文件，文件名为 “hello world”。

现在，您已经熟悉了使用 OpenAI 音频 API 将文本转换为逼真的口语音频，让我们深入了解一下您可以进行的其他调整，这些调整将影响 TTS 输出的质量和风格。

基本上，您可以修改以下内容：

默认模型为 tts-1 ，响应速度快，但质量稍差。您可以切换到 tts-1-hd 型号，以获得更高清晰度的音频输出。

任何用双引号括起来的文本都将转换成语音。示例：

目前有六种不同的声音可供选择： alloy, echo, fable, onyx, nova, 和 shimmer。示例：

默认情况下，输出为 .mp3 格式。不过，您可以更改文件名或选择其他支持的音频格式。目前支持的格式包括

示例:

在哪里可以找到创建的音频文件？

输出文件位于执行 cURL 脚本的同一文件夹或路径中。要查找终端（Windows 用户：PowerShell 或 Command Prompt）的当前目录，请使用以下命令：

能否创建和使用我的语音的自定义副本？

OpenAI 目前不支持此功能。

其他语音选项听起来如何？

您可以使用不同的语音参数生成音频，听一听其他语音的声音，也可以访问聆听样本。

它支持其他语言吗？

是的，它支持多种语言。我已经用日语、中文（普通话）、越南语和西班牙语进行了测试，它们听起来都很合理。

留言在赶来的路上...