OpenAI的语音引擎可以从15秒的样本中克隆人类的声音

发布时间：2024-04-02 10:40:11来源：

OpenAI 拥有最先进的文本和图像生成模型，最近，它还推出了Sora，一种令人难以置信的文本到视频模型。现在，该公司宣布了一种语音引擎模型，可以使用单个 15 秒音频样本生成语音。它本质上是一个文本到音频模型，您可以输入 15 秒的音频来训练模型并输入文本以生成听起来自然的语音。

OpenAI 表示，尽管模型很小，但 Voice Engine 可以生成逼真且富有感情的声音，非常接近原始说话者的声音。据该公司称，该模型于 2022 年底创建，一直为ChatGPT 语音聊天功能提供支持。

OpenAI 承认该技术存在“严重风险”以及“合成语音滥用的可能性”。因此，该公司目前不会向公众发布该模型，而是正在预览该模型，以围绕语音合成以及社会如何适应这些新功能展开讨论。

至于模型，它可以翻译不同语言的真实音频，并带有微妙的口音。HeyGen是一个流行的AI 视频和音频生成平台，一直在使用 OpenAI 的语音引擎来创建自定义语音。在这个领域，ElevenLabs 建立了自己的语音合成模型，可以克隆语音并生成多语言语音。

GPT-5 可能于 2024 年夏季发布;比 GPT-4 “实质上更好”

虽然该技术非常强大，但它可能具有欺性，并可能在各种情况下危及用户。 OpenAI 承认基于语音的身份验证用于访问银行账户和其他敏感信息。该公司希望逐步淘汰此类身份验证系统。除此之外，社交媒体上充斥着模仿流行声音来推销产品的人。

尤其是在印度，人工智能语音克隆诈正在增加。网络分子正在克隆孩子的声音来威胁父母并勒索金钱。在这种情况下，OpenAI 并不适合广泛发布该模型。随着我们迈向人工智能时代，整个社会需要更加谨慎和坚韧。

标签：

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。