导航菜单

OpenAI的语音引擎可以从15秒的样本中克隆人类的声音

导读 OpenAI 拥有最先进的文本和图像生成模型,最近,它还推出了Sora,一种令人难以置信的文本到视频模型。现在,该公司宣布了一种语音引擎模型...

OpenAI 拥有最先进的文本和图像生成模型,最近,它还推出了Sora,一种令人难以置信的文本到视频模型。现在,该公司宣布了一种语音引擎模型,可以使用单个 15 秒音频样本生成语音。它本质上是一个文本到音频模型,您可以输入 15 秒的音频来训练模型并输入文本以生成听起来自然的语音。

OpenAI 表示,尽管模型很小,但 Voice Engine 可以生成逼真且富有感情的声音,非常接近原始说话者的声音。据该公司称,该模型于 2022 年底创建,一直为ChatGPT 语音聊天功能提供支持。

OpenAI 承认该技术存在“严重风险”以及“合成语音滥用的可能性”。因此,该公司目前不会向公众发布该模型,而是正在预览该模型,以围绕语音合成以及社会如何适应这些新功能展开讨论。

至于模型,它可以翻译不同语言的真实音频,并带有微妙的口音。HeyGen是一个流行的AI 视频和音频生成平台,一直在使用 OpenAI 的语音引擎来创建自定义语音。在这个领域,ElevenLabs 建立了自己的语音合成模型,可以克隆语音并生成多语言语音。

GPT-5 可能于 2024 年夏季发布;比 GPT-4 “实质上更好”

虽然该技术非常强大,但它可能具有欺性,并可能在各种情况下危及用户。 OpenAI 承认基于语音的身份验证用于访问银行账户和其他敏感信息。该公司希望逐步淘汰此类身份验证系统。除此之外,社交媒体上充斥着模仿流行声音来推销产品的人。

尤其是在印度,人工智能语音克隆诈正在增加。网络分子正在克隆孩子的声音来威胁父母并勒索金钱。在这种情况下,OpenAI 并不适合广泛发布该模型。随着我们迈向人工智能时代,整个社会需要更加谨慎和坚韧。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢:

最新文章: