导航菜单

Vall-E是微软的新AI模型 仅基于3秒的原始声音即可模仿任何人类声音

导读 微软推出了一种名为 Vall-E 的新型人工智能模型。它基于 Meta 在 2022 年 10 月宣布的 EnCodec 技术。这是什么微软称 VALL-E

微软推出了一种名为 Vall-E 的新型人工智能模型。它基于 Meta 在 2022 年 10 月宣布的 EnCodec 技术。

这是什么

微软称 VALL-E 为“神经编解码器语言模型”。这种人工智能能够模仿任何人的声音,为此他只需要听原始声音的 3 秒钟。人工智能将信息分解成不同的成分,并在不同的短语中合成其声音的变化,因此它可以准确地再现说话者的音色和情绪基调。

为了训练 Vall-E,微软使用了 7000 多个真人录制的 60000 小时的对话录音。基本上,有声读物是为此从 LibriVox 图书馆获取的。

你可以在GitHub 上收听 Vall-E 语音模拟的例子。

微软表示,通过将 Vall-E 与其他生成 AI 连接,它可以用作文本转语音工具、语音编辑工具和音频创建系统。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢:

最新文章: