Vall-E是微软的新AI模型仅基于3秒的原始声音即可模仿任何人类声音

发布时间：2023-01-11 22:13:20来源：

微软推出了一种名为 Vall-E 的新型人工智能模型。它基于 Meta 在 2022 年 10 月宣布的 EnCodec 技术。

这是什么

微软称 VALL-E 为“神经编解码器语言模型”。这种人工智能能够模仿任何人的声音，为此他只需要听原始声音的 3 秒钟。人工智能将信息分解成不同的成分，并在不同的短语中合成其声音的变化，因此它可以准确地再现说话者的音色和情绪基调。

为了训练 Vall-E，微软使用了 7000 多个真人录制的 60000 小时的对话录音。基本上，有声读物是为此从 LibriVox 图书馆获取的。

你可以在GitHub 上收听 Vall-E 语音模拟的例子。

微软表示，通过将 Vall-E 与其他生成 AI 连接，它可以用作文本转语音工具、语音编辑工具和音频创建系统。

标签：

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

Vall-E是微软的新AI模型 仅基于3秒的原始声音即可模仿任何人类声音