导读 微软推出了一种名为 Vall-E 的新型人工智能模型。它基于 Meta 在 2022 年 10 月宣布的 EnCodec 技术。这是什么微软称 VALL-E
微软推出了一种名为 Vall-E 的新型人工智能模型。它基于 Meta 在 2022 年 10 月宣布的 EnCodec 技术。
这是什么
微软称 VALL-E 为“神经编解码器语言模型”。这种人工智能能够模仿任何人的声音,为此他只需要听原始声音的 3 秒钟。人工智能将信息分解成不同的成分,并在不同的短语中合成其声音的变化,因此它可以准确地再现说话者的音色和情绪基调。
为了训练 Vall-E,微软使用了 7000 多个真人录制的 60000 小时的对话录音。基本上,有声读物是为此从 LibriVox 图书馆获取的。
你可以在GitHub 上收听 Vall-E 语音模拟的例子。
微软表示,通过将 Vall-E 与其他生成 AI 连接,它可以用作文本转语音工具、语音编辑工具和音频创建系统。