Vall-E是微软的新AI模型 仅基于3秒的原始声音即可模仿任何人类声音
发布时间:2023-01-11 22:13:20来源:
微软推出了一种名为 Vall-E 的新型人工智能模型。它基于 Meta 在 2022 年 10 月宣布的 EnCodec 技术。
这是什么
微软称 VALL-E 为“神经编解码器语言模型”。这种人工智能能够模仿任何人的声音,为此他只需要听原始声音的 3 秒钟。人工智能将信息分解成不同的成分,并在不同的短语中合成其声音的变化,因此它可以准确地再现说话者的音色和情绪基调。
为了训练 Vall-E,微软使用了 7000 多个真人录制的 60000 小时的对话录音。基本上,有声读物是为此从 LibriVox 图书馆获取的。
你可以在GitHub 上收听 Vall-E 语音模拟的例子。
微软表示,通过将 Vall-E 与其他生成 AI 连接,它可以用作文本转语音工具、语音编辑工具和音频创建系统。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。