微软的VALL-E可以从3秒样本中复制任何人的声音

发布时间：2023-01-12 21:30:05来源：

微软最近推出了其最新的文本转语音人工智能模型 VALL-E，它几乎可以完美地复制一个人的声音。该模型只需要三秒钟的音频样本即可进行训练。一旦它学会了一种特定的声音，它就可以合成那个人说任何话的音频，同时保留说话者的情绪基调和环境。

它是如何工作的?

VALL-E 背后的技术是 EnCodec，Meta 于 2022 年 10 月推出了该技术。EnCodec 使 VALL-E 能够从文本和声音提示中生成离散的音频编解码器代码。这不同于通常通过修改波形来合成语音的传统文本到语音系统。

Meta 还构建了团队用来训练 VALL-E 的音频库 LibriLight。该图书馆包含 60,000 小时的英语语音中的 7,000 多种不同的声音，大部分是从 LibriVox 公共领域有声读物中提取的。此外，VALL-E 还可以模仿样本音频的“声学环境”。例如，它可以在其合成输出中模拟电话通话的声学和频率特性，使其听起来像电话。

然而，根据研究人员发表的论文，该模型的结果好坏参半，有些听起来像机器，有些则非常逼真。但它保留了原始样本的情感基调，使那些工作更容易接受。

微软VALL-E的未来潜力

即使有其局限性，VALL-E 仍具有巨大的潜力，可以在娱乐、教育甚至语音助手等各个行业中发挥实际作用。然而，该团队承认存在滥用的可能性，研究论文指出，不良行为者可以在他们不知情的情况下使用它来欺骗或冒充他人。

微软没有宣布发布 VALL-E 公共版本的计划，但研究论文提到建立一个模型来检测 VALL-E 生成的实际语音是可能的。微软表示：“由于 VALL-E 可以合成保持说话人身份的语音，因此它可能会带来滥用该模型的潜在风险，例如欺骗语音识别或冒充他人。”

标签：

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

微软的VALL-E可以从3秒样本中复制任何人的声音

相关阅读

快讯

生活

财经

旅游

最新资讯