微软的VALL-E可以在听完三秒钟的录音后忠实地再现声音

发布时间：2023-01-13 18:51:52来源：

微软的一组研究人员展示了一种新的人工智能系统，该系统能够在经过短短三秒钟的录音训练后模仿人的声音。该团队在arXiv预印本服务器上发表的一篇论文中解释了开发新应用程序的过程。他们还发布了一个网页来展示该应用程序的功能。

人工智能应用需要对海量数据进行训练。但在这项新的努力中，微软团队已经表明情况并非总是如此。

新应用程序是使用 Meta 的 EnCodec 音频压缩技术构建的，最初旨在作为提高电话通话质量的一种方式。随后的工作表明，它的能力远不止于此——它不仅可以模仿声音，还可以模拟音调，甚至可以模拟原始录音所处环境的声学效果。

当然，微软并没有消除对海量数据集的需求。相反，研究人员转移了使用它的地方。该应用程序被教导“听”一串单词，然后使用 Meta 的 Libri-light 数据集复制其声音，该数据集有 7,000 名说英语的人录制的超过 60,000 小时的录音。

微软提供的示例表明，该系统对某些语音的处理效果要好于其他语音，而且它在处理口音方面存在问题。但由于该应用仍处于早期阶段，其功能很可能会随着时间的推移而得到改进。

微软尚未公开 VALL-E 的源代码，而且很可能不会公开，并指出它可能会以不负责任的方式使用——例如，政治家的恶作剧录音。当与 deepfake 视频相结合时，结果可能会将“假新闻”推向新的高度。微软的例子表明了一切皆有可能;因此，其他人的类似系统似乎很快就会出现。

标签：

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。