首页 > 综合 > 综合动态 >

微软的VALL-E可以在听完三秒钟的录音后忠实地再现声音

发布时间:2023-01-13 18:51:52来源:

微软的一组研究人员展示了一种新的人工智能系统,该系统能够在经过短短三秒钟的录音训练后模仿人的声音。该团队在arXiv预印本服务器上发表的一篇论文中解释了开发新应用程序的过程。他们还发布了一个网页来展示该应用程序的功能。

人工智能应用需要对海量数据进行训练。但在这项新的努力中,微软团队已经表明情况并非总是如此。

新应用程序是使用 Meta 的 EnCodec 音频压缩技术构建的,最初旨在作为提高电话通话质量的一种方式。随后的工作表明,它的能力远不止于此——它不仅可以模仿声音,还可以模拟音调,甚至可以模拟原始录音所处环境的声学效果。

当然,微软并没有消除对海量数据集的需求。相反,研究人员转移了使用它的地方。该应用程序被教导“听”一串单词,然后使用 Meta 的 Libri-light 数据集复制其声音,该数据集有 7,000 名说英语的人录制的超过 60,000 小时的录音。

微软提供的示例表明,该系统对某些语音的处理效果要好于其他语音,而且它在处理口音方面存在问题。但由于该应用仍处于早期阶段,其功能很可能会随着时间的推移而得到改进。

微软尚未公开 VALL-E 的源代码,而且很可能不会公开,并指出它可能会以不负责任的方式使用——例如,政治家的恶作剧录音。当与 deepfake 视频相结合时,结果可能会将“假新闻”推向新的高度。微软的例子表明了一切皆有可能;因此,其他人的类似系统似乎很快就会出现。

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。