首页 > 综合 > 综合动态 >

谷歌的视频转音频工具利用像素生成音乐

发布时间:2024-08-05 15:53:44来源:

谷歌公布了视频转音频 (V2A) 技术,称其开发了一种可以利用视频像素生成同步音频的工具。编辑人员还可以根据需要插入语言文本提示。

谷歌发布了一系列使用其AI 视频生成器 Veo的示例视频,然后使用 V2A 工具“匹配字符和语调”。

然而,V2A 技术不仅仅可以用于 AI 视频:谷歌 DeepMind 的研究人员表示,它还可以用于传统镜头,“包括档案材料、无声电影等”。

V2A 显然可以为“任何视频输入生成无限数量的音轨”。虽然文本提示可用于以正面提示或负面提示来引导音频输出,但后者会引导音频输出远离特定的音调或风格。

DeepMind在博客文章中写道: “这种灵活性让用户可以更好地控制 V2A 的音频输出,从而可以快速尝试不同的音频输出并选择最佳匹配。”

为了构建模型,谷歌研究人员采用了“基于扩散的方法”而非自回归架构。V2A 系统将视频输入编码为压缩表示,然后扩散模型从随机噪声中构建音频,这个过程由视频中的视觉效果引导。然后对音频输出进行解码,将其转换为音频波形,并与视频数据相结合。

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。