谷歌的视频转音频工具利用像素生成音乐

发布时间：2024-08-05 15:53:44来源：

谷歌公布了视频转音频 (V2A) 技术，称其开发了一种可以利用视频像素生成同步音频的工具。编辑人员还可以根据需要插入语言文本提示。

谷歌发布了一系列使用其AI 视频生成器 Veo的示例视频，然后使用 V2A 工具“匹配字符和语调”。

然而，V2A 技术不仅仅可以用于 AI 视频：谷歌 DeepMind 的研究人员表示，它还可以用于传统镜头，“包括档案材料、无声电影等”。

V2A 显然可以为“任何视频输入生成无限数量的音轨”。虽然文本提示可用于以正面提示或负面提示来引导音频输出，但后者会引导音频输出远离特定的音调或风格。

DeepMind在博客文章中写道： “这种灵活性让用户可以更好地控制 V2A 的音频输出，从而可以快速尝试不同的音频输出并选择最佳匹配。”

为了构建模型，谷歌研究人员采用了“基于扩散的方法”而非自回归架构。V2A 系统将视频输入编码为压缩表示，然后扩散模型从随机噪声中构建音频，这个过程由视频中的视觉效果引导。然后对音频输出进行解码，将其转换为音频波形，并与视频数据相结合。

标签：

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。