谷歌DeepMind利用V2A为视频生成配乐和对话

发布时间：2024-07-01 14:16:37来源：

Google DeepMind 正在开发一种新的 AI 模型，可以为视频生成配乐和对话。在最近的一篇博客文章中，这家科技巨头的 AI 研究实验室公布了 V2A(视频转音频)，这是一种正在开发中的新 AI 模型，它“将视频像素与自然语言文本提示相结合，为屏幕上的动作生成丰富的音景。”

根据文本提示生成视频在创意界引起了轰动。然而，大多数可用工具都有一个重大缺陷，即仅限于无声视频。

Google DeepMind 的 V2A 旨在与上个月在 I/O 2024 上推出的 Google 文本转视频模型 Veo 无缝协作。

这种组合不仅能让用户在视觉上，而且在听觉上都得到提升。据《印度快报》报道，V2A 还能为无声电影和档案资料等“传统镜头”注入活力。

该AI模型技术旨在改变用户制作和体验AI生成视频的方式，可用于添加逼真的音效、富有戏剧性的音乐以及与视频基调相匹配的对话。

V2A 模型可以为任何视频生成无限数量的音轨。用户还可以使用“正提示”和“负提示”调整音频输出，这可用于获得正确的声音并根据您的喜好调整输出。除此之外，生成的每个音频都使用 SynthID 技术加水印，以确保其原创性和真实性。

DeepMind 的 V2A 代表了人工智能视频创作的重大飞跃。这项新技术将声音描述作为输入，并使用在对话记录、声音和视频混合训练的扩散模型来填补关键空白，使视频更具沉浸感和吸引力。虽然该模型功能强大，但 V2A 尚未在大量视频上进行训练，输出有时可能会失真。因此，为了防止任何潜在的滥用，谷歌表示不会很快向公众发布 V2A。

标签：

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

谷歌DeepMind利用V2A为视频生成配乐和对话

相关阅读

快讯

生活

财经

旅游

最新资讯