首页 > 综合 > 综合动态 >

谷歌DeepMind利用V2A为视频生成配乐和对话

发布时间:2024-07-01 14:16:37来源:

Google DeepMind 正在开发一种新的 AI 模型,可以为视频生成配乐和对话。在最近的一篇博客文章中,这家科技巨头的 AI 研究实验室公布了 V2A(视频转音频),这是一种正在开发中的新 AI 模型,它“将视频像素与自然语言文本提示相结合,为屏幕上的动作生成丰富的音景。”

根据文本提示生成视频在创意界引起了轰动。然而,大多数可用工具都有一个重大缺陷,即仅限于无声视频。

Google DeepMind 的 V2A 旨在与上个月在 I/O 2024 上推出的 Google 文本转视频模型 Veo 无缝协作。

这种组合不仅能让用户在视觉上,而且在听觉上都得到提升。据《印度快报》报道,V2A 还能为无声电影和档案资料等“传统镜头”注入活力。

该AI模型技术旨在改变用户制作和体验AI生成视频的方式,可用于添加逼真的音效、富有戏剧性的音乐以及与视频基调相匹配的对话。

V2A 模型可以为任何视频生成无限数量的音轨。用户还可以使用“正提示”和“负提示”调整音频输出,这可用于获得正确的声音并根据您的喜好调整输出。除此之外,生成的每个音频都使用 SynthID 技术加水印,以确保其原创性和真实性。

DeepMind 的 V2A 代表了人工智能视频创作的重大飞跃。这项新技术将声音描述作为输入,并使用在对话记录、声音和视频混合训练的扩散模型来填补关键空白,使视频更具沉浸感和吸引力。虽然该模型功能强大,但 V2A 尚未在大量视频上进行训练,输出有时可能会失真。因此,为了防止任何潜在的滥用,谷歌表示不会很快向公众发布 V2A。

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。