导读 谷歌的DeepMind推出了一项新的人工智能技术,可以为无声视频生成背景音乐和音效。这种视频转音频系统旨在简化视频编辑过程,尤其是对于内容...
谷歌的DeepMind推出了一项新的人工智能技术,可以为无声视频生成背景音乐和音效。这种“视频转音频”系统旨在简化视频编辑过程,尤其是对于内容创作者而言。
该技术仍在开发中,但它提供了一些令人兴奋的功能。以下是该过程的细分:
用户输入:创作者上传他们的无声视频,并提供关键字或短语来指导人工智能生成所需的音景。例如,一段某人在中行走的无声视频可以与“电影、恐怖片、音乐、紧张、混凝土上的脚步声”等提示配对,以帮助人工智能理解情绪和场景。
人工智能在行动:DeepMind 的人工智能模型首先分解视频以分析视觉效果。然后,分解后的视频数据与用户的文本提示相结合。人工智能使用扩散模型迭代处理这些信息,最终生成与视频内容相得益彰的背景声音。
定制音景:该模型可以为单个视频创建各种音频选项,让创作者选择最适合其项目的音频。DeepMind 的系统还可以考虑提示词的情感基调。例如,强调“紧张”的提示可能会导致悬念的背景音乐,而“欢乐的庆祝”之类的提示可能会导致更欢快的声音。
展望未来,DeepMind 正在积极改进这项技术。未来的发展包括让人工智能能够仅根据视频内容自动生成声音,无需用户提示。此外,他们还在努力提高系统将生成的对话与视频中人物的嘴唇动作同步的能力。
这种“视频转音频”技术有可能彻底改变视频编辑,特别是对于那些缺乏专业音频工具或专业知识的创作者来说。