点击下方卡片,关注「魔方AI空间」公众号
前不久,谷歌 DeepMind 发布V2A自动配音技术!AI视频进入一个全新的有声时代。详情内容《AI视频进入有声时代 | 谷歌 DeepMind 发布V2A:轻松给AI视频配音》。
就在昨日,上海人工智能实验室和香港中文大学(深圳)联合发布FoleyCrafter,一个新的AIGC方向要开卷了!
FoleyCrafter 是一种基于文本的视频到音频生成框架,可以生成语义相关且与输入视频时间同步的高质量音频。
它不只是能为视频配音配音效,还能为静音的视频生成契合的音频,同时还能同步视频时间轴语义相关的音效,简单来说就是可以让无声的视频变有声,且高度契合。
FoleyCrafter,这是一种新颖的框架,它利用预先训练的文本到音频 (T2A) 模型来确保高质量的音频生成。FoleyCrafter 包含两个关键组件:
FoleyCrafter 的一大显著优势是兼容文本提示,可以根据用户意图使用文本描述实现可控、多样化的视频转音频生成。
朋友们,想象一下,借助FoleyCrafter的先进技术,未来在制作广告宣传片或Vlog时,我们将能够大大简化工作流程。不再需要担心版权问题,也不必为寻找优质素材而烦恼。
接下来,让我们看几段生成效果吧!!
项目主页:https://foleycrafter.github.io/ 演示地址:https://huggingface.co/spaces/ymzhang319/FoleyCrafter
加入「AIGCmagic社区」群聊,一起交流讨论,涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!
更多精彩内容,尽在「魔方AI空间」,关注了解全栈式 AIGC内容!!