论文阅读：You said that?

最新推荐文章于 2023-03-06 14:34:09 发布

live_for_myself

最新推荐文章于 2023-03-06 14:34:09 发布

阅读量688

点赞数

CC 4.0 BY-SA版权

分类专栏：论文阅读文章标签：深度学习

本文链接：https://blog.csdn.net/landing_guy_/article/details/121188186

论文阅读专栏收录该内容

39 篇文章

订阅专栏

这篇博客介绍了如何使用Speech2Vid模型将声音直接转化为与音频同步的视频帧。模型通过学习音频和目标脸部的联合嵌入来生成视频，主要由音频编码器、身份编码器和图像解码器组成。训练过程中，使用了VoxCeleb和LRW数据集，并利用预训练的VGG-M网络来提取身份特征。尽管进行了正面化处理，但为了解决对齐问题，还引入了一个去模糊模块。模型通过L1损失进行优化，训练时使用不同时间点的图像作为输入，以生成单帧视频，而不需要严格的时间连续性约束。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

[toc】

前言

以往的输出往往都需要借助中间形式， landmarks， 3d models，这是一个从声音直接映射到视频的方法，输入是声音和图像，输出是一段视频。
关键思想是学习到target face 和 speech segment的joint embedding，这个embedding可以被用于产生和音频同步的帧。

Dataset

整个流程如下：
在这里插入图片描述
这里canonical face就类似正面化的脸部，如下图：

这里需要用到一些变换，因为输入的人脸要变正，通过放缩，旋转和平移实现相似变换。这里变换的是鼻子眼睛啥的，嘴部没有变化。为了保留嘴部运动信息。
在这里插入图片描述

在这里插入图片描述
使用了VoxCeleb和LRW数据集，用DLIB检测landmarks。作者还提到SyncNet提供了视频中音频和视觉面部序列的联合嵌入，可以确定好几个人中是谁在讲话，同时还可以纠正语音同步错误，我寻思LRW数据集也不用这么折腾····
在这里插入图片描述

The Speech2Vid Model

论文中提出的model叫Speech2Vid，测试时给定两个输入，音频段， frontal headshot（应该是比较正面的人脸），结构如下：
在这里插入图片描述
这个decoder叫talking face image decoder，对于给定的输入， model生成了最能代表音频的一系列帧，该模型通过在音频序列上滑动0.35秒的窗口，逐帧生成视频。

音频的处理

使用MFCC，只是用了12个， 0.35s的音频被组合在一起，采样率是100Hz所以共有35个时间步，所以输入可以看成12*35的heatmap，每个列代表特征
在这里插入图片描述

identity

对identity encoder的输入是1121123的静止图像，后来还用多个cat起来的作为输入，比如1121125

架构解析

在这里插入图片描述
主要有三个模块：audio encoder,the identity encoder, and the image decoder，这三个是同步训练的。

Audio encoder是一些卷积层，然后到256维的向量
Identity encoder，理想情况下应该可以提取出识别面部的独特feature，所以使用了在VGG Face dataset上预训练的VGG-M 网络，数据集包括2.6百万张2.6K个不同的身份图像。固定CNN的权重，学习fc层的参数，然后到256维的向量。
Image decoder，解码器把音频和image编码后cat的向量作为输入，然后通过反卷积层

在这里插入图片描述
网络具有两个跳过连接，以帮助保留目标标识的定义特征 - 这是通过将编码器激活与网络图中显示的位置的解码器串联来完成的。