深度学习笔记----三维卷积及其应用（3DCNN,PointNet,3D U-Net）

最新推荐文章于 2025-06-07 14:34:45 发布

生活需要深度

最新推荐文章于 2025-06-07 14:34:45 发布

阅读量2.5k

点赞数 3

CC 4.0 BY-SA版权

文章标签：深度学习笔记 3d

本文链接：https://blog.csdn.net/u012294613/article/details/140158596

1.什么是三维卷积

1.1 三维卷积简介

1.2 三维卷积的工作原理

2，三维卷积核多通道卷积的区别

2.1 多通道卷积

2.2 三维卷积和多通道卷积之间的区别

2.3 总结

3，三维卷积的应用

3.1 视频分类

3.2 点云分类

3.2.1 PointNet网络亮点

3.2.2 PointNet网络结构

3.3 图像分割(U-Net)

3.3.1 二维的U-Net

3.3.2 三维的U-Net

1.什么是三维卷积
1.1 三维卷积简介
二维卷积是在单通道的一帧图像上进行滑窗操作，输入是高度H*宽度W的二维矩阵。三维卷积输入多了深度C这个维度，输入是高度H*宽度W*深度C的三维矩阵。在卷积神经网络中，网络每层的宽度是由每一层特征图图的通道数绝决定的。多通道卷积看起来和三维卷积有一样的深度，但两者之间是有本质的区别的。

下面就是 3D 卷积，其过滤器深度小于输入层深度（核大小<通道大小）。因此，3D 过滤器可以在所有三个方向（图像的高度、宽度、通道）上移动。在每个位置，逐元素的乘法和加法都会提供一个数值。因为过滤器是滑过一个 3D 空间，所以输出数值也按 3D 空间排布。也就是说输出是一个 3D 数据。

在 3D 卷积中，3D 过滤器可以在所有三个方向（图像的高度、宽度、通道）上移动。在每个位置，逐元素的乘法和加法都会提供一个数值。因为过滤器是滑过一个 3D 空间，所以输出数值也按 3D 空间排布。也就是说输出是一个 3D 数据。三维卷积被普遍用在视频分类，三维医学图像分割等场景中。

1.2 三维卷积的工作原理
首先我们看一下3D CNN是如何对时间维度进行操作的，如下图所示，我们将时间维度看成是第三维，这里是对连续的四帧图像进行卷积操作，3D卷积是通过堆叠多个连续的帧组成一个立方体，然后在立方体中运用3D卷积核。在这个结构中，卷积层中每一个特征map都会与上一层中多个邻近的连续帧相连，因此捕捉运动信息。

注：3D卷积核只能从cube（立方）中提取一种类型的特征，因为在整个cube中卷积核的权值都是一样的，也就是共享权值，都是同一个卷积核（图中同一个颜色的连接线表示相同的权值）。我们可以采用多种卷积核，以提取多种特征。

2，三维卷积核多通道卷积的区别
2.1 多通道卷积
首先先看一下多通道卷积，如下图所示，这里多通道的卷积不同通道上的卷积核参数是不相同的。

具体的实现过程为：

多通道特征图大小公式：

2.2 三维卷积和多通道卷积之间的区别
1）结构不一样：三维卷积核的大小为k*k*d,三维特征图的深度为L，一般d<L,由于卷积核本身是三维的（如下图所示），在三维的特征图上进行卷积时权重是共享的，输出时一个三维的特征图，所以和上面的多通道的卷积结构是不一样的。

三维卷积示意