卷积神经网络的应用与发展
立即解锁
发布时间: 2025-09-01 01:03:59 阅读量: 2 订阅数: 16 AIGC 

### 卷积神经网络的应用与发展
#### 1. 基于内容的图像检索
在基于内容的图像检索中,可利用预训练分类器(如 AlexNet)将每张图像转换为一组多维特征。预训练通常会使用像 ImageNet 这样的大型数据集。在相关资源中可以找到大量此类预训练分类器。分类器全连接层的特征可用于创建图像的多维表示,这些多维表示能与任何多维检索系统结合使用,以提供高质量的检索结果。这种方法之所以有效,是因为从 AlexNet 提取的特征对数据中不同类型的形状具有语义意义,所以使用这些特征进行检索时,质量通常较高。
#### 2. 目标定位
目标定位是要识别图像中固定对象所在的矩形区域。基本思路是将图像中的每个对象用边界框框起来。为简化,我们先考虑图像中只有单个对象的情况。图像定位通常与分类问题结合,即先对图像中的对象进行分类,再在其周围绘制边界框。
边界框可以用四个数字唯一标识,常见的做法是确定边界框的左上角以及框的两个维度。这是一个多目标回归问题。关键在于可以使用几乎相同的模型进行分类和回归,只是最后两个全连接层有所不同。具体操作步骤如下:
1. 训练一个神经网络分类器(如 AlexNet)或使用其预训练版本。在第一阶段,仅用图像 - 类别对训练分类器即可,甚至可以使用在 ImageNet 上预训练好的现成分类器。
2. 移除最后两个全连接层和 softmax 层(这部分称为分类头),然后添加一组新的两个全连接层和一个线性回归层(称为回归头)。仅用包含图像及其边界框的训练数据来训练这些新层。注意,卷积层的权重是固定的,不会改变。分类头和回归头可以独立训练,卷积层为分类和回归创建视觉特征。
3. 可选择对卷积层进行微调,使其对分类和回归都更敏感(因为卷积层最初仅为分类而训练)。此时,同时连接分类头和回归头,并将包含图像、类别和边界框的训练数据输入网络,使用反向传播微调所有层。
4. 将整个网络(连接了分类头和回归头)应用于测试图像。分类头的输出提供类别概率,回归头的输出提供边界框。
使用滑动窗口方法可以获得更好的结果,基本思想是在图像上滑动窗口以识别多个位置,然后整合不同运行的结果,例如 Overfeat 方法。
以下是目标定位和分类的流程表格:
|步骤|操作|
| ---- | ---- |
|1|训练或使用预训练分类器|
|2|移除分类头,添加回归头并训练|
|3|可选:微调卷积层|
|4|应用于测试图像|
mermaid 流程图如下:
```mermaid
graph LR
A[训练或使用预训练分类器] --> B[移除分类头,添加回归头并训练]
B --> C{是否微调卷积层}
C -- 是 --> D[微调卷积层]
C -- 否 --> E[应用于测试图像]
D --> E
```
#### 3. 目标检测
目标检测与目标定位非常相似,但图像中对象的数量和类别是可变的,目标是识别图像中所有对象及其类别。然而,由于输出数量可变,目标检测通常比目标定位更困难,因为事先并不知道图像中有多少个对象,所以不能使用固定数量的分类或回归头。
一种方法是使用滑动窗口,即在图像中尝试所有可能的边界框,并应用目标定位方法检测单个对象。但这种方法计算成本较高,对于大小为 L×L 的图像,可能的边界框数量为 L⁴,在测试时需要对每个图像的这些可能性进行分类/回归,这会导致测试时间过长,难以提供实时响应。
为解决这个问题,提出了区域提议方法。该方法是一种通用的目标检测器,先识别有希望的区域,创建一组候选边界框,然后在每个候选框中运行目标分类/定位方法。最后整合这些结果以识别图像中的所有对象。这种方法已应用于多种技术,如 MCG、EdgeBoxes 和 SelectiveSearch。
以下是目标检测方法对比表格:
|方法|优点|缺点|
| ---- | ---- | ---- |
|滑动窗口|能检测不同位置对象|计算成本高|
|区域提议方法|减少计算量|存在无效或重叠区域|
mermaid 流程图如下:
```mermaid
graph LR
A[图像] --> B{滑动窗口或区域提议方法}
B -- 滑动窗口 --> C[检测所有可能边界框]
B -- 区域提议方法 --> D
```
0
0
复制全文
相关推荐










