跨模态行人重识别:RGB-Infrared Cross-Modality Person Re-Identification 学习记录笔记

目录

原文链接

 摘要:

1 介绍

1.1 数据集:

1.2 贡献

1.3 评估

2 网络结构比较

2.1 One-stream Structure

2.2 Two-stream Structure

2.3 Asymmetric FC layer structur

3 网络结构

3.1 单流和双流结构的连接

3.2 单流结构

3.3 备注 

4 深度零填充

4.1 网络输入分析

4.2 RGB-IR深度零填充

5 实验

5.1 模型比较

5.2 模型分析


原文链接

论文链接:RGB-Infrared Cross-Modality Person Re-Identification 

 代码链接:code

 摘要:

        目前大多数Re-ID都是基于 RGB 图像。但是有时RGB 图像并不适用,例如在黑暗的环境或夜间。在许多视觉系统中,红外 (IR) 成像变得必不可少。为此,需要将 RGB 图像与红外图像进行匹配,这些图像是异构的,具有非常不同的视觉特征。

        评估了现有流行的跨域模型,包括三种常用的神经网络结构(单流、双流和非对称 FC 层)并分析它们之间的关系。提出了深度零填充,用于训练单流网络,使其自动进化网络中特定领域的节点,以进行跨模态匹配。

1 介绍

        由于大多数监控摄像机能够在黑暗中自动从RGB模式切换到IR模式。 分别在白天和夜间在两个室外场景中捕获的RGB图像和红外(IR)图像的示例。每两列中的图像都是同一个人的。由接收不同波长光的设备捕获,同一个人的RGB图像和红外图像看起来非常不同。

         第一行的 RGB 图像具有三个包含可见光颜色信息的通道,而第三行的 IR 图像具有一个包含不可见光信息的通道。 因此,它们可以被视为异构数据。 其次,从成像原理来看,RGB和IR图像的波长范围不同。

1.1 数据集:

        包括来自 6 个摄像头的 491 个身份的 RGB 和 IR 图像,总共提供 287,628 个 RGB 图像和 15,792 张红外图像。包括两个红外线摄像机和四个RGB摄像机,利用Kinect V1在两个明亮的室内(房间1和房间2)采集相机1和相机2的RGB图像。对于每个人,至少有400个具有不同姿态和视点的连续RGB帧。摄像机3和摄像机6的IR图像在黑暗中由IR摄像机捕获,摄像机3放置在暗环境中的房间2中,而摄像机6放置在具有背景杂波的室外通道中。摄像机4和5是放置在两个室外场景中的RGB监视摄像机。

        SYSU-MM01 数据集中有 491 个有效 ID。 我们有一个固定的分割,使用 296 个身份进行训练,99 个身份用于验证,96 个身份用于测试。 在训练过程中,所有相机中训练集中的 296 人的所有图像都可以应用。RGB相机的样品用于gallery set,IR摄像机的样品用于probe set。

1.2 贡献

        (1)首次提出了支持RGB-IR交叉模态Re-ID研究的标准基准SYSU - MM01。进行了大量的实验来评估跨模态RGB-IR Re-ID的流行的基线深度学习体系结构。 (2) 分析了三种不同的网络结构(单流结构、双流结构和非对称FC层结构),并分析了它们的有效性。 (3) 在RGB-IRRe-ID任务优化的单流网络中,提出了一种自动演化的域特定结构的深度零填充算法。

1.3 评估

        对于RGB相机下的每个身份,我们随机选择一个/十个身份图像,以形成用于单张/多张设置的图库集。至于探针组,则使用所有图像。给定探测图像,通过计算探测图像和图库图像之间的相似性来进行匹配。在不同位置的摄像机之间进行匹配 ,相机2和相机3位于同一位置,因此相机3的探测图像跳过相机2的图库图像。

2 网络结构比较

2.1 One-stream Structure

有单一输入,所有参数在整个网络中共享。

### 关于红外-可见光跨模态行人重识别中的X模态实现 #### X模态生成器的设计原理 针对红外-可见光跨模态行人重识别(Infrared-Visible Cross-Modal Person Re-ID, IV-ReID),一种创新的方法引入了辅助的中间模态X来缓解因不同成像条件造成的显著域间差距。具体来说,X模态是由一个基于自监督学习设计的轻量化神经网络产生的,旨在捕捉并转换来自可见光(V)模态的关键视觉特征到一个新的表达形式中[^1]。 #### 实现细节 这个过程涉及到了一系列精心设计的操作: - **双层1x1卷积结构**:首先利用一对连续的1x1大小的卷积核处理原始的三通道彩色图片数据;前者负责降维至单一灰度级别,后者则再次扩展回三维空间以便后续操作。 - **非线性变换**:紧接着上述步骤之后加入了一个ReLU函数作为激活单元,赋予模型更强的数据拟合能力和更丰富的内部表征层次[^5]。 ```python import torch.nn as nn class XModerator(nn.Module): def __init__(self): super(XModerator, self).__init__() self.conv1 = nn.Conv2d(3, 1, kernel_size=1) self.relu = nn.ReLU() self.conv2 = nn.Conv2d(1, 3, kernel_size=1) def forward(self, x): out = self.conv1(x) out = self.relu(out) out = self.conv2(out) return out ``` #### 特征提取与融合策略 为了有效地关联起原本相异甚远的两种传感模式下的观测对象,提出了共享权重机制下的多分支架构来进行联合训练。即让同一套参数同时作用于RGB、X及IR三种类型的样本之上,在统一的空间内完成身份判别任务的同时也促进了彼此之间潜在联系的学习[^4]。 #### 损失函数构建 考虑到实际应用场景中存在的类别不平衡现象以及目标检测难度不均等问题,采用了改进版Triplet Loss——Cross Modal Grouping (CMG) loss Lc ,它不仅能够拉近同类个体间的距离分布,还能有效拉开异类实例之间的间隔,进而提升整体辨识精度。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值