小数据点训练与计算机视觉和自然语言处理结合技术

### 小数据点训练与计算机视觉和自然语言处理结合技术 #### 1. 孪生网络（Siamese Network） ##### 1.1 孪生网络工作原理孪生网络用于处理两张图像（一张参考图像和一张查询图像），以识别是否为同一人的图像。其工作步骤如下： 1. 将一张图像通过卷积网络。 2. 将另一张图像通过与步骤 1 相同的神经网络。 3. 计算两张图像的编码（特征）。 4. 计算两个特征向量之间的差异。 5. 将差异向量通过 sigmoid 激活函数，以表示两张图像是否相似。 “孪生”一词源于将两张图像通过孪生网络（复制网络以处理两张图像）来获取每张图像的编码，然后比较编码以得到相似度得分。若相似度得分（或不相似度得分）超过阈值，则认为是同一人的图像。 ##### 1.2 编码孪生网络以下是实现孪生网络的具体步骤和代码： 1. **导入相关包和数据集**： ```python !pip install torch_snippets from torch_snippets import * !wget https://www.dropbox.com/s/ua1rr8btkmpqjxh/face-detection.zip !unzip face-detection.zip device = 'cuda' if torch.cuda.is_available() else 'cpu' ``` 训练数据包含 38 个文件夹，每个文件夹对应一个人，包含 10 张该人的样本图像；测试数据包含 3 个文件夹，每个文件夹对应一个人，包含 10 张图像。 2. **定义数据集类 `SiameseNetworkDataset`**： ```python class SiameseNetworkDataset(Dataset): def __init__(self, folder, transform=None, should_invert=True): self.folder = folder self.items = Glob(f'{self.folder}/*/*') self.transform = transform def __getitem__(self, ix): itemA = self.items[ix] person = fname(parent(itemA)) same_person = randint(2) if same_person: itemB = choose(Glob(f'{self.folder}/{person}/*', silent=True)) else: while True: itemB = choose(self.items) if person != fname(parent(itemB)): break imgA = read(itemA) imgB = read(itemB) if self.transform: imgA = self.transform(imgA) imgB = self.transform(imgB) return imgA, imgB, np.array([1-same_person]) def __len__(self): return len(self.items) ``` 该类用于获取两张图像，并返回一个标签，0 表示同一人，1 表示不同人。 3. **定义变换并准备数据集和数据加载器**： ```python from torchvision import transforms trn_tfms = transforms.Compose([ transforms.ToPILImage(), transforms.RandomHorizontalFlip(), transforms.RandomAffine(5, (0.01,0.2), scale=(0.9,1.1)), transforms.Resize((100,100)), transforms.ToTensor(), transforms.Normalize((0.5), (0.5)) ]) val_tfms = transforms.Compose([ transforms.ToPILImage(), transforms.Resize((100,100)), transforms.ToTensor(), transforms.Normalize((0.5), (0.5)) ]) trn_ds = SiameseNetworkDataset(folder="./data/faces/training/", transform=trn_tfms) val_ds = SiameseNetworkDataset(folder="./data/faces/testing/", transform=val_tfms) trn_dl = DataLoader(trn_ds, shuffle=True, batch_size=64) val_dl = DataLoader(val_ds, shuffle=False, batch_size=64) ``` 4. **定义神经网络架构**： - **定义卷积块 `convBlock`**： ```python def convBlock(ni, no): return nn.Sequential( nn.Dropout(0.2), nn.Conv2d(ni, no, kernel_size=3, padding=1, padding_mode='reflect'), nn.ReLU(inplace=True), nn.BatchNorm2d(no), ) ``` - **定义 `SiameseNetwork` 架构**： ```python class SiameseNetwork(nn.Module): def __init__(self): super(SiameseNetwork, self).__init__() self.features = nn.Sequential( convBlock(1,4), convBlock(4,8), convBlock(8,8), nn.Flatten(), nn.Linear(8*100*100, 500), nn.ReLU(inplace=True), nn.Linear(500, 500), nn.ReLU(inplace=True), nn.Linear(500, 5) ) def forward(self, input1, input2): output1 = self.features(input1) output2 = self.features(input2) return output1, output2 ``` 5. **定义对比损失函数 `ContrastiveLoss`**： ```python class ContrastiveLoss(torch.nn.Module): def __init__(self, margin=2.0): super(ContrastiveLoss, self).__init__() self.margin = margin def forward(self, output1, output2, label): euclidean_distance = F.pairwise_distance(output1, output2, keepdim = True) loss_contrastive = torch.mean((1-label) * torch.pow(euclidean_distance, 2) + (label) * torch.pow(torch.clamp(self.margin - euclidean_distance, min=0.0), 2)) acc = ((euclidean_distance>0.6)==label).float().mean() return loss_contrastive, acc ``` 6. **定义训练和验证函数**： ```python def train_batch(model, data, optimizer, criterion): imgsA, imgsB, labels = [t.to(device) for t in data] optimizer.zero_grad() codesA, codesB = model(imgsA, imgsB) loss, acc = criterion(codesA, codesB, labels) loss.backward() optimizer.step() return loss.item(), acc.item() @torch.no_grad() def validate_batch(model, data, criterion): imgsA, imgsB, labels = [t.to(device) for t in data] codesA, codesB = model(imgsA, imgsB) loss, ```

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

小数据点训练与计算机视觉和自然语言处理结合技术

相关推荐

专栏目录

小数据点训练与计算机视觉和自然语言处理结合技术

相关推荐

基于PyTorch的计算机视觉与自然语言处理项目设计源码

Bert看图说话模型标注标签数据集Image Captioning: NLP自然语言处理与计算机视觉模型融合训练

【自然语言处理与计算机视觉】基于Transformer和YOLO的技术应用资源汇总：从基础框架到实战部署

retail_products_ensemble_deep_learning:结合计算机视觉和自然语言处理模型进行多类别预测

计算机视觉与自然语言处理多模态领域_基于InternVL2-8B大模型微调与OCR数据集训练_面向光学字符识别与视觉问答任务的多模态大模型优化_用于提升复杂场景下OCR识别精度和V.zip

数据挖掘、计算机视觉、自然语言处理、推荐系统竞赛知识、代码、思路.zip

deep-learning:存储库旨在使用深度学习技术为不同的计算机视觉和自然语言处理问题提供解决方案

计算机视觉与自然语言处理_多模态大模型微调与LoRA适配器_Qwen2-VL视觉语言模型在LaTeX公式OCR识别任务中的指令微调_通过构建图像到文本的指令数据集实现学术公式的精准.zip

深度学习面试宝典（含数学、机器学习、深度学习、计算机视觉、自然语言处理和SLAM等方向）

图像字幕生成器：LSTM模型从预先训练的VGG-16模型中提取特征后，会为输入图像生成字幕。 （计算机视觉，自然语言处理，深度学习，Python）

JVM：内存分配、垃圾回收机制

装饰工程施工现场易燃、易爆物场所物品管理安全技术交底.doc

专栏目录

最新推荐

Rasa开发：交互式学习、调试、优化与社区生态

数据可视化：静态与交互式的优劣及团队模式分析

数据在不同部门的应用与挑战及后续提升建议

利用GARCH模型变体进行股票市场预测中的情感分析实现

软件定义网络的数据可视化与负载均衡实验

打造与分享Excel仪表盘：设计、保护与部署全攻略

数据分析与分层模型解读

基于文本的关系提取与知识图谱构建

数据科学家绩效评估方法解析

数据可视化：工具与Python库的综合指南

图像字幕生成器：LSTM模型从预先训练的VGG-16模型中提取特征后，会为输入图像生成字幕。（计算机视觉，自然语言处理，深度学习，Python）