基于 CLIP 模型的图像文本跨模态检索

        在大数据信息爆炸时代,互联网平台上充斥着海量的多模态媒体数据。不同模态 数据之间存在着显著的语义鸿沟,极大地限制了多模态数据的分析和有效数据信息的 提取,给跨模态数据信息检索工作带来了巨大的挑战。图像和文本是信息检索中最为 常见的两大模态,图像是以一种生动、形象的表达方式带来视觉上的呈现,而文本是 以一种单词符号的形式来表达,两者之间存在视觉和语言之间的语义鸿沟。在海量的 数据浪潮背景下,实现图像和文本的跨模态数据交互检索,这将有助于提取出更多有 价值的数据信息,从而极大程度地促进与视觉、语言相关的领域发展。本文将基于 CLIP 模型开展图像和文本的特征信息的提取和挖掘工作,并实现两者之间的高精度交 互检索。

        在本次数据挖掘过程中,我们首先对图像和文本数据进行预处理,增强图像文本 数据表示效果,以提高特征提取的精度。

         接着,采用 Vision Transformer 模型对图像数据进行特征提取。在图像特征提取过 程之前,我们统一按指定尺寸对所有图像进行裁剪,应用随机旋转、色域添加等多种 图像增强操作,以增强图像信息特征。Vision Transformer 模型首先采用相应的步距的 卷积层来对图片的切割,实现图像到 Token 之间的转换;接着,模型为图像数据添加 token 和位置编码,并将图像信息导入到 Transformer 编码器进行处理;最后,将所有 信息特征输入到 MLP Head 层进行分类,完成对图像特征提取工作。

        然后,采用 Text Transformer 模型对文本数据进行特征提取。在文本特征提取过程 之前,我们统一对文本进行转换为小写、去除标点符号等多种文本增强的处理操作, 以增强文本信息特征。Text Transformer 模型采用自主定义的 Transformer 类,将 OpenAI 文本编码和预训练的 Hugging Face 文本编码两种风格进行比对筛选,确定适用 于数据的文本编码风格,完成对文本特征提取工作。         

        最后,我们将附件一中原有的 50000 张图像和对应的文本数据进行处理,并将数 据集按比例为 8 : 2 划分为训练集和测试集。基于图像编码器和文本编码器,我们提取 出训练集中的图像特征和文本特征,对这两种特征做交叉熵损失,来进行模型训练, 模型构建的过程为对比预训练—分类器创建—零样本分类。通过不断调整模型学习率, 将测试集中图像数据和文本数据应用于所构建的模型,我们借助模型训练损失率和召 回率 Recall at K(𝑅𝑅@𝐾𝐾) 来评估模型效果,从中挑出最佳的模型,以便提高后续实验任务 的精度。

         在实验过程中,我们借助所构建的较佳模型,最佳学习率范围为 [10−5, 10−4] 和 [10−6, 10−4] 的模型分别去实现图像检索任务和文本检索任务。在图像检索中,我们同样 是先对附件二中所有图像文本进行特征提取,应用于模型并找出与每条文本相似度最 高的前五张图像。在文本检索中,我们提取出附件三中图像文本特征,应用于模型找 出与每张图像相似度最高的前五条文本。本论文提供高精度的图像文本交互检索模型, 能够基于一种模态的信息检索出另一种模态的信息,实现图像文本的跨模态检索。

关键词:跨模态信息检索;Vision Transformer;Text Transformer;CLIP;图像检索; 文本检索

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值