【DataWhale学习】图像检索

本文探讨了图像检索技术,包括基于内容的图像检索(CBIR)、TBIR以及它们在购物、人脸识别等场景的应用。CBIR侧重于特征提取和相似度计算,局部特征如SIFT对尺度变化不敏感但易受文字影响,全局特征如颜色直方图关注全局但对尺度变化敏感。图像检索还包括比赛如Google-landmark,以及文本到图像的跨模态检索。关键在于针对不同任务选择合适的检索逻辑和特征。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

从文字进行检索:TBIR
从内容检索:CBIR

CBIR应用场景:拍照购,服装检索,人脸识别,内容审核
在这里插入图片描述
检索的本质:特征提取和相似度计算

流程图如下:
在这里插入图片描述
图像检索特征:
如果图像相似,则图像特征也相似
局部特征:关键点:比如角点,数控不一
全局特征:图像整体的统计信息

局部特征:关注局部信息,比如sift特征点
优点:尺度不变性
缺点:提取的数量不固定,而且容易受到文字的影响

全局特征:全局信息,比如颜色直方图或者CNN特征
优点:关注全局信息,而且特征维度固定
缺点:对尺度变化敏感

图像检索的类别:在这里插入图片描述
比赛:Google-landmark

gem:广义归一化编码
或者使用分类和排序损失微调cnn模型

跨模态检索KDD Cup2020:从文本检索图像
给定query文本,product的类别信息和物体信息,完成文本到商品的检索

图像检索本质是针对任务的,不同任务针对不同的特征,需要不断尝试和实验,需要跟姐姐不同的检索任务设置不同的检索逻辑

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值