【向量检索】入门

什么是向量检索

向量检索最早应用于图像处理和计算机视觉等领域,后来在自然语言处理、生物信息学、推荐系统等领域得到了广泛应用。其核心优势在于能够处理和分析高纬度非结构化数据,这在传统的关系型数据库当中是难以实现的。然而,由于初期AI等技术的发展限制,大量非结构化数据无法被有效处理,这使得向量检索在很长一段时间处于小众发展的状态。

但是LLM的出现让本来小众的向量检索技术从幕后走到了台前,同时向量检索的应用得到了极大扩展。主要是因为LLM存在以下局限性:

  1. 模型幻觉问题:LLM在生成内容时,有时会产生不准确或不真实的信息
  2. 实时数据访问问题:LLM通常基于预训练数据进行处理,难以实时访问和同步最新数据
  3. 企业数据访问问题:在处理企业级数据时,面临数据安全和隐私保护的挑战
  4. 模型推理资源消耗较大:推理过程中需要消耗大量算力,导致其落地成本高

这些问题可以通过向量检索来部分解决,从而支持实时推理、智能问答、辅助决策等任务。同时大模型的广泛应用对向量检索也提出了更高的要求,不仅需要更高的准确率和查询速度,还需要作为一个整体系统(向量数据库、多模数据库等),提供更好的扩展性、吞吐能力、易用性等特征。

向量检索的基本概念

向量检索技术其实对于大家来说并不陌生,相信大家应该都用过淘宝的”拍立淘“,Google 的以图搜图,这些背后都是通过向量检索技术来实现的。下面我们来看一个以图搜图的例子。

当我们有一张小猫的图片时,我们可以将其输入一个神经网络(embedding model),通过这个网络后,小猫的图片会转成一堆数字,也就是我们常说的向量(embedding)
在这里插入图片描述
当输入第二张小猫图片时,经过相同的神经网络,会产生相同维度的一堆数字
在这里插入图片描述这时我们输入一张小狗的图片时,经过相同的神经网络,因为神经网络本身会学习图像的特征,所以它能够识别出来此时输入的小狗的图片是和小猫的图片的不同的,此时小狗的图像经过模型后也会产生相同维度的一堆数字,但是他和小猫生成的数字之间距离会比较远。
在这里插入图片描述
当我们输入另外一张小狗的图片作为查询图片时,这张图片也会经过相同的神经网络,生成一堆数字。此时需要找到与这张图像最相似的图怎么办,我们可以发现生成的向量是数字,数字的特点就是可以进行算数运算,此时我们可以两两向量进行相减,哪两个向量之间相减最接近 0 我们就认为他们之间最相似,从而也就实现了以图搜图的功能。
在这里插入图片描述
也可以想象一下,在互联网的广阔海洋中,每一句话都是一颗星星,而我们需要找的不仅仅是特定的词汇,而是那些能够发出相似光芒、表达相似意义的星群。传统的关键词搜索就像是通过望远镜寻找特定颜色的星星,它可能会因为关键词的限制而错过那些含义相近但用词不同的星星。向量检索不直接搜索特定的词汇,而是将这些话语转化为向量,即在多维空间中的点。

这样,当你尝试寻找关于“勇气”的内容时,向量检索不仅能够识别出明确使用了“勇气”一词的句子,还能够发现那些描述“英雄行为”、“无畏面对困难”等含义相近但表述不同的内容。这就像在夜空中寻找不仅亮度相似,而且在空间中彼此靠近的星群,即使它们的颜色不完全相同。

通过理解和比较这些向量的距离和方向,向量检索能够揭示出深层的语义联系,使得即便是用不同词汇表达的思想和概念也能被轻松捕捉。这种技术让搜索变得更加智能化,不仅提升了效率,还增加了探索未知的乐趣,使得我们能够在这广阔的信息宇宙中,发现那些真正意义上与我们查询意图相匹配的星辰。

向量检索的应用场景

传统向量检索应用场景

在这里插入图片描述
在这里插入图片描述

综合大模型的应用场景

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值