deepseek r1从零搭建本地知识库11:嵌入模型-跟着榜单去选型

一、引言

  • 嵌入模型是一种将文本、图像、音频等非结构化数据转化为**低维稠密向量(Dense Vector)**的算法模型,这些向量(通常几百到几千维)能够捕捉数据的语义信息。

  • 核心目标:将抽象内容转化为计算机可理解的数值形式,同时保留其语义关联性。

  • 本地知识库通常指企业或组织内部构建的结构化/半结构化数据仓库(如文档、FAQ、产品资料),嵌入模型是其实现智能化的核心技术之一

  • 工作实践中,如何选择嵌入模型,我们提出了一种评测基准榜单的进行嵌入模型选型的工作思路和方法。

二、MTEB概述

2.1 MTEB 是什么?

  • 定位:权威的文本嵌入模型性能评测基准,覆盖 检索(Retrieval)、分类(Classification)、聚类(Clustering)、语义相似度(Semantic Similarity) 等 8 大类任务、58 个子任务。

  • 数据:涵盖 112 种语言,支持多语言模型横向对比。

  • 更新频率:排行榜定期更新,收录最新开源和商业模型。


2.2 如何使用该排行榜?

  1. 查看模型排名:默认按综合得分(Average Score)排序,可点击表头按特定任务(如检索)排序。

  2. 筛选模型

    • 通过左侧筛选器选择语言(如中文)、任务类型或模型规模。

    • 输入模型名称(如 mxbai-embed-large)直接搜索。

  3. 查看细节:点击模型名称,跳转到模型卡(Model Card),了解训练方法、参数量等详细信息。


2.3 关键指标解读

  • Average Score:模型在所有任务中的平均得分(0~100),分数越高越好。

  • Tasks:模型支持的任务类型(如 RetrievalClustering)。

  • Languages:支持的语言列表(如 en, zh, multi)。


2.4 注意事项

  • 部分模型可能未完全提交所有任务结果,需结合具体场景判断。

  • 访问可能需要科学上网(部分区域网络限制)。

三、MTEB排行榜

四、商业API嵌入模型

  1. OpenAI Text Embedding 系列【最广泛】

    • 模型名text-embedding-3-small / text-embedding-3-large
      开发者: OpenAI
      特点: 支持长上下文(最高8192 tokens),性价比高,适合通用文本嵌入。

    • 经典版本text-embedding-ada-002(较旧但广泛使用)。

  2. Cohere Embed 系列

    • 模型名embed-english-v3.0 / embed-multilingual-v3.0
      开发者: Cohere
      特点: 多语言支持,提供针对检索或分类优化的嵌入模式。

五、开源嵌入模型

5.1 mxbai-embed-large

1. 模型背景

  • 开发者: Mixed Bread AI(专注于多语言嵌入模型的团队)

  • 发布时间: 2024年(较新的开源模型)

  • 定位: 高性能、多语言通用嵌入模型,特别强调在多语言检索任务中的表现。


2. 核心特点

(1)多语言支持
  • 支持 100+ 种语言(包括中、英、德、日等),尤其对中文优化较好。

  • 在跨语言检索(例如用中文查询英文文档)任务中表现突出。

(2)长上下文支持
  • 最大输入长度 8192 tokens,适合处理长文本(如文档、文章)。

(3)性能表现
  • 在权威的 MTEB(Massive Text Embedding Benchmark) 排行榜中综合得分靠前(截至2024年,排名前5%)。

  • 关键任务表现:

    • 检索(Retrieval): 在跨语言检索任务中接近商用模型(如OpenAI)。

    • 分类(Classification) 和 聚类(Clustering): 优于多数开源模型(如BGE、E5)。

(4)开源与免费
  • 模型权重完全开源,可本地部署或云托管,无调用成本。

  • 支持通过Hugging Face Transformers库直接调用。

### 使用 Deepseek-r1 搭建企业本地知识库 #### 准备工作 为了使用 Deepseek-r1 构建企业本地知识库,需先完成环境配置。由于 DeepSeek 是开源模型,可以在本地环境中部署并运行此模型[^2]。 #### 下载与安装 获取 Deepseek-r1 所需文件,并按照官方指南进行安装。通常情况下,这涉及克隆 GitHub 仓库以及执行必要的依赖项安装命令: ```bash git clone https://github.com/deepseek-lm/DeepSeek.git cd DeepSeek pip install -r requirements.txt ``` #### 配置模型 进入应用编排界面,定位至指定位置以加载已准备好的 deepseek-r1 模型实例。确保该模型已经在 Dify 设置中进行了适当配置[^1]。 #### 数据导入 创建企业专属的知识库需要整理和输入特定领域内的文档资料作为训练数据集的一部分。这些可以是从内部数据库导出的文章、报告或其他形式的信息资源。 对于大规模的数据处理,建议采用批量上传的方式;而对于较小规模,则可以直接通过图形化用户接口手动添加条目。 #### 训练微调 利用收集到的企业专有数据对预训练过的 Deepseek-r1 进行进一步优化调整(即所谓的迁移学习),使其更贴合实际应用场景需求。这一过程可能涉及到参数调节和技术细节上的考量。 #### 测试验证 经过上述步骤之后,应该进行全面的功能性和准确性测试来评估新建立起来的知识管理系统的表现情况。针对发现的问题及时做出修正直至达到预期效果为止。 #### 正式上线 一旦确认无误后即可正式投入使用。此时还可以考虑集成其他辅助工具和服务以便更好地服务于企业的日常运营活动之中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据饕餮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值