Qwen3 Embedding 与 BGE 的区别解析：一篇文章带你彻底搞懂

最新推荐文章于 2025-07-28 09:03:04 发布

AGI大模型资料分享员

最新推荐文章于 2025-07-28 09:03:04 发布

阅读量964

点赞数 24

CC 4.0 BY-SA版权

文章标签： embedding 面试大模型职场和发展人工智能算法

本文链接：https://blog.csdn.net/m0_48891301/article/details/149391593

在自然语言处理（NLP）的广袤领域中，文本嵌入模型宛如基石，为众多复杂任务奠定基础。其中，Qwen3 Embedding 与 BGE 作为备受瞩目的两款模型，各自展现出独特的魅力与优势。深入剖析二者的区别，不仅有助于开发者精准抉择契合自身需求的模型，更能推动 NLP 技术朝着更为高效、智能的方向蓬勃发展。接下来，让我们一同开启这场探索之旅，揭开 Qwen3 Embedding 与 BGE 的神秘面纱。

1、BGE词嵌入模型架构

BGE模型采用Transformer的Encoder架构：

Encoder架构的词嵌入模型

数据格式：其数据格式通常为 "(CLS) 句子 A (SEP) 句子 B (SEP)"。
架构优势：这种架构最大的优势在于能够并行计算，使得模型可以同时感知上下文信息，极大地提升了计算速度。
向量表示原理：在向量表示方面，Encoder 会在输入的最前面添加一个特殊的 (CLS) 标记，经过一系列复杂的计算后，这个 (CLS) 标记向量能够有效代表整句话的含义。
实际应用效果：例如，在处理大量文本数据进行快速分类时，BGE 的这种架构可以快速对每句话进行向量表征，从而高效地进行类别判断。

2、Qwen3 Embedding 模型架构

Qwen3 Embedding 模型采用基于 Qwen3的 dual-encoder和 cross-encoder架构(将decoder-only 中的 casul mask 去掉):

Qwen3 词嵌入模型

Qwen3 Embedding 基于 Qwen3 模型，嵌入模型将单个文本段作为输入，用[EOS]标记所对应的向量代表整句话的向量。

3、Qwen3 Embedding的训练过程

Stage1: 使用大合成数据进行弱监督学习

利用Qwen3基座模型直接合成数据，而BGE与E5等模型都是从开源社区收集数据。

Stage2: 利用高质量合成数据进行 SFT

对筛选出的高质量合成数据和公开监督数据集进行监督训练。

Stage3: 模型合并

将微调过程中的多个模型检查点保存，采用slerp技术进行模型融合，增加泛化能力。

4、Qwen3 Embedding的数据合成

Qwen3 Embedding模型加入信息检索、比对挖掘、分类和文本相似度四类合成数据。

以信息检索为例

输入: 多语种文档 +候选角色

Qwen3-32B 决策: 选择最可能对文档感兴趣的角色、问题类型与难度(高中/大学的知识)

构造检索对: 输入上一阶段的文档与角色，对问题类型、难度进行限制。从角色视角出发，按需求生成文档对应的自然语言查询。

例如：角色为古建筑爱好者，文档关于故宫历史，需求为大学难度20字以内，可能生成【明朝紫禁城的历史建筑意义】。

高质量数据: 对每一对数据计算cosine相似度，选择相似度大于0.7的数据作为高质量数据。

5、Qwen3 Embedding的新用法

Qwen3 Embedding模型的query前能加一个prompt，这个prompt会与query一起向量化。

比如推荐场景:

用户正在阅读一篇新闻报道，你希望在页面下方为其推荐相似文章。而相似有多种维度: 是主题相似?写作风格相似?还是同样提到了某个人物?

那么我们就可以在向量化query前加一个prompt: 寻找写作风格相似的其他文档。

我们就能用同一套文档向量，通过在查询时动态传入不同指令，为用户提供多维度的推荐。比如让用户自己选择“更关心主题”还是“喜欢这个作者的风格”，实现个性化的推荐功能。

6、应用场景适配差异

对比项	BGE	Qwen3 Embedding
应用场景	适用于对实时性要求较高且语言种类相对单一的场景，如普通英文新闻网站搜索系统；在数据量和计算资源有限的小型项目中，因其简单的数据处理方式和模型架构，易于部署和运行	适用于大规模、复杂的多语言信息检索系统，如跨国公司的多语言知识库检索、全球科研文献的跨语言搜索；在代码检索领域，可精准匹配代码片段与需求描述；支持用户自定义指令模板，满足特定任务深度定制和不同业务的个性化需求

7、总结

训练数据不同：以前词嵌入模型采用公开数据，现在的训练数据会使用大模型加工合成，更精细可控，站在了巨人的肩膀上。

模型结构不同：在生成式大模型采用Decoder架构后，词嵌入模型也借鉴了Decoder，使用[EOS]标签对应的向量来表示句子向量，

训练方法改进：Encoder 架构的训练方式是 Mask 猜词与相似度计算。而Qwen3 词嵌入模型采用多阶段训练与合并结果，让模型效果更上一层楼。

8、如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】