【程序员必备收藏】一文读懂预训练语言模型如何赋能通用文本嵌入技术

今天来聊聊一篇干货满满的综述论文《On The Role of Pretrained Language Models in General-Purpose Text Embeddings》(链接:https://arxiv.org/pdf/2507.20783)。这篇论文聚焦通用文本嵌入(GPTE),从架构到数据再到多模态、Code,深入浅出地讲解了文本嵌入的奥秘。

在这里插入图片描述

文本嵌入的基本概念

文本嵌入是将离散、可变长度的文本转换为固定大小的连续向量的技术。这些向量能够捕捉文本的语义信息,使得文本数据可以进行大规模自动化计算和分析。

文本嵌入的应用

文本嵌入的应用可以分为三类:语义相似性、语义相关性和语义编码。语义相似性包括句子相似度(STS)、自然语言推理(NLI)和聚类等任务;语义相关性主要应用于信息检索(IR)和问答(QA);语义编码则是将文本嵌入作为特征输入到下游模型中,如文本分类器和语义推理系统等。

通用预训练Transformer架构

通常,文本单词序列被输入到一个成熟的PLM骨干(关键的神经网络是变压器),生成单词的隐藏上下文表示。接下来,一个池化步骤将这些单词级别的隐藏向量聚合成一个单一向量,得到输入文本的嵌入形式。

通过监督方法预训练GPTE的主流架构

通用文本嵌入(GPTE)的架构

GPTE通常采用深度神经网络架构,通过预训练语言模型(PLMs)生成文本表示,并通过对比学习(CL)进行优化。对比学习的标准公式如下:

其中,xy表示文本的嵌入,s(x,y)是相似度函数,τ是温度参数。

通用Embedding的训练数据集

在这里插入图片描述

通用文本embedding的代表模型及参数

通用文本embeddin模型数据合成的代表性研究

  • 数据合成:利用LLM生成高质量的训练数据。

模型规模的影响(性能、参数量的对比)

具有庞大参数和广泛预训练的大型模型在大型语料库上往往拥有更丰富的语义理解和更强的语言建模能力。因此,当为生成式预训练Transformer(GPT)模型进行预训练和微调时,增加模型规模通常也会带来更强大的文本嵌入效果,例如,gte-Qwen2-7B-instruct与gte-Qwen2-1.5B-instruct。如图2所示,规模效应已经证明,模型容量在很大程度上决定了所得到的嵌入模型的质量。

然而,较大的模型推理速度较慢,需要更多内存,并且预训练和微调的成本更高,这对在线应用造成了重大打击。为了解决这个问题,专家混合(MoE)模型作为有效扩展的有前途的方向而出现。像GritLM和Nomic-Embed-MoE这样的模型采用稀疏的MoE架构,在推理过程中只有模型总参数的一部分(“专家”)会被激活以处理任何给定的输入文本。这使它们能够在保持大型密集模型的表示力的同时,实现较小模型的计算效率,提供了一种可扩展且性价比高的途径来扩大高质量生成式预训练Transformer模型,而不会导致推理成本爆炸性增长。

多模态Embedding模型汇总

其中T、I和V分别表示文本、图像和视频。

多模态embedding的训练数据集

按模态和任务分类的典型数据集,其中T、I、VD和V分别表示文本、图像、视觉文档和视频。单模态文本语料库也是必需的

代表性基于预训练语言模型的代码嵌入模型

用于训练代码嵌入的代表性数据集

在这篇综述中,我们系统地回顾了在预训练语言模型(PLMs)时代下的GPTE,重点强调了PLMs在推进GPTE发展中的关键作用。我们首先介绍了GPTE的背景,概述了文本嵌入的基本概念和功能。

详细说明了通用的训练架构,并总结了训练数据和评估基准方面的进展。接下来,我们考察了PLMs在GPTE中的基础作用,包括派生嵌入的方法、训练策略、多样的学习目标以及丰富高质量数据集的方法。我们还提供了关于代表性GPTE模型在规模和骨干PLMs方面的比较分析。此外,我们探讨了由预训练语言模型(PLMs)支持的几种高级功能,如对多语言和多模态嵌入的支持、与编程语言的集成以及对多样化现实场景的适应。最后,我们讨论了超出当前生成式预训练Transformer(GPTE)范围的有前景的未来方向,包括整合文本排序、解决GPTE中的安全和偏见问题、利用结构信息以及扩展具有推理能力的GPTE。

{
"target":"简单认识我",
"selfInfo":{
"genInfo":"大厂面试官,中科院硕士,从事数据闭环业务、RAG、Agent等,承担技术+平台的偏综合性角色。善于调研、总结和规划,善于统筹和协同,喜欢技术,喜欢阅读新技术和产品的文章与论文",
"contactInfo":"abc061200x, v-adding disabled",
"slogan":"简单、高效、做正确的事",
"extInfo":"喜欢看电影、喜欢旅游、户外徒步、阅读和学习,不抽烟、不喝酒,无不良嗜好"
  }
}

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
在这里插入图片描述

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

图片

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01 教学内容

图片

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

image.png

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03 入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:
图片

04 视频和书籍PDF合集

图片

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

图片

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
图片

05 行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!
图片

06 90+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)图片
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值