大语言模型的预训练[5]：语境学习、上下文学习In-Context Learning：精调LLM、Prompt设计和打分函数（Scoring Function）设计以及ICL底层机制等原理详解

最新推荐文章于 2025-04-10 23:30:01 发布

汀、人工智能

最新推荐文章于 2025-04-10 23:30:01 发布

阅读量2.3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： LLM技术汇总文章标签：语言模型 prompt 人工智能上下文学习语境学习 NLP ICL

涉及博主原创类文章，未经博主许可不允许转载

本文链接：https://blog.csdn.net/sinat_39620217/article/details/131803162

LLM技术汇总专栏收录该内容

85 篇文章 ¥29.90 ¥99.00

订阅专栏

In-ContextLearning允许语言模型通过少量示例快速适应新任务，无需微调。文章介绍了ICL的背景、定义，与提示学习、小样本学习的区别，并探讨了预训练如何影响ICL效果。优化方法包括模型预热和推理阶段的Prompt设计及打分函数选择。尽管存在对context敏感、性能饱和等问题，但ICL在NLP任务中展现出潜力，并有望促进更高效的模型应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大语言模型的预训练[5]：语境学习、上下文学习In-Context Learning：精调LLM、Prompt设计和打分函数（Scoring Function）设计以及ICL底层机制等原理详解

1.In-Context Learning背景与定义

背景

大规模预训练语言模型（LLM）如 GPT-3 是在大规模的互联网文本数据上训练，以给定的前缀来预测生成下一个 token（Next token prediction）。通过预测词的训练目标、大规模数据集以及超高参数量的模型相结合，产生了性能极强的 LLM，它可以 “理解” 任何文本输入，并在其基础上进行“写作”，除此以外，GPT-3 的论文发现，大规模的训练数据会产生一种有趣的新兴行为，称为 In-Context Learning（又称上下文学习，语境学习， ICL），他并不需要调整模型参数，仅用几条下游任务的示例就可以取得极佳的结果。

定义

In-Context Learning 最初是在原始 GPT-3 论文中作为一种大语言模型学习任务的方式而被推广的，能够直接让语言模型根据给定的几个实例理解任务，并给出问题答案；本质上，它相当于使用训练完好的语言模型估计给定示例条件下的条件概率分布模型。在 In-Context Learning 里，给语言模型一个 “提示（prompt）”，该提示是一个由输入输出对组成的列表，这些输入输出对用来描述一个任务。在提示的

了解本专栏