# 常见prompt组织:
定角色 给任务 树目标 提要求
指令 上下文 输入输出
可以采用langGPT结构化prompt(markdown格式优化)
# 角色
# 任务
# 工作流
# 要求
example:
# 角色: 你是一个prompt编写大师
# 目标:我会提供一段git diff以及用户本地改动对应的需求tapd内容,你的职责是帮我生成prompt,该prompt用来基于git diff的数据以及tapd需求内容,生成用户commit message。
# 要求:
1. 采用结构化LangGPT的要求,编写prompt;
2. commit message的结构要采用业界标准的git commit格式;
3. 输出必须为字符串,可直接用于用户的commit message输入框,不超过200字。
4. 需要给一个example
5. 你的prompt输出需要用markdown格式。
# prompt工程
分段:将任务分解成独立的子任务,按照不同的类别并行运行。提高效率跟更高准确结果
对于有多个考虑因素的复杂任务,如果每个考虑因素都由单独的 LLM 调用来处理,LLM 的性能通常会更好,这样就能集中关注每个特定方面。
多次运行:多次运行同一任务,以获得不同的输出结果。
调用-反馈机制:一个 LLM 调用生成一个响应,而另一个则在循环中提供评价和反馈。
prompt链:任务分解成多个步骤,每个 LLM 调用都会处理前一个步骤的输出
思维链(Chain of Thought,简称CoT)作为一种Prompt提示技术,通过模拟人类解决问题的逐步思考过程,显著提升了模型在复杂任务中的表现
两种:
Zero Shot Chain of Thought Prompting,即Zero Shot CoT(零样本思维链),简单说就是不提供给LLM样本只是在prompt最后增加一句"Let's think step by step.激发模型生成推理链
Few-Shot CoT(少样本思维链)CoT的主要思想是通过给LLM输入一些简单的实例,其中推理过程在实例中被解释,LLM在回答提示时也会展示推理过程。这种推理解释通常会导致更准确的结果。
推理模型:擅长复杂问题解决、策略规划、模糊信息处理,适用于高精度领域(如法律、金融、工程)。
GPT模型:低延迟、低成本,适合明确任务的快速执行。
针对推理模型:
1.避免样本提示,避免不必要的“逐步思考”提示
2.markdown xml 分隔符分组逻辑组织
3.提供具体的输出内容限制、要求。
# 后训练手段:
可以包括Fine-tuning(微调)
SFT(监督微调):对基座模型进行微调,让模型能够适用特定任务,最终得到一个 SFT 模型
RLHF(人类反馈强化学习):这一阶段通过引入人类反馈(或者基于人类反馈训练的奖励模型)进一步优化模型的生成质量,使其生成的回答更符合用户的期望和人类的价值观
直接从人类获取反馈的成本较高,通常会先训练一个奖励模型(Reward Model,RM)来代替人类打分,这样可以在RL的框架下进行大规模的自动优化。
模型输出→反馈奖励或者惩罚→强化学习,更新其参数,以最大化获得的奖励