Ai 学习

# 常见prompt组织:

定角色 给任务 树目标 提要求
指令 上下文 输入输出

可以采用langGPT结构化prompt(markdown格式优化)

# 角色

# 任务

# 工作流

# 要求

example:

# 角色: 你是一个prompt编写大师
# 目标:我会提供一段git diff以及用户本地改动对应的需求tapd内容,你的职责是帮我生成prompt,该prompt用来基于git diff的数据以及tapd需求内容,生成用户commit message。
# 要求:
1. 采用结构化LangGPT的要求,编写prompt; 
2. commit message的结构要采用业界标准的git commit格式;
3. 输出必须为字符串,可直接用于用户的commit message输入框,不超过200字。
4. 需要给一个example
5. 你的prompt输出需要用markdown格式。

# prompt工程

分段:将任务分解成独立的子任务,按照不同的类别并行运行。提高效率跟更高准确结果
对于有多个考虑因素的复杂任务,如果每个考虑因素都由单独的 LLM 调用来处理,LLM 的性能通常会更好,这样就能集中关注每个特定方面。

多次运行:多次运行同一任务,以获得不同的输出结果。
调用-反馈机制:一个 LLM 调用生成一个响应,而另一个则在循环中提供评价和反馈。
prompt链:任务分解成多个步骤,每个 LLM 调用都会处理前一个步骤的输出
 

思维链(Chain of Thought,简称CoT)作为一种Prompt提示技术,通过模拟人类解决问题的逐步思考过程,显著提升了模型在复杂任务中的表现
两种:
Zero Shot Chain of Thought Prompting,即Zero Shot CoT(零样本思维链),简单说就是不提供给LLM样本只是在prompt最后增加一句"Let's think step by step.激发模型生成推理链
Few-Shot CoT(少样本思维链)CoT的主要思想是通过给LLM输入一些简单的实例,其中推理过程在实例中被解释,LLM在回答提示时也会展示推理过程。这种推理解释通常会导致更准确的结果。

推理模型:擅长复杂问题解决、策略规划、模糊信息处理,适用于高精度领域(如法律、金融、工程)。
GPT模型:低延迟、低成本,适合明确任务的快速执行。

针对推理模型

1.避免样本提示,避免不必要的“逐步思考”提示

2.markdown xml 分隔符分组逻辑组织

3.提供具体的输出内容限制、要求。

# 后训练手段:

可以包括Fine-tuning(微调)
SFT(监督微调):对基座模型进行微调,让模型能够适用特定任务,最终得到一个 SFT 模型

RLHF(人类反馈强化学习):这一阶段通过引入人类反馈(或者基于人类反馈训练的奖励模型)进一步优化模型的生成质量,使其生成的回答更符合用户的期望和人类的价值观

直接从人类获取反馈的成本较高,通常会先训练一个奖励模型(Reward Model,RM)来代替人类打分,这样可以在RL的框架下进行大规模的自动优化。

模型输出→反馈奖励或者惩罚→强化学习,更新其参数,以最大化获得的奖励
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值