OpenAI LLM 应用最佳实践:提示词工程、Fine-Tune、RAG

OpenAI LLM 实战优化:提示词、RAG与微调策略
本文总结了OpenAI LLM应用的最佳实践,包括Prompt Engineering、RAG和Fine-tuning。作者强调了评估指标的重要性,并指出这些技术的适用场景和优化路线。通过实例展示了如何结合使用这些技术提高LLM性能,如使用RAG增强模型知识,通过Fine-tuning定制特定任务。

一、背景

本文介绍了 2023 年 11 月 OpenAI DevDay 中的一个演讲,演讲者为 John Allard 和 Colin Jarvis。演讲中,作者对 LLM 应用落地过程中遇到的问题和相关改进方案进行了总结。虽然其中用到的都是已知的技术,但是进行了很好的总结和串联,并探索了一条改进 LLM 应用的切实可行的路线,提供了一个最佳实践。

对应的 YouTube 视频:A Survey of Techniques for Maximizing LLM Performance。

二、概览

创建一个供演示的 LLM 应用 Demo 很简单,但是要投入生产环境使用却往往要投入几倍到几十倍的时间,因为几乎不可避免地要不断迭代以提升 LLM 应用程序的性能。其中,影响 LLM 应用程序性能的因素也有很多,比如数据、模型、系统、流程等等,此外涉及的技术方案也有很多,比如 In-Context  Learning、Few-shot Learning、RAG 和 Fine-tuning 等。

如何综合考虑以上的因素并合理利用相关技术是一个比较有挑战的工作,其中一种常见的错误是认为这个过程是线性的,如下图所示,首先 Prompt Engineering,再 RAG,最后 Finetune,按照这个顺序完成:

图片

作者认为最好沿着两个轴来考虑这个问题:

  • Context Optimization:如果模型没有相应的知识,比如一些私有数据。

  • LLM Optimization:如果模型不能产生正确的输出,比如不够准确或者不能遵循指令按照特定的格式或风格输出。

图片

在实践中,通常是利用各种技术不断地迭代来达到生产部署的需求,很多时候这些技术是可以累加的,需要找到有效的方法将这些改进组合起来,以获得最佳效果。如下图所示为作者总结的优化路线图,不过其涉及的优化点依旧没变,还是三点:

  • Prompt Engineering:包括 Prompt 优化以及增加 Few-shot learning,这是最简单的方式,不需要额外组件,也不用调整 LLM,只需控制 LLM 的输入即可。

  • RAG:通过检索的方式查找问题相关内容,并扩展到 LLM 的 Prompt 中,以供 LLM 参考。此优化需要引入一个检索系统,不过当前相关方案已经比较成熟,实施代价不高,比如 Milvus + LangChain。

  • Fine-tuning:通过增强 LLM 本身的能力来提升性能。依旧不需要额外组件,但是可能需要大量标注数据来微调模型,这个代价也可能比较高。

图片

三、Evaluation

在开始一切工作之前,首先要进行的是明确目标、确定评估指标。没有明确地评估指标,往往会导致走很多弯路,甚至错过一些行之有效的手段。常见的评估有自动化评估和人工评估:

  • 自动评估:针对一些常见的指标,使用常见的评估工具进行评估,实现简单,评估方便。

    • 精度评估:比如常见的 F1 Score,召回率,精确率等

    • 基于模型评估:在 LLM 的场景下,将模型作为评委进行评估是非常常见的方式,通常可以使用 GPT-4 作为评委,但是其成本比较高,因此也会折中的使用 GPT-3.5。

    • A/B Test:有些时候也会将 LLM 应用接入线上系统进行 A/B Test 评估,不过这个评估往往建立在其他评估已经取得不错结果的基础上。

  • 人工评估:有些评估可能比较主观,通常需要人工介入,比如流畅度、相关性、新颖性等,然而人工评估有时需要专业人士评估,其代价会比较高。

四、Prompt Engineering

当我们开始优化 LLM 应用时,通常首先做的事情是 Prompt Engineering,包括以下的几个方面:

  • 写一个清晰的指令

  • 将复杂任务拆分为简单的子任务

  • 给 GPT 思考的时间:比如经典的 “think step by step”

  • 给定一些参考文本:比如当前一些 LLM 的上下文窗口很大,甚至可以放下几本书,此时可以将其整体作为参考

  • 使用外部的工具:比如调用 Python,互联网搜索等

<think>嗯,用户想开发或使用专为骨科医生设计的LLMAI语音助手。这个问题涉及医疗AI和垂直领域大模型的应用,需要从多个维度思考。用户可能是骨科医生或医疗科技开发者,希望提升骨科诊疗效率。深层需求不仅是技术实现,更关注如何贴合临床实际工作流。从引用[1]看,骨科领域已有3D重建、骨折复位规划等AI应用,说明存在技术整合空间。核心挑战在于:第一,医疗专业性要求高,模型需理解复杂解剖术语和手术方案;第二,临床容错率极低,输出必须准确可靠;第三,语音交互需解决噪声环境下的医学语音识别问题。技术路径上,建议分层构建:基础层用LLaMA-Medical等开源医学大模型微调;知识层整合骨科教材、指南和手术视频标注数据;交互层采用双麦克风阵列降噪,关键诊断节点加入视觉确认环节。特别注意医疗合规性。引用[2]提到的ChatML角色隔离机制可借鉴,将系统角色拆分为:医学知识库(只读)、诊疗建议模块(需复核)、病历记录模块(可编辑),通过权限隔离降低误操作风险。临床测试环节可结合引用[3]的3D-DIC技术,在模拟手术中同步监测AI辅助时的医生操作精度变化。比如测量佩戴AR眼镜使用语音助手时的头部微位移,优化交互设计。最关键的还是真实场景验证。建议优先开发术前规划助手这类容错空间较大的功能,再逐步扩展到术中实时导航。初期可聚焦三个核心场景:影像学报告解读、手术方案模拟、植入物尺寸推荐。</think>基于骨科医生专业需求的LLM语音助手开发/应用方案如下: --- ### **一、核心架构设计** 1. **专业知识库构建** - **数据来源**:整合骨科教材(《坎贝尔骨科手术学》等)、临床指南(AAOS/OTA)、手术视频库、3D解剖图谱 - **知识增强**: $$ \text{RAG}(Q) = \text{LLM}(Q \oplus \text{Retrieve}(Q|\mathcal{D}_{ortho})) $$ 其中$\mathcal{D}_{ortho}$为骨科专业数据库 2. **语音交互引擎** - **医学ASR模块**:采用端到端语音识别模型,针对骨科术语优化(如"桡骨远端粉碎性骨折") - **多模态输入**:支持CT/MRI影像的语音描述解析(结合引用[1]的3D重建技术) --- ### **二、关键技术实现** ```mermaid graph LR A[语音输入] --> B(医学ASR引擎) B --> C{语义理解} C -->|常规咨询| D[LLM诊疗知识库] C -->|手术规划| E[3D手术模拟模块] D --> F[循证医学验证] E --> G[结合术前复位规划AI] F --> H[语音输出] G --> H ``` 1. **安全防护机制(基于引用[2])** - 角色隔离协议: ```python class ChatML: def __init__(self): self.roles = { "system": "只读模式-提供医学证据", "assistant": "受限模式-生成建议", "user": "骨科医生-临床决策主体" } def validate(self, prompt): if "手术方案" in prompt: return self.roles["system"] + self.roles["assistant"] ``` --- ### **三、临床场景应用** 1. **术中实时辅助** - 通过AR眼镜语音调用:*"显示L3椎弓根螺钉植入角度"* → 调取患者CT数据并叠加3D导航线 - 结合引用[3]的位移测量技术,预警手术器械偏移风险 2. **术后康复管理** - 语音生成康复计划:*"为胫骨平台骨折术后6周患者制定训练方案"* - 自动关联患肢运动学数据(来自可穿戴传感器) --- ### **四、开发路径建议** | 阶段 | 目标 | 关键技术 | |-------|------|----------| | MVP | 门诊病历语音生成 | Fine-tune ClinicalBERT + Whisper | | V1.0 | 影像报告解读 | 3D-DICOM分割模型 + 多模态LLM | | V2.0 | 手术规划辅助 | 增强现实(HoloLens 2) + RPEM模块 | **伦理保障**: - 所有诊疗建议需标注证据等级(如*"根据2023年OTA指南[^1],推荐..."*) - 关键决策点强制二次确认(如手术方案) ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值