提示工程架构师实战：用漏斗模型评估提示系统有效性

原创于 2025-09-04 02:54:16 发布 · 439 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#ai

CSDN 专栏收录该内容

7 篇文章

订阅专栏

提示工程架构师实战：用漏斗模型评估提示系统有效性

关键词：提示工程漏斗模型提示系统评估提示有效性 LLM交互设计转化率指标提示优化

摘要：在AI驱动的产品中，提示系统的质量直接决定用户体验与业务价值，但多数团队缺乏系统化的评估方法。本文将化身"提示系统医生"，用生活化的漏斗模型拆解提示系统从"用户需求"到"最终价值"的全流程，像分析奶茶店顾客流失原因一样，定位提示词设计、模型理解、结果输出等各环节的"漏损点"。我们将通过数学建模量化各环节转化率，用Python实现可落地的评估工具，并结合电商客服、智能写作等实战场景，教会你如何像搭积木一样构建提示系统评估漏斗，让AI产品从"偶尔好用"变成"持续可靠"。

背景介绍

目的和范围

当你对ChatGPT说"帮我写封邮件"却得到一篇散文时，当智能客服回复"我不理解您的问题"时——这些"AI答非所问"的背后，往往不是模型不行，而是提示系统出了问题。提示工程（Prompt Engineering）作为连接人类需求与AI能力的桥梁，其质量决定了AI系统的实际价值。但如何判断提示系统好不好？多数团队还停留在"凭感觉"或"看个案"的阶段，缺乏系统化的评估方法。

本文的核心目的是：将营销领域经典的"漏斗模型"转化为提示系统的评估框架，通过"分层筛选、量化转化"的思路，帮助提示工程架构师定位提示系统在"需求传递→提示设计→模型理解→结果输出→用户反馈"全流程中的薄弱环节，实现从"经验优化"到"数据驱动优化"的跨越。

范围覆盖：提示系统全生命周期评估（从需求分析到反馈迭代）、多场景适配（客服/写作/代码等）、可落地的量化指标体系与工具实现。

预期读者

提示工程架构师：负责设计企业级提示系统的技术负责人
AI产品经理：需要评估AI功能效果的产品设计者
算法工程师：优化LLM交互效果的技术开发者
业务运营：依赖AI系统提升效率的一线使用者

文档结构概述

本文将像拆解"奶茶制作流程"一样逐步展开：

认识原料：理解提示工程、漏斗模型的核心概念
设计配方：构建提示系统评估漏斗的理论框架
动手制作：用Python实现漏斗评估工具
品尝优化：通过实战案例验证并迭代评估体系
未来菜单：探讨提示系统评估的发展趋势

术语表

核心术语定义

提示工程（Prompt Engineering）：设计和优化提示词（Prompt），使AI模型（如LLM）更准确理解需求并输出高质量结果的过程（类比：给机器人写"使用说明书"）。
提示系统（Prompt System）：由提示词模板、变量填充规则、上下文管理、结果解析器等组成的完整交互系统（类比：自动售货机的"选品-出货-找零"全流程）。
漏斗模型（Funnel Model）：通过多个阶段逐层筛选，量化从"初始输入"到"最终目标"转化效率的分析工具（类比：筛选苹果——先挑烂果→再选小果→最后留优质果，每层都有"通过率"）。
提示系统有效性：提示系统满足用户需求的程度，包括准确性、相关性、效率、用户满意度等维度（类比：评价"导航APP好不好用"要看"是否到终点"“路线是否最优”“语音是否清晰”）。

核心概念与联系

故事引入：小明的"AI客服提示系统"困境

小明是某电商公司的提示工程师，最近接手了智能客服提示系统的优化任务。最初他设计的提示词是：“回复用户的问题”——结果客服AI经常答非所问，用户投诉率高达30%。

他尝试优化提示词：“作为电商客服，请用亲切语气回复用户问题，先确认订单号（如有），再解决物流/售后问题，不知道就说’我帮您转接人工’”。投诉率降到了15%，但还是有用户反馈"AI没解决我的问题"。

小明陷入困惑：问题到底出在哪？是提示词不够详细？还是模型没理解？或者用户要的根本不是"解决问题"而是"情绪安抚"？ 他需要一种方法，像"CT扫描"一样逐层检查提示系统的每个环节，而不是"头痛医头、脚痛医脚"。

这时，产品经理小李路过：“你知道奶茶店怎么提升销量吗？他们会统计’进店人数→点单人数→喝完满意人数’，每个环节的流失都可能是问题——这就是漏斗模型！要不我们给提示系统也搭个漏斗？”

小明眼前一亮：对啊！提示系统从"用户提需求"到"用户满意"，不也是一个层层筛选的过程吗？如果能量化每个环节的转化情况，就能精准定位问题了！

核心概念解释（像给小学生讲故事一样）

核心概念一：提示工程——教机器人做事的"说明书"

想象你有一个"万能机器人"，但它听不懂人话，只能按"说明书"行动。提示工程就是写这份说明书的过程：

简单说明书：“帮我拿苹果”（机器人可能拿青苹果/烂苹果/玩具苹果）
好的说明书：“从冰箱第二层左边的水果篮里，拿3个红富士苹果，要没有虫洞、直径8-10厘米的”（机器人精准执行）

提示工程的本质：用结构化语言消除歧义，引导AI输出符合预期的结果。就像给厨师菜谱时，不仅要说"做鱼"，还要说"清蒸鲈鱼、10分钟、放姜丝、不加香菜"——细节越明确，结果越可控。

核心概念二：漏斗模型——筛选"优质结果"的"多层筛子"

假设你要从100个苹果中挑出10个"优质苹果"，可以用三层筛子：

第一层筛子（大孔）：滤掉明显烂掉的苹果（100→70个，转化率70%）
第二层筛子（中孔）：滤掉太小的苹果（70→30个，转化率43%）
第三层筛子（小孔）：滤掉有虫洞的苹果（30→10个，转化率33%）

漏斗模型就是记录每层筛子"留下多少、筛掉多少"，通过转化率发现问题：如果第一层转化率突然降到50%，说明苹果采购环节出了问题；如果第三层转化率低，可能是筛子孔太小了。

核心概念三：提示系统有效性评估——给AI"考试打分"

如果把提示系统比作"学生"，有效性评估就是"考试"：

基础题（模型理解）：学生是否读懂题目？（提示是否被模型正确解析）
应用题（结果质量）：答案是否正确、完整？（输出是否满足需求）
附加题（用户体验）：字迹是否工整、过程是否简洁？（结果是否易读、高效）

漏斗模型在这里的作用，就是把"考试"拆成多个"分科目测试"，通过每个科目的"及格率"（转化率），判断学生是"基础差"还是"应用题不行"，避免"总分低但不知道哪弱"的尴尬。

核心概念之间的关系（用小学生能理解的比喻）

提示工程和漏斗模型的关系：“做菜"与"品菜评分表”

提示工程像"做菜"——选食材（需求）、定菜谱（提示词）、开火烹饪（模型交互）；漏斗模型像"品菜评分表"，从"食材新鲜度（需求匹配）→刀工（提示结构）→调味（模型理解）→口感（结果质量）→食客反馈（满意度）“多个维度打分，最后算出"综合美味指数”。

没有提示工程，漏斗模型就像给"空气"打分——无物可评；没有漏斗模型，提示工程就像闭着眼睛做菜——不知道咸淡。

漏斗模型各阶段与提示系统的关系："快递配送"全流程

提示系统从"用户需求"到"用户满意"的过程，就像快递配送：

漏斗阶段	类比快递环节	提示系统对应环节	核心问题
需求分析层	用户下单（买什么）	理解用户原始需求	需求是否清晰、完整？
提示设计层	打包商品（怎么寄）	设计提示词模板与变量	提示是否结构化、无歧义？
模型交互层	快递员送货（能否送对）	LLM解析提示并生成结果	模型是否准确理解提示？
结果评估层	当面验货（东西对不对）	检查输出结果是否符合需求	结果是否准确、相关、完整？
反馈优化层	评价打分（满意吗）	收集用户反馈并迭代提示系统	用户是否满意？如何改进？

每个环节都可能"丢件"（用户需求没传递下去）或"送错"（结果不符合预期），漏斗模型就是通过量化每个环节的"配送成功率"（转化率），找到"快递不畅"的具体原因。

核心概念原理和架构的文本示意图（专业定义）

提示系统评估漏斗的五层架构

![提示系统评估漏斗架构](文本示意图：将漏斗竖置，从上到下分为5层，每层有输入/输出/核心指标）

1. 需求分析层（Input Layer）

输入：原始用户需求（文本/语音/多模态）
核心任务：判断需求是否清晰、完整、可转化为提示
输出：结构化需求描述（如"用户需要写一封投诉邮件，包含订单号#12345、商品破损问题"）
关键指标：需求完整率（结构化需求数/总需求数）、需求清晰度评分（1-5分）

2. 提示设计层（Prompt Design Layer）

输入：结构化需求
核心任务：生成符合"提示词最佳实践"的提示文本（包含指令、上下文、示例、约束条件）
输出：可直接输入LLM的提示词（如"作为客服，请根据以下信息写投诉邮件：订单号#12345，问题：商品破损…"）
关键指标：提示合规率（符合最佳实践的提示数/总提示数）、提示复杂度评分（1-5分，越低越简洁）

3. 模型交互层（Model Interaction Layer）

输入：提示词
核心任务：LLM解析提示并生成初步结果
输出：LLM原始输出（文本/代码/其他格式）
关键指标：模型理解准确率（正确执行指令的输出数/总输出数）、响应时间（秒）

4. 结果评估层（Result Evaluation Layer）

输入：LLM原始输出
核心任务：评估输出结果与用户需求的匹配度（准确性、相关性、完整性）
输出：经过筛选/修正的可用结果（如对LLM输出的邮件进行格式调整）
关键指标：结果准确率（准确结果数/总结果数）、结果相关性（相关结果数/总结果数）

5. 反馈优化层（Feedback Optimization Layer）

输入：可用结果
核心任务：收集用户对结果的满意度，分析问题并迭代
输出：优化后的提示模板/需求处理规则
关键指标：用户满意度（满意反馈数/总反馈数）、问题解决率（一次解决的需求数/总需求数）

Mermaid 流程图：提示系统评估漏斗全流程

graph TD
    A[用户原始需求] --> B{需求分析层}
    B -->|通过| C[结构化需求]
    B -->|未通过| D[需求澄清：追问用户细节]
    D --> A
    
    C --> E{提示设计层}
    E -->|通过| F[优化后提示词]
    E -->|未通过| G[提示重构：补充约束/示例]
    G --> E
    
    F --> H{模型交互层}
    H -->|通过| I[LLM生成结果]
    H -->|未通过| J[提示改写：简化指令/调整格式]
    J --> F
    
    I --> K{结果评估层}
    K -->|通过| L[可用结果]
    K -->|未通过| M[结果修正：人工编辑/重新生成]
    M --> I
    
    L --> N{反馈优化层}
    N -->|通过| O[用户满意 系统闭环]
    N -->|未通过| P[收集反馈 优化提示模板]
    P --> E

流程图解读：用户需求从顶部进入漏斗，逐层经过"判断→通过/优化→进入下一层"的循环，最终形成闭环。每层的"未通过"都会触发针对性优化（如需求不清晰则追问用户，提示设计不好则重构提示），直到通过所有层或用户放弃。

核心算法原理 & 具体操作步骤

漏斗模型评估指标体系（数学定义与计算）

1. 基础指标：各层转化率与漏损率

漏斗的核心是"转化"，即每个阶段"留下多少"。假设某层输入数量为In，通过数量为Out，则：

转化率（CR）：$ CR = \frac{Out}{In} \times 100% $（如100个需求中80个转化为结构化需求，CR=80%）
漏损率（LR）：$ LR = 1 - CR = \frac{In - Out}{In} \times 100% $（上例LR=20%）

2. 核心指标：漏斗整体效率（Funnel Efficiency）

整体效率反映提示系统从"原始需求"到"用户满意"的最终转化效果，是各层转化率的乘积：

$ Funnel\ Efficiency = CR_1 \times CR_2 \times CR_3 \times CR_4 \times CR_5 $

其中：

$ CR_1 $：需求分析层转化率
$ CR_2 $：提示设计层转化率
$ CR_3 $：模型交互层转化率
$ CR_4 $：结果评估层转化率
$ CR_5 $：反馈优化层转化率

示例：若各层CR分别为80%、90%、70%、85%、95%，则整体效率=0.8×0.9×0.7×0.85×0.95≈0.41=41%——即100个原始需求中，最终只有41个让用户满意。

3. 衍生指标：漏斗健康度指数（FHI）

不同业务场景对各层指标的关注度不同（如客服系统更看重"结果评估层"，写作系统更看重"提示设计层"）。FHI通过加权平均各层转化率，实现场景化评估：

$ FHI = \sum_{i=1}^{5} (CR_i \times W_i) $，其中 $ \sum_{i=1}^{5} W_i = 1 $

客服场景权重：需求分析(0.1)、提示设计(0.1)、模型交互(0.2)、结果评估(0.4)、反馈优化(0.2)
写作场景权重：需求分析(0.2)、提示设计(0.3)、模型交互(0.2)、结果评估(0.2)、反馈优化(0.1)

具体操作步骤：用漏斗模型评估提示系统的7步流程

步骤1：明确评估目标与场景

确定评估对象（如"电商客服提示系统"）
定义核心业务指标（如"用户问题一次解决率≥80%"）
设定各层权重（参考FHI场景化权重）

步骤2：数据采集与标注

需求数据：收集100-1000条真实用户需求（如客服聊天记录、用户输入日志）
提示数据：记录对应这些需求的提示词（原始提示+优化后提示）
模型输出：记录LLM生成的结果（原始输出+修正后输出）
反馈数据：收集用户对结果的满意度评分（1-5星）或文本反馈

步骤3：逐层计算转化率

以"电商客服提示系统"为例（100条需求样本）：

漏斗阶段	输入数(In)	通过数(Out)	转化率(CR)	漏损原因分析
需求分析层	100	85	85%	15条需求模糊（如"东西坏了"未说清商品）
提示设计层	85	76	89%	9条提示缺少关键变量（如忘记填订单号）
模型交互层	76	60	79%	16条提示被模型误解（如"退款"理解为"换货"）
结果评估层	60	5１	85%	9条结果不完整（如未提供退款流程）
反馈优化层	51	45	88%	6条用户不满意（如回复语气生硬）

步骤4：计算整体效率与健康度

整体效率=85%×89%×79%×85%×88%≈45%（100条需求→45条用户满意）
FHI（客服场景权重）=0.1×85% + 0.1×89% + 0.2×79% + 0.4×85% + 0.2×88%≈84.4%

步骤5：定位关键漏损点

对比各层转化率，找出显著低于平均的环节：

模型交互层CR=79%（最低）→ 重点优化模型对提示的理解
需求分析层漏损15%→ 需优化需求澄清机制（如自动追问"请提供订单号"）

步骤6：针对性优化

模型交互层优化：在提示词中加入"明确指令+示例"，如：
原始提示：“处理用户退款”
优化提示：“作为电商客服，请按以下步骤处理退款：1.确认订单号；2.说明退款条件；3.提供操作链接。示例：用户说’我要退订单#12345’，回复’您的订单#12345符合退款条件，点击链接申请：xxx’”

步骤7：迭代验证

重新采集100条数据，评估优化后各层转化率：

模型交互层CR提升至88%(60→67/76)，整体效率提升至52%（45→52/100）

数学模型和公式 & 详细讲解 & 举例说明

1. 需求分析层：需求质量量化模型

用户原始需求往往是模糊的（如"帮我弄一下那个东西"），需要量化其"可转化为提示"的质量。我们用需求完整度指数（RCI） 评估：

$ RCI = \alpha \times C + \beta \times D + \gamma \times S $

其中：

$ C $：信息完整度（0-1，是否包含"5W1H"要素：Who/What/When/Where/Why/How）
$ D $：歧义消除度（0-1，是否有唯一解释，如"苹果"是水果还是公司）
$ S $：场景明确度（0-1，是否说明使用场景，如"写邮件"vs"写投诉邮件"）
$α+β+γ=1\alpha+\beta+\gamma=1$ （权重，如客服场景 $α=0.4,β=0.3,γ=0.3\alpha=0.4,\beta=0.3,\gamma=0.3$ ）

举例：
需求A：“我买的手机坏了，订单号#789，昨天收到的，开不了机，帮我退款”

$ C=1 $（包含订单号、时间、问题、诉求）
$ D=1 $（"手机"无歧义）
$ S=1 $（明确是"退款"场景）
$ RCI=0.4×1+0.3×1+0.3×1=1 $（优质需求）

需求B：“东西坏了，快处理”

$ C=0 $（无商品/订单/时间）
$ D=0.5 $（"东西"有歧义，但"坏了"指向售后）
$ S=0.3 $（未说清"处理"是退款/换货/维修）
$ RCI=0.4×0+0.3×0.5+0.3×0.3=0.24 $（低质需求，需优化）

2. 提示设计层：提示质量评分模型

提示词的质量直接影响模型理解，我们用提示质量评分（PQS） 评估（1-5分），基于提示工程的6大核心原则：

$ PQS = \frac{1}{6} \sum_{i=1}^{6} Score_i $

其中$ Score_i $（1-5分）对应6大原则：

原则	描述	5分示例	1分示例
清晰性	指令是否明确	“请列出3个退款条件”	“处理一下退款的事”
结构化	是否分点/分段/有格式	“步骤1：确认订单；步骤2：检查条件”	大段无格式文本
相关性	是否包含必要上下文	“用户之前已换货2次，本次申请退款”	包含无关信息（如用户半年前的订单）
约束性	是否限制输出范围	“用50字以内回复，只说中文”	“随便说点什么”
示例引导	是否提供少量示例	“正确格式：‘退款申请已收到，订单#123’”	无示例
变量完整性	动态变量是否填充完整	“订单号：{order_id}（已填充#789）”	“订单号：{order_id}（未填充）”

举例：
提示A：“作为电商客服，回复用户退款请求。步骤：1.确认订单号{order_id}；2.说明退款条件（7天无理由）；3.提供申请链接{link}。示例：用户说’退订单#789’，回复’您的订单#789符合7天无理由退款，点击申请：{link}'。用50字以内中文回复，语气亲切。”

各原则评分：清晰性(5)+结构化(5)+相关性(5)+约束性(5)+示例引导(5)+变量完整性(5)
$ PQS=(5+5+5+5+5+5)/6=5 $（优质提示）

3. 模型交互层：模型理解准确率计算

模型是否正确理解提示，可用语义匹配度（SM） 量化，通过对比"提示意图"与"模型输出意图"的相似度：

$ SM = \cos(\vec{Prompt},\vec{Output}) $

其中 $Prompt⃗\vec{Prompt}$ 是提示词的向量表示， $Output⃗\vec{Output}$ 是模型输出的向量表示， $cos⁡\cos$ 是余弦相似度（值越接近1，理解越准确）。

实操步骤：

用预训练模型（如Sentence-BERT）将提示词和输出转为向量
计算余弦相似度：$ SM \geq 0.8 $ 视为"理解准确"
模型交互层转化率$ CR_3 = \frac{SM \geq 0.8的样本数}{总样本数} $

4. 结果评估层：结果质量三维度模型

结果是否满足需求，需评估准确性（A）、相关性（R）、完整性（C） 三维度：

$ Result\ Quality = 0.5A + 0.3R + 0.2C $（权重可调整）

准确性（A）：事实是否正确（0-1，如退款金额是否与订单一致）
相关性（R）：是否紧扣用户需求（0-1，如用户问退款却回答换货流程）
完整性（C）：是否包含所有必要信息（0-1，如是否提供退款时间、流程）

5. 反馈优化层：用户满意度与NPS模型

用户反馈是最终评判标准，常用满意度评分（CSAT） 和净推荐值（NPS）：

CSAT：$ \frac{4-5星评分数}{总评分数} \times 100% $（如45条满意/51条反馈→CSAT=88%）
NPS：$ (\frac{推荐者数}{总用户数} - \frac{贬损者数}{总用户数}) \times 100 $（推荐者=9-10分，贬损者=0-6分）

项目实战：代码实际案例和详细解释说明

开发环境搭建

我们将用Python实现一个"提示系统漏斗评估工具"，需准备：

环境依赖：Python 3.8+、pandas（数据处理）、scikit-learn（余弦相似度）、sentence-transformers（文本向量化）、matplotlib（漏斗图可视化）

安装命令：

pip install pandas scikit-learn sentence-transformers matplotlib

LLM API（可选）：如需调用真实模型（如GPT-3.5），需准备OpenAI API密钥

源代码详细实现和代码解读

模块1：数据结构定义（存储各层指标）

import pandas as pd
import numpy as np
from dataclasses import dataclass

@dataclass
class FunnelMetrics:
    """漏斗各层指标数据类"""
    layer_name: str  # 层名称
    input_count: int  # 输入数量
    pass_count: int  # 通过数量
    cr: float = 0.0  # 转化率（自动计算）
    leakage_reason: str = ""  # 漏损原因
    
    def __post_init__(self):
        self.cr = self.pass_count / self.input_count if self.input_count > 0 else 0.0

模块2：漏斗评估核心类（计算指标+可视化）

from sentence_transformers import SentenceTransformer, util

class PromptFunnelEvaluator:
    def __init__(self, scenario="customer_service"):
        self.scenario = scenario
        self.layers = []  # 存储各层指标
        self.model = SentenceTransformer('all-MiniLM-L6-v2')  # 文本向量化模型
        # 场景化权重（FHI计算用）
        self.weights = self._get_scenario_weights()
    
    def _get_scenario_weights(self):
        """根据场景返回各层权重"""
        if self.scenario == "customer_service":
            return {"需求分析层": 0.1, "提示设计层": 0.1, "模型交互层": 0.2, 
                    "结果评估层": 0.4, "反馈优化层": 0.2}
        elif self.scenario == "content_writing":
            return {"需求分析层": 0.2, "提示设计层": 0.3, "模型交互层": 0.2, 
                    "结果评估层": 0.2, "反馈优化层": 0.1}
        else:
            return {layer: 0.2 for layer in ["需求分析层", "提示设计层", "模型交互层", 
                                            "结果评估层", "反馈优化层"]}
    
    def add_layer(self, layer: FunnelMetrics):
        """添加漏斗层指标"""
        self.layers.append(layer)
    
    def calculate_funnel_efficiency(self):
        """计算漏斗整体效率（各层转化率乘积）"""
        efficiency = 1.0
        for layer in self.layers:
            efficiency *= layer.cr
        return round(efficiency * 100, 2)
    
    def calculate_fhi(self):
        """计算漏斗健康度指数（加权平均各层转化率）"""
        fhi = 0.0
        for layer in self.layers:
            fhi += layer.cr * self.weights[layer.layer_name]
        return round(fhi * 100, 2)
    
    def compute_semantic_similarity(self, prompt: str, output: str):
        """计算提示与模型输出的语义相似度（模型交互层评估用）"""
        prompt_embedding = self.model.encode(prompt, convert_to_tensor=True)
        output_embedding = self.model.encode(output, convert_to_tensor=True)
        return util.cos_sim(prompt_embedding, output_embedding).item()
    
    def plot_funnel(self, title="提示系统评估漏斗"):
        """绘制漏斗图"""
        import matplotlib.pyplot as plt
        plt.figure(figsize=(10, 6))
        # 提取各层名称和通过数
        layer_names = [layer.layer_name for layer in self.layers]
        pass_counts = [layer.pass_count for layer in self.layers]
        # 绘制漏斗图（倒三角）
        plt.barh(layer_names, pass_counts, color=['#4CAF50', '#2196F3', '#FFC107', '#FF9800', '#F44336'])
        # 添加转化率标签
        for i, (count, cr) in enumerate(zip(pass_counts, [layer.cr for layer in self.layers])):
            plt.text(count + 2, i, f"{cr*100:.1f}%", va='center')
        plt.xlabel('通过数量')
        plt.title(title)
        plt.gca().invert_yaxis()  # 从上到下显示层
        plt.show()

模块3：实战案例（电商客服提示系统评估）

def run_customer_service_case():
    # 步骤1：模拟100条需求的漏斗数据（对应上文步骤3的示例数据）
    layers = [
        FunnelMetrics("需求分析层", 100, 85, leakage_reason="15条需求模糊"),
        FunnelMetrics("提示设计层", 85, 76, leakage_reason="9条提示缺少变量"),
        FunnelMetrics("模型交互层", 76, 60, leakage_reason="16条提示被误解"),
        FunnelMetrics("结果评估层", 60, 51, leakage_reason="9条结果不完整"),
        FunnelMetrics("反馈优化层", 51, 45, leakage_reason="6条用户不满意")
    ]
    
    # 步骤2：初始化评估器
    evaluator = PromptFunnelEvaluator(scenario="customer_service")
    for layer in layers:
        evaluator.add_layer(layer)
    
    # 步骤3：计算核心指标
    efficiency = evaluator.calculate_funnel_efficiency()
    fhi = evaluator.calculate_fhi()
    
    # 步骤4：输出结果
    print(f"漏斗整体效率：{efficiency}%（100条需求→{int(100*efficiency/100)}条用户满意）")
    print(f"漏斗健康度指数（FHI）：{fhi}%")
    print("\n各层漏损原因：")
    for layer in layers:
        print(f"- {layer.layer_name}：{layer.leakage_reason}")
    
    # 步骤5：绘制漏斗图
    evaluator.plot_funnel(title="电商客服提示系统评估漏斗（优化前）")
    
    # 步骤6：模拟优化模型交互层后的效果（CR从79%→88%）
    layers[2].pass_count = 67  # 76×0.88≈67
    layers[2].__post_init__()  # 重新计算CR
    layers[2].leakage_reason = "9条提示被误解（优化后）"
    efficiency_after = evaluator.calculate_funnel_efficiency()
    print(f"\n优化后漏斗整体效率：{efficiency_after}%（提升{efficiency_after-efficiency:.2f}%）")
    evaluator.plot_funnel(title="电商客服提示系统评估漏斗（优化后）")

# 运行案例
if __name__ == "__main__":
    run_customer_service_case()

代码解读与分析

核心功能说明

FunnelMetrics类：结构化存储每层的输入/通过数量、转化率、漏损原因，自动计算转化率。
PromptFunnelEvaluator类：核心评估引擎，支持：
- 场景化权重配置（客服/写作等）
- 整体效率（各层CR乘积）与健康度指数（加权平均）计算
- 语义相似度计算（用Sentence-BERT评估模型理解准确性）
- 漏斗图可视化（直观展示各层转化情况）
实战案例：模拟电商客服系统数据，演示从"评估→发现问题→优化→再评估"的完整流程。