大模型提示工程崩了？架构师必备的7大容灾备份方案（附实战案例）

原创于 2025-08-22 03:17:33 发布 · 478 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#java #spring #spring boot #ai

CSD 专栏收录该内容

33 篇文章

订阅专栏

大模型提示工程崩了？架构师必看的7大容灾备份方案（附实战案例）

1. 标题选项

《大模型提示工程翻车急救指南：架构师必备的7大容灾方案》
《避免提示工程崩溃：7个实战容灾策略，架构师一定要会》
《大模型提示故障应对手册：7大备份方案帮你稳保业务连续性》
《提示工程容灾实战：架构师必学的7个方案（附案例）》

2. 引言（Introduction）

痛点引入（Hook）

你有没有遇到过这样的场景？

精心调试了3天的提示模板，上线后突然输出乱码，用户投诉激增；
用户的长对话上下文因为Redis缓存崩溃丢失，大模型像“失忆”一样重复问同样的问题；
高峰期OpenAI API超时，导致所有依赖提示的功能全部宕机，业务停滞1小时；
提示输出的格式突然不符合要求，下游系统无法解析，引发连锁故障。

对于依赖大模型的应用来说，提示工程的稳定性直接决定了用户体验和业务连续性。哪怕是一个小小的提示模板错误，都可能导致整个应用“崩掉”。而大多数团队往往只关注提示的“效果优化”，却忽略了“容灾备份”——直到故障发生时才追悔莫及。

文章内容概述（What）

本文将结合架构师实战经验，分享7个针对大模型提示工程的容灾备份方案。这些方案覆盖了“提示模板管理”“上下文保持”“输出校验”“系统容错”等核心场景，帮你从根源上解决提示工程的“崩溃问题”。

读者收益（Why）

读完本文，你将学会：

用版本管理避免提示模板修改带来的风险；
用上下文续传解决对话中断问题；
用多模型 fallback应对API超时；
用输出校验防止格式错误；
用容灾策略保障提示工程的高可用性。

无论你是负责大模型部署的架构师，还是需要保障提示稳定性的开发者，这些方案都能帮你“防患于未然”。

3. 准备工作（Prerequisites）

技术栈/知识要求

了解大模型基本概念（如Prompt、Context、Completion）；
熟悉至少一种大模型API（如OpenAI、Anthropic、阿里云通义千问）；
掌握分布式系统容灾基础（如备份、重试、 fallback）；
具备后端开发经验（如Python/Java/Go）。

环境/工具要求

已部署的大模型服务（或调用第三方API的能力）；
缓存系统（如Redis，用于存储上下文）；
版本控制工具（如Git，用于管理提示模板）；
API网关（如Nginx/Kong，用于流量转发和重试）；
监控系统（如Prometheus/Grafana，用于报警）。

4. 核心内容：手把手实战（Step-by-Step Tutorial）

方案一：提示模板版本管理与回滚——避免“改崩”的第一防线

问题场景

你修改了提示模板中的某个变量（比如将“用户”改为“客户”），结果大模型的输出突然变得逻辑混乱。这时你需要快速恢复到之前的正确版本，但却找不到“旧模板”在哪里。

解决思路

用版本控制工具（如Git）或数据库（如PostgreSQL）管理提示模板的每个版本。每次修改模板时，记录版本号、修改内容、修改人，当出现问题时，一键回滚到指定版本。

实战案例

某电商客服大模型团队，在一次模板修改中误删了“订单号提取”的关键指令，导致机器人无法处理用户的订单查询请求，错误率从1%飙升到25%。团队通过Git回滚，将模板恢复到2小时前的版本，10分钟内解决了故障。

实现步骤

用Git管理提示模板文件
将提示模板存储为单独的文件（如customer_service_prompt.txt），并纳入Git版本控制：

# 初始化Git仓库
git init
# 添加模板文件
git add customer_service_prompt.txt
# 提交第一个版本
git commit -m "v1.0: 初始客服提示模板"

每次修改模板时，提交新的版本：

# 修改模板后提交
git commit -am "v1.1: 优化订单号提取逻辑"

添加版本切换接口
在应用中添加一个接口，允许通过版本号切换提示模板。例如用Python Flask实现：

from flask import Flask, request
import git

app = Flask(__name__)
repo = git.Repo("./prompt_templates")  # 模板文件所在的Git仓库路径

@app.route("/switch_prompt_version", methods=["POST"])
def switch_prompt_version():
    version = request.json.get("version")  # 如"v1.0"
    try:
        # 切换到指定版本
        repo.git.checkout(version)
        # 读取当前版本的模板内容
        with open("customer_service_prompt.txt", "r") as f:
            prompt = f.read()
        return {"code": 0, "message": "切换成功", "prompt": prompt}
    except Exception as e:
        return {"code": 500, "message": f"切换失败：{str(e)}"}

故障回滚操作
当发现模板问题时，调用/switch_prompt_version接口，传入之前的正确版本号（如v1.0），即可快速恢复模板。

关键说明

版本命名规范：建议用“v+日期+版本号”（如v20240501-1.0），便于追溯；
预发布验证：修改模板前，先在测试环境验证效果，再提交版本；
权限控制：限制模板修改权限，避免未经审核的修改上线。

方案二：上下文链条的断点续传——解决“失忆”问题

问题场景

用户与大模型的对话进行到第5轮时，由于Redis缓存崩溃，上下文信息丢失。大模型无法继续之前的对话，只能回复“请重新描述你的问题”，导致用户体验极差。

解决思路

将对话上下文存储在持久化存储（如Redis的AOF持久化、PostgreSQL）中，每次对话都更新上下文。当缓存故障时，从持久化存储中恢复最近的上下文，保证对话的连续性。

实战案例

某医疗咨询机器人应用，之前用Redis存储上下文，但未开启持久化。一次Redis宕机导致所有上下文丢失，用户投诉率上升30%。后来团队开启了Redis AOF持久化（每1秒同步一次），并配置了主从复制（1主2从），从此再也没有出现过上下文丢失的问题。

实现步骤

配置Redis持久化
修改Redis配置文件redis.conf，开启AOF持久化：

appendonly yes  # 开启AOF
appendfsync everysec  # 每1秒同步一次（平衡性能与安全性）

存储上下文到Redis
用Python的redis-py库，将每个用户的对话上下文存储为Redis的Hash类型（键为user:对话ID，值为上下文内容）：

import redis
from uuid import uuid4

# 连接Redis（主节点）
r = redis.Redis(host="redis-master", port=6379, db=0)

def save_context(user_id, conversation_id, context):
    """保存上下文到Redis"""
    key = f"user:{user_id}:conversation:{conversation_id}"
    r.hset(key, "context", context)
    r.expire(key, 3600)  # 1小时后过期（根据业务调整）

def get_context(user_id, conversation_id):
    """从Redis获取上下文"""
    key = f"user:{user_id}:conversation:{conversation_id}"
    context = r.hget(key, "context")
    return context.decode("utf-8") if context else None

恢复上下文
当Redis主节点宕机时，切换到从节点（通过Redis Sentinel或Cluster实现），并从AOF文件中恢复数据。应用从从节点获取上下文，继续对话：

# 从Redis从节点获取上下文
def get_context_from_slave(user_id, conversation_id):
    slave_r = redis.Redis(host="redis-slave-1", port=6379, db=0)
    key = f"user:{user_id}:conversation:{conversation_id}"
    context = slave_r.hget(key, "context")
    return context.decode("utf-8") if context else None

# 对话处理逻辑
def handle_conversation(user_id, message):
    conversation_id = uuid4().hex  # 生成对话ID（或从请求中获取）
    # 尝试从主节点获取上下文
    context = get_context(user_id, conversation_id)
    if not context:
        # 主节点故障，从从节点获取
        context = get_context_from_slave(user_id, conversation_id)
    # 如果仍没有上下文，初始化空上下文
    if not context:
        context = []
    # 添加用户当前消息到上下文
    context.append({"role": "user", "content": message})
    # 调用大模型生成回复
    response = call_llm(context)
    # 添加回复到上下文
    context.append({"role": "assistant", "content": response})
    # 保存上下文到Redis（主节点恢复后自动同步到从节点）
    save_context(user_id, conversation_id, context)
    return response

关键说明

上下文过期时间：根据业务需求设置（如1小时或24小时），避免Redis存储过多无效数据；
主从复制：确保Redis有足够的从节点，避免单点故障；
上下文压缩：如果上下文很长（如超过10轮），可以用摘要算法（如GPT-4的text-summarization）压缩上下文，减少存储压力。

方案三：提示输出多版本校验——防止“格式错误”

问题场景

你要求大模型输出JSON格式的结果（如{"order_id": "123", "status": "success"}），但有时候大模型会输出纯文本（如“订单ID是123，状态成功”），导致下游系统无法解析，引发连锁故障。

解决思路

生成多个版本的提示输出（如同时要求JSON和纯文本），或用另一个大模型（如GPT-4）校验输出格式。如果输出不符合要求，重新生成或** fallback 到备用提示**。

实战案例

某物流跟踪应用，要求大模型从用户的自然语言查询中提取“运单号”和“快递公司”，并输出JSON格式。之前由于大模型偶尔输出纯文本，导致下游的运单查询系统无法处理，每天有100+笔订单查询失败。后来团队添加了输出校验：用GPT-4检查输出是否为JSON，如果不是，重新调用大模型（用更严格的提示模板），失败率降到了0.1%以下。

实现步骤

设计带格式要求的提示
在提示中明确要求输出格式，并添加示例：

请从用户的查询中提取运单号（tracking_number）和快递公司（carrier），并以JSON格式输出。示例：
用户查询：我的快递是顺丰，运单号是SF123456789
输出：{"tracking_number": "SF123456789", "carrier": "顺丰"}

添加输出校验逻辑
用Python的json模块尝试解析输出，如果解析失败，调用备用提示（更严格的要求）重新生成：

import json
from openai import OpenAI

client = OpenAI(api_key="your-api-key")

def extract_shipment_info(user_query):
    # 主提示（正常要求）
    main_prompt = f"""
    请从用户的查询中提取运单号（tracking_number）和快递公司（carrier），并以JSON格式输出。示例：
    用户查询：我的快递是顺丰，运单号是SF123456789
    输出：{"tracking_number": "SF123456789", "carrier": "顺丰"}
    用户查询：{user_query}
    """
    # 备用提示（更严格的要求）
    backup_prompt = f"""
    必须从用户的查询中提取运单号（tracking_number）和快递公司（carrier），并严格以JSON格式输出，不得包含任何其他内容。示例：
    用户查询：我的快递是顺丰，运单号是SF123456789
    输出：{"tracking_number": "SF123456789", "carrier": "顺丰"}
    用户查询：{user_query}
    """
    # 调用主提示生成输出
    response = client.chat.completions.create(
        model="gpt-4",
        messages=[{"role": "user", "content": main_prompt}]
    )
    output = response.choices[0].message.content.strip()
    # 校验输出是否为JSON
    try:
        json.loads(output)
        return output  # 格式正确，返回结果
    except json.JSONDecodeError:
        # 格式错误，调用备用提示重新生成
        backup_response = client.chat.completions.create(
            model="gpt-4",
            messages=[{"role": "user", "content": backup_prompt}]
        )
        backup_output = backup_response.choices[0].message.content.strip()
        # 再次校验备用输出
        try:
            json.loads(backup_output)
            return backup_output
        except json.JSONDecodeError:
            # 两次都失败，返回错误信息
            return {"error": "无法提取运单信息，请重新描述"}

用另一个大模型校验
如果备用提示仍失败，可以用另一个大模型（如Anthropic的Claude 3）校验输出。例如：

from anthropic import Anthropic

anthropic_client = Anthropic(api_key="your-api-key")

def validate_output(output):
    """用Claude 3校验输出是否为JSON"""
    prompt = f"""
    请判断以下内容是否为有效的JSON格式：
    {output}
    如果是，返回"valid"；否则返回"invalid"。
    """
    response = anthropic_client.messages.create(
        model="claude-3-sonnet-20240229",
        max_tokens=10,
        messages=[{"role": "user", "content": prompt}]
    )
    return response.content[0].text.strip() == "valid"

# 在extract_shipment_info函数中添加校验：
if validate_output(output):
    return output
else:
    # 调用备用提示
    ...

关键说明

格式要求要明确：在提示中添加示例，让大模型更清楚输出格式；
备用提示要更严格：比如强调“必须输出JSON”“不得包含其他内容”；
校验成本控制：如果校验用的大模型成本较高（如GPT-4），可以设置“重试次数上限”（如2次），避免过高的成本。

方案四：系统级提示请求重试——应对“API超时”

问题场景

高峰期，OpenAI API的响应时间超过10秒，导致你的应用超时错误激增，用户无法使用依赖提示的功能。

解决思路

在API网关（如Nginx、Kong）或应用层（如Python的requests库、Java的HttpClient）添加重试机制，当请求超时或失败时，自动重试多次（如3次）。同时，可以配置指数退避（Exponential Backoff），避免重试导致API进一步拥堵。

实战案例

某内容生成平台，依赖OpenAI API生成文章。高峰期（如晚上8点），API超时率达到20%，导致用户无法生成文章。后来团队在Kong API网关中配置了重试策略（最多重试3次，每次间隔1秒、2秒、4秒），超时率降到了5%以下。

实现步骤

用Kong API网关配置重试
Kong是一个开源的API网关，可以通过插件（Plugin）配置重试。例如，添加retries插件：

# 创建一个Service（指向OpenAI API）
curl -X POST http://localhost:8001/services \
  --data "name=openai-service" \
  --data "url=https://api.openai.com"

# 创建一个Route（匹配你的应用请求路径）
curl -X POST http://localhost:8001/services/openai-service/routes \
  --data "paths[]=/v1/chat/completions" \
  --data "name=openai-route"

# 添加retries插件（最多重试3次，指数退避）
curl -X POST http://localhost:8001/routes/openai-route/plugins \
  --data "name=retries" \
  --data "config.retries=3" \
  --data "config.backoff_strategy=exponential" \
  --data "config.backoff_base=1" \
  --data "config.backoff_max=4"

上述配置表示：当请求失败时，最多重试3次，每次重试的间隔时间为1秒×2^(重试次数-1)（1秒、2秒、4秒）。

在应用层添加重试（Python示例）
如果没有使用API网关，可以用requests库的retry模块添加重试：

import requests
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry

def create_retry_session():
    """创建带重试的requests会话"""
    retry_strategy = Retry(
        total=3,  # 最多重试3次
        status_forcelist=[429, 500, 502, 503, 504],  # 需要重试的状态码（429是速率限制，500+是服务器错误）
        backoff_factor=1,  # 指数退避因子（1秒×2^(重试次数-1)）
        allowed_methods=["POST"]  # 只重试POST请求（根据你的需求调整）
    )
    adapter = HTTPAdapter(max_retries=retry_strategy)
    session = requests.Session()
    session.mount("https://", adapter)
    session.mount("http://", adapter)
    return session

# 使用带重试的会话调用OpenAI API
session = create_retry_session()
response = session.post(
    "https://api.openai.com/v1/chat/completions",
    headers={"Authorization": "Bearer your-api-key"},
    json={
        "model": "gpt-4",
        "messages": [{"role": "user", "content": "Hello!"}]
    }
)

关键说明

重试次数限制：不要设置太多重试次数（如超过5次），否则会增加API的负担，甚至导致账号被限速；
状态码选择：只重试可恢复的错误（如500-504服务器错误、429速率限制），不要重试客户端错误（如400无效请求、401未授权）；
指数退避：避免重试请求集中发送，减轻API的压力。

方案五：跨模型提示fallback——解决“单模型依赖”

问题场景

你的应用完全依赖OpenAI API，但某一天OpenAI出现大范围宕机（如2023年11月的 outage），导致所有依赖提示的功能全部无法使用。

解决思路

配置多模型 fallback 策略，当主模型（如OpenAI）无法使用时，自动切换到备用模型（如Anthropic、阿里云通义千问、百度文心一言）。这样可以保证提示请求的高可用性。

实战案例

某智能客服平台，之前只使用OpenAI GPT-4。2023年11月OpenAI宕机时，平台无法提供服务，损失了10万元的订单。后来团队添加了Anthropic Claude 3作为备用模型，当GPT-4无法使用时，自动切换到Claude 3。在2024年3月的一次OpenAI宕机中，平台的可用性保持在99.9%，没有受到影响。

实现步骤

配置多模型列表
在应用中定义主模型和备用模型的列表，包含模型名称、API密钥、请求地址等信息：

MODEL_CONFIGS = [
    {
        "name": "openai-gpt-4",
        "api_key": "your-openai-api-key",
        "base_url": "https://api.openai.com/v1/chat/completions",
        "model": "gpt-4"
    },
    {
        "name": "anthropic-claude-3",
        "api_key": "your-anthropic-api-key",
        "base_url": "https://api.anthropic.com/v1/messages",
        "model": "claude-3-sonnet-20240229"
    },
    {
        "name": "aliyun-qwen",
        "api_key": "your-aliyun-api-key",
        "base_url": "https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation",
        "model": "qwen-plus"
    }
]

实现fallback逻辑
遍历模型列表，依次调用每个模型，直到成功获取响应。例如用Python实现：

import requests
from requests.exceptions import Timeout, ConnectionError

def call_llm_with_fallback(messages):
    """调用大模型，带fallback策略"""
    for config in MODEL_CONFIGS:
        try:
            if config["name"] == "openai-gpt-4":
                # 调用OpenAI API
                response = requests.post(
                    config["base_url"],
                    headers={
                        "Authorization": f"Bearer {config['api_key']}",
                        "Content-Type": "application/json"
                    },
                    json={
                        "model": config["model"],
                        "messages": messages
                    },
                    timeout=10  # 超时时间10秒
                )
                response.raise_for_status()  # 抛出HTTP错误（如401、500）
                return response.json()["choices"][0]["message"]["content"]
            elif config["name"] == "anthropic-claude-3":
                # 调用Anthropic API
                response = requests.post(
                    config["base_url"],
                    headers={
                        "x-api-key": config["api_key"],
                        "Content-Type": "application/json",
                        "anthropic-version": "2023-06-01"
                    },
                    json={
                        "model": config["model"],
                        "max_tokens": 1000,
                        "messages": messages
                    },
                    timeout=10
                )
                response.raise_for_status()
                return response.json()["content"][0]["text"]
            elif config["name"] == "aliyun-qwen":
                # 调用阿里云通义千问API
                response = requests.post(
                    config["base_url"],
                    headers={
                        "Authorization": f"Bearer {config['api_key']}",
                        "Content-Type": "application/json"
                    },
                    json={
                        "model": config["model"],
                        "input": {
                            "messages": messages
                        }
                    },
                    timeout=10
                )
                response.raise_for_status()
                return response.json()["output"]["text"]
        except (Timeout, ConnectionError, requests.HTTPError) as e:
            print(f"模型{config['name']}调用失败：{str(e)}")
            continue  # 继续尝试下一个模型
    # 所有模型都失败，返回错误信息
    raise Exception("所有大模型都无法调用，请稍后重试")

使用fallback函数
在应用中调用call_llm_with_fallback函数，而不是直接调用某个模型的API：

messages = [{"role": "user", "content": "请解释一下什么是大模型？"}]
try:
    response = call_llm_with_fallback(messages)
    print(response)
except Exception as e:
    print(e)

关键说明

模型选择：备用模型要与主模型的能力相近（如都是通用大模型），避免切换后效果差距过大；
请求格式适配：不同模型的API请求格式可能不同（如OpenAI的messages是列表，Anthropic的messages也是列表，但字段名称可能不同），需要统一请求格式；
成本控制：备用模型的成本可能高于主模型（如Claude 3的成本比GPT-4高），可以设置“主模型优先”策略，只有当主模型无法使用时才切换到备用模型。

方案六：提示数据实时备份——解决“数据丢失”

问题场景

你的应用存储了大量用户的提示历史（如对话记录、提示模板），但由于数据库故障（如MySQL宕机），导致这些数据全部丢失，无法恢复。

解决思路

将提示数据（如对话上下文、提示模板、输出结果）存储在分布式数据库（如PostgreSQL的流复制、MongoDB的副本集）中，并配置实时备份（如AWS S3、阿里云OSS）。当数据库故障时，从备份中恢复数据。

实战案例

某教育辅导应用，用MySQL存储学生与大模型的对话记录。一次MySQL主节点宕机，且从节点未同步最新数据，导致最近2小时的对话记录丢失，学生无法继续之前的辅导 session。后来团队将对话记录存储在PostgreSQL的流复制集群（1主2从）中，并配置了AWS S3实时备份（每1分钟同步一次），从此再也没有出现过数据丢失的问题。

实现步骤

配置PostgreSQL流复制
PostgresSQL的流复制（Streaming Replication）可以将主节点的 WAL（Write-Ahead Log）实时同步到从节点，保证从节点的数据与主节点一致。配置步骤如下：

修改主节点的postgresql.conf：

listen_addresses = '*'  # 允许远程连接
wal_level = replica  # 开启流复制
max_wal_senders = 5  # 最多5个从节点
wal_keep_size = 1GB  # 保留1GB的WAL日志

修改主节点的pg_hba.conf，允许从节点连接：

host replication replicator 192.168.1.0/24 md5  # 从节点的IP段

重启主节点：
```
sudo systemctl restart postgresql
```

在从节点上创建复制用户：

CREATE USER replicator WITH REPLICATION ENCRYPTED PASSWORD 'your-password';

在从节点上初始化数据库：

pg_basebackup -h master-ip -U replicator -D /var/lib/postgresql/15/main -P -X stream

修改从节点的postgresql.conf：

standby_mode = on  # 开启 standby 模式
primary_conninfo = 'host=master-ip port=5432 user=replicator password=your-password'  # 主节点信息

重启从节点：
```
sudo systemctl restart postgresql
```

配置实时备份到S3
使用pg_backup_api或wal-g工具，将PostgreSQL的WAL日志实时备份到AWS S3。例如，用wal-g配置：

安装wal-g：

wget https://github.com/wal-g/wal-g/releases/download/v2.0.0/wal-g-linux-amd64.tar.gz
tar -xzf wal-g-linux-amd64.tar.gz
sudo mv wal-g /usr/local/bin/

配置wal-g环境变量（在~/.bashrc中添加）：

export AWS_ACCESS_KEY_ID=your-access-key
export AWS_SECRET_ACCESS_KEY=your-secret-key
export WALG_S3_PREFIX=s3://your-bucket-name/postgres-backup
export PGHOST=localhost
export PGPORT=5432
export PGUSER=postgres
export PGPASSWORD=your-postgres-password

开启wal-g的归档模式：
修改主节点的postgresql.conf：

archive_mode = on  # 开启归档
archive_command = 'wal-g push %p'  # 将WAL日志推送到S3

重启主节点：
```
sudo systemctl restart postgresql
```

恢复数据
当主节点宕机时，可以将从节点提升为主节点，继续提供服务。如果从节点也故障，可以从S3备份中恢复数据：
- 停止PostgreSQL服务：
```
sudo systemctl stop postgresql
```
- 清空数据目录：
```
sudo rm -rf /var/lib/postgresql/15/main/*
```
- 从S3恢复最新的全量备份：
```
wal-g restore-latest /var/lib/postgresql/15/main
```
- 恢复WAL日志（直到最新的事务）：
```
wal-g fetch-latest -o /var/lib/postgresql/15/main
```
- 启动PostgreSQL服务：
```
sudo systemctl start postgresql
```

关键说明

流复制延迟：从节点的同步延迟要尽可能小（如小于1秒），避免主节点宕机时从节点的数据落后太多；
备份频率：全量备份的频率要根据数据量调整（如每天一次），WAL日志要实时备份；
备份验证：定期验证备份的有效性（如每月恢复一次备份），确保备份可以正常使用。

方案七：异常提示自动拦截与报警——提前发现问题

问题场景

你的应用中的某个提示模板突然输出大量无关内容（如广告、敏感信息），但你直到用户投诉才发现这个问题。

解决思路

在应用层添加异常提示拦截逻辑，通过规则引擎（如Redis的Lua脚本、Python的pydantic）或大模型（如GPT-4）检测提示输出中的异常内容（如敏感词、广告、格式错误）。如果检测到异常，自动拦截输出，并触发报警（如发送邮件、 Slack 通知）。

实战案例

某金融咨询应用，要求大模型输出“投资建议”，但有时候大模型会输出“推荐购买某只股票”的敏感内容（违反金融监管规定）。团队添加了敏感词拦截和大模型校验：用规则引擎检测“股票代码”“推荐购买”等敏感词，用GPT-4校验输出是否符合“中立建议”的要求。一旦检测到异常，自动拦截输出，并发送Slack报警。从此再也没有出现过违规内容的问题。

实现步骤

定义异常规则
列出需要拦截的异常类型和规则，例如：
- 敏感词：包含“股票代码”“推荐购买”“赌博”等词；
- 格式错误：输出不是JSON格式（如方案三所述）；
- 无关内容：输出与用户问题无关（如用户问“如何理财”，输出“今天天气很好”）；
- 违规内容：违反法律法规或公司政策（如泄露用户信息）。

实现异常拦截逻辑
用Python的re模块检测敏感词，用pydantic校验格式，用大模型校验相关性：

import re
from pydantic import BaseModel, ValidationError
from openai import OpenAI

client = OpenAI(api_key="your-api-key")

# 敏感词列表（可以存储在数据库中，动态更新）
SENSITIVE_WORDS = ["股票代码", "推荐购买", "赌博", "毒品"]

# 输出格式模型（用pydantic定义）
class InvestmentAdvice(BaseModel):
    advice: str  # 投资建议
    risk_level: str  # 风险等级（低/中/高）
    disclaimer: str  # 免责声明

def intercept_abnormal_output(output, user_query):
    """拦截异常提示输出"""
    # 1. 敏感词检测
    for word in SENSITIVE_WORDS:
        if re.search(word, output):
            return {"status": "blocked", "reason": f"包含敏感词：{word}"}
    # 2. 格式校验（用pydantic）
    try:
        InvestmentAdvice.model_validate_json(output)
    except ValidationError as e:
        return {"status": "blocked", "reason": f"格式错误：{str(e)}"}
    # 3. 相关性校验（用大模型）
    prompt = f"""
    用户的问题是：{user_query}
    大模型的输出是：{output}
    请判断输出是否与用户的问题相关。如果相关，返回"relevant"；否则返回"irrelevant"。
    """
    response = client.chat.completions.create(
        model="gpt-4",
        messages=[{"role": "user", "content": prompt}],
        max_tokens=10
    )
    relevance = response.choices[0].message.content.strip()
    if relevance == "irrelevant":
        return {"status": "blocked", "reason": "输出与用户问题无关"}
    # 4. 违规内容校验（用大模型）
    prompt = f"""
    请判断以下内容是否违反金融监管规定或公司政策：
    {output}
    如果违反，返回"violation"；否则返回"compliant"。
    """
    response = client.chat.completions.create(
        model="gpt-4",
        messages=[{"role": "user", "content": prompt}],
        max_tokens=10
    )
    compliance = response.choices[0].message.content.strip()
    if compliance == "violation":
        return {"status": "blocked", "reason": "包含违规内容"}
    # 所有校验通过，返回正常
    return {"status": "allowed", "reason": "正常"}

触发报警
如果检测到异常，用slack_sdk发送Slack报警：

from slack_sdk import WebClient
from slack_sdk.errors import SlackApiError

slack_client = WebClient(token="your-slack-token")

def send_slack_alert(output, reason, user_query):
    """发送Slack报警"""
    try:
        response = slack_client.chat_postMessage(
            channel="#prompt-alerts",
            text=f"⚠️ 异常提示输出拦截！\n"
                 f"用户问题：{user_query}\n"
                 f"输出内容：{output}\n"
                 f"拦截原因：{reason}"
        )
        print(f"Slack报警发送成功：{response['ts']}")
    except SlackApiError as e:
        print(f"Slack报警发送失败：{e.response['error']}")

使用拦截逻辑
在应用中调用intercept_abnormal_output函数，拦截异常输出：

def handle_user_query(user_query):
    # 调用大模型生成输出
    output = call_llm(user_query)
    # 检测异常
    result = intercept_abnormal_output(output, user_query)
    if result["status"] == "blocked":
        # 拦截输出，返回错误信息
        send_slack_alert(output, result["reason"], user_query)
        return {"error": "您的请求无法处理，请稍后重试"}
    else:
        # 返回正常输出
        return {"response": output}

关键说明

规则动态更新：敏感词列表和异常规则要能动态更新（如存储在数据库中），避免修改代码重启应用；
报警级别：根据异常的严重程度设置不同的报警级别（如敏感词拦截为“紧急”，格式错误为“警告”）；
误判处理：如果拦截了正常输出，要提供“申诉”渠道（如用户可以点击“重新生成”按钮），避免影响用户体验。

5. 进阶探讨（Advanced Topics）

1. 提示工程容灾与大模型整体架构的融合

提示工程的容灾不是孤立的，需要与大模型的整体架构（如模型部署、缓存、数据库）融合。例如：

模型部署：使用分布式模型部署（如TensorFlow Serving、TorchServe），避免单点故障；
缓存：使用分布式缓存（如Redis Cluster），提高缓存的可用性；
数据库：使用分布式数据库（如PostgreSQL的Citus扩展、MongoDB的Sharding），提高数据库的扩展性和可用性。

2. AI驱动的提示故障预测

使用机器学习模型（如LSTM、Transformer）分析提示工程的日志数据（如提示模板修改记录、输出错误率、API超时率），预测可能出现的故障（如提示模板修改后错误率上升）。例如：

收集过去6个月的提示模板修改记录和对应的错误率数据；
用LSTM模型训练一个预测模型，输入“模板修改内容”“修改时间”等特征，输出“错误率上升概率”；
当预测概率超过阈值（如80%）时，触发报警，提醒团队检查模板修改。

3. 多租户场景下的提示容灾隔离

在多租户应用（如SaaS平台）中，不同租户的提示工程需要隔离，避免一个租户的故障影响其他租户。例如：

资源隔离：为每个租户分配独立的Redis缓存、数据库实例、模型资源；
权限隔离：每个租户只能修改自己的提示模板，无法访问其他租户的模板；
故障隔离：当一个租户的提示工程出现故障时，自动隔离该租户的请求，避免影响其他租户。

6. 总结（Conclusion）

回顾要点

本文分享了7个针对大模型提示工程的容灾备份方案，覆盖了模板管理、上下文保持、输出校验、系统容错、多模型 fallback、数据备份、异常拦截等核心场景。这些方案的核心思想是：

预防为主：用版本管理、上下文续传等方案避免故障发生；
容错兜底：用重试、fallback等方案在故障发生时减少影响；
快速恢复：用备份、回滚等方案在故障发生后快速恢复。

成果展示

通过这些方案，你可以实现：

提示模板修改的风险可控（版本管理与回滚）；
对话上下文的连续性（上下文续传）；
输出格式的正确性（多版本校验）；
API请求的高可用性（重试与 fallback）；
数据的安全性（实时备份）；
异常内容的及时拦截（报警与拦截）。

鼓励与展望

提示工程的容灾备份是一个持续优化的过程，需要根据业务需求和故障场景不断调整方案。建议你：

定期演练容灾方案（如每年一次“提示工程故障演练”）；
收集用户反馈和故障日志，不断完善容灾策略；
关注大模型技术的发展（如更稳定的API、更智能的提示优化工具），及时更新容灾方案。

7. 行动号召（Call to Action）

互动邀请

如果你在实践中遇到任何问题，或者有更好的容灾方案，欢迎在评论区留言讨论！也可以关注我的公众号“架构师实战笔记”，获取更多大模型架构与容灾的实战经验。

资源推荐

书籍：《大模型架构设计与实战》《分布式系统容灾设计》；
工具：Kong（API网关）、Redis（缓存）、PostgreSQL（数据库）、Slack（报警）；
文档：OpenAI API文档、Anthropic API文档、PostgreSQL流复制文档。