构建弹性 AI 代理：深入解析 LangGraph 中的持久化与持久执行

原创于 2025-09-02 15:04:12 发布 · 689 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #android #大模型 #python #Agent

大模型同时被 3 个专栏收录

63 篇文章

订阅专栏

AI agent

12 篇文章

订阅专栏

LangGraph

7 篇文章

订阅专栏

『AI先锋杯·14天征文挑战第5期』 3.4w人浏览 27人参与

在这里插入图片描述

引言：超越请求-响应模式——对有状态、长时运行代理的需求

人工智能应用正在经历一场范式转变。传统的、无状态的请求-响应模型（在简单的聊天机器人中很常见）已无法满足日益复杂的任务需求。新一代的 AI 代理需要具备长时运行、有状态且能处理突发性工作负载的特性。复杂的任务，如规划、研究和多步工具调用，无法在单一、原子性的事务中可靠地完成。它们需要一个能够记忆上下文、跟踪进度并在中断后存活的系统。

为了应对这一挑战，LangGraph 应运而生，它是一个专为这种新范式设计的底层编排框架。与其他“黑盒”式的代理框架不同，LangGraph 提供了一个更具表现力和可控性的有状态图结构。在这个框架中，

持久化 (Persistence)（保存状态的机制）和持久执行 (Durable Execution)（从该状态恢复的保证）是构建生产级代理的两大基石。本教程将深入探讨这两个核心概念，阐明理解持久化是解锁持久执行能力的关键。
在这里插入图片描述

第一部分：记忆的基石——掌握持久化

本部分将重点关注 LangGraph 为保存、加载和管理代理工作流状态所提供的具体组件和 API，即“如何实现”的问题。

第一章：持久化的核心概念

LangGraph 内置了一个持久化层，这并非一个事后添加的功能，而是其核心设计的一部分。几乎所有 LangGraph 的高级功能，包括记忆、人机协同（human-in-the-loop）和容错，都建立在这一基础之上。

检查点工具 (Checkpointers)：状态管理的引擎

定义：检查点工具（Checkpointer）是一个负责在图的每个“超级步骤”（super-step，通常指每个节点执行后）保存和加载图状态的对象。启用持久化非常简单，只需在编译图时传入一个检查点工具实例即可：
```
graph.compile(checkpointer=my_checkpointer)
```
机制：检查点工具会将状态序列化，并将其存储在后端（如内存、SQLite 或 Postgres），从而创建一个“检查点” 。

线程 (Threads)：隔离的执行历史

类比：理解线程最有效的方式是将其比作独立的“聊天对话” 。每个线程都有一个唯一的 thread_id，并维护着一套自己独立的检查点历史记录。正是这一机制，使得单个部署的代理能够同时处理多个用户或对话，而不会混淆它们各自的状态。
实现：thread_id 在调用图时通过 configurable 字典传入，例如：{"configurable": {"thread_id": "user_123"}} 。对于任何多用户应用来说，这是一个至关重要的实践细节。后续的示例将展示，切换 thread_id 会导致上下文丢失，从而证明了线程的隔离性。

检查点 (Checkpoints)：状态的原子快照

定义：检查点是图在某个特定时间点的完整、不可变的状态快照，由一个 StateSnapshot 对象表示。
StateSnapshot 的构成：一个检查点包含以下关键组件：
- values：状态对象中的实际数据（例如，消息列表）。
- next：一个元组，包含接下来要执行的一个或多个节点的名称。这是恢复执行的关键。
- tasks：关于待处理操作的信息，如果某一步骤失败，这里会包含错误详情。这是实现容错的核心。
- config 和 metadata：与检查点关联的配置（如 thread_id）和元数据（如时间戳），为快照提供上下文。
检查点的生命周期：在一个简单的图执行过程中，检查点会在多个时刻被创建：初始时有一个空的检查点，接收到用户输入后有一个，每个节点运行后各有一个，图执行结束时还有一个最终的检查点。这个过程清晰地揭示了状态是如何被逐步记录的。

这三个组件之间存在着一种层级和因果关系：检查点工具是执行者，它负责创建检查点（状态快照），并将这些快照组织到线程（执行历史）中。这不仅仅是一系列功能的堆砌，而是一个结构化的状态管理体系。开发者不需要直接管理检查点，而是通过管理线程来与持久化层交互，检查点工具则在幕后处理所有细节。建立这种心智模型，有助于在正确的抽象层次上思考应用的状态，从而避免混淆，并能更有效地进行调试和设计。

第二章：持久化实践指南

本章将通过构建一个具备记忆功能的简单对话代理，将理论知识付诸实践。

步骤 1：环境设置与状态定义

首先，需要安装必要的库，例如 langgraph、langchain_anthropic 等。然后定义一个 State 对象。在这里，使用 Annotated 和 add_messages 至关重要，它能确保新的消息被追加到历史记录中，而不是覆盖旧消息，从而实现对话记忆。

from typing import Annotated
from typing_extensions import TypedDict
from langgraph.graph.message import add_messages

class State(TypedDict):
    messages: Annotated[list, add_messages]

步骤 2：构建图

定义代理循环所需的节点（如 call_model，用于调用语言模型）和条件边（如 should_continue，用于判断是继续调用工具还是结束对话）。这是构建任何 LangGraph 代理的标准流程。

步骤 3：启用持久化

为了启用持久化，需要实例化一个检查点工具。对于演示和开发，InMemorySaver 是最便捷的选择，因为它无需任何外部依赖。

from langgraph.checkpoint.memory import InMemorySaver

memory_saver = InMemorySaver()

然后，在编译图时传入这个检查点工具：

# 假设 'workflow' 是一个 StateGraph 实例
graph = workflow.compile(checkpointer=memory_saver)

步骤 4：使用线程运行

现在，可以通过传入不同的 thread_id 来与持久化的图进行交互。

第一次交互：创建一个新的对话线程，并提出第一个问题。

config = {"configurable": {"thread_id": "1"}}
app.invoke(
    {"messages": [("user", "Hello! My name is Bob")]},
    config=config
)

后续交互（同一线程）：在同一个线程中提出后续问题。
```
app.invoke(
    {"messages": ["what is my name?"]},
    config=config
)
```
由于使用了相同的 thread_id，代理能够访问之前的检查点，因此它会记得用户的名字并正确回答：“Your name is Bob” 。
后续交互（不同线程）：使用一个新的 thread_id 提出同样的问题。
```
new_config = {"configurable": {"thread_id": "2"}}
app.invoke(
    {"messages": ["what is my name?"]},
    config=new_config
)
```
在这种情况下，代理会回答它不知道用户的名字，因为它在一个全新的、没有任何历史记录的线程中运行。这个简单的实验清晰地证明了持久化状态是严格按照线程进行隔离的。

第三章：高级状态操作与“时间旅行”

持久化不仅能实现记忆，还提供了一系列强大的 API 来检查和操控状态，从而实现调试和交互式工作流。

检查代理历史

graph.get_state(config)：此方法可以获取指定线程的最新状态快照。这对于检查代理的最终输出或当前状态非常有用。
graph.get_state_history(config)：此方法可以获取指定线程的完整状态快照序列。它返回一个从最新到最旧的检查点列表，为调试代理的“思考过程”或创建完整的审计日志提供了无价的工具。

“时间旅行”能力

回放与分叉：LangGraph 允许从历史上的任意一个检查点重新开始执行。通过在调用图时同时提供 thread_id 和 checkpoint_ts（或 checkpoint_id），可以激活这一功能。
智能回放机制：这里的关键在于，LangGraph 不会重新执行指定检查点之前的步骤，而是直接回放这些步骤已保存的输出。新的执行只会在该检查点之后开始，这实际上在执行历史中创建了一个新的“分叉” 。这个功能对于进行“假设”分析或在不从头开始的情况下纠正代理的某个错误步骤，非常强大。

实现人机协同 (HITL)

人机协同是持久化功能的一个主要应用场景。其基本模式如下：图运行到一个需要人类决策的节点 -> 图暂停并保存其状态 -> 人类检查状态并提供输入 -> 图从暂停处恢复执行。

实践示例：可以构建一个工作流，让代理在执行关键操作前（例如，“我将搜索 X”）请求批准。这可以通过一个特殊的节点来实现，该节点会中断图的执行。此时，人类操作员可以使用 graph.get_state() 来查看代理提议的行动。在批准后，可以使用 graph.update_state() 向状态中注入一条“批准”消息，并恢复图的执行。

graph.update_state()：这是一个核心方法，它接受 values 参数来修改状态，以及一个可选的 as_node 参数，用于告知图应该从哪个节点之后继续执行。

第四章：生产级持久化：后端与安全

InMemorySaver 对于开发非常方便，但一旦进程重启，所有状态都会丢失。生产环境的应用需要更可靠的持久化后端。

检查点后端对比

为帮助开发者根据用例选择合适的持久化后端，下表对常用选项进行了比较。从原型设计到大规模生产部署，选择正确的后端至关重要。InMemorySaver 简单但脆弱；SQLite 适用于本地或单机应用；而 Postgres 因其可扩展性、鲁棒性和并发支持，成为多用户生产环境的明确选择。

特性	InMemorySaver	SqliteSaver / AsyncSqliteSaver	PostgresSaver / AsyncPostgresSaver
主要用例	快速原型、单元测试	本地开发、单机应用	生产环境、可扩展部署
持久性	易失性（内存中）	持久化（基于文件）	持久化（数据库服务器）
并发性	仅限单进程	有限（文件锁）	高（事务支持）
设置复杂度	无（内置）	低 (pip install langgraph-checkpoint-sqlite)	中（需要部署 Postgres 数据库）
相关资料

处理复杂数据：序列化

默认的 JsonPlusSerializer 可以处理许多常见的数据类型，但对于某些特殊对象（如 Pandas DataFrames）则无能为力。在这种情况下，可以通过设置 pickle_fallback=True 来启用 pickle 作为备用序列化方案。但需要注意的是，反序列化来自不受信任来源的数据存在安全风险。

静态状态加密：安全性

为了保护存储在数据库中的敏感状态数据，LangGraph 提供了 EncryptedSerializer 。通过将一个加密序列化器实例传递给检查点工具，可以轻松实现静态数据加密。通常，加密密钥从环境变量（如 LANGGRAPH_AES_KEY）中读取，这是一种安全最佳实践。

第二部分：弹性的保证——实现持久执行

本部分将探讨持久化这一“机制”如何带来“持久执行”这一“保证”，从而构建一个真正有弹性的、“防崩溃”的系统。

第五章：从持久化到持久执行

定义持久执行

持久执行是一种技术，它允许一个进程或工作流在关键点保存其进度，从而能够在之后从中断处精确地恢复执行。它使得执行过程变得“防崩溃” (crash-proof) 。这对于需要人机协同的场景，或者可能遭遇中断（如 API 调用超时）的长时运行任务至关重要。

因果联系

这里需要明确一个核心观点：持久执行不是一个需要单独开启的功能，它就是使用检查点工具带来的直接结果。只要为图启用了持久化，就已经为持久执行奠定了基础。换言之，持久化层提供了持久执行的能力。

对代理的重要性

这与引言中提到的代理特性息息相关。代理通常需要长时间运行，并与不稳定的外部系统（如可能出现故障的 API）交互。如果没有持久执行能力，任何一次网络抖动都可能导致整个复杂任务从头开始，这在生产环境中是不可接受的。持久执行确保了代理的进度永远不会丢失。

第六章：持久代理的设计原则

虽然 LangGraph 提供了工具，但构建一个真正持久的代理还需要开发者遵循特定的设计原则。

确定性与一致性回放

“回放陷阱”：当一个工作流从故障中恢复时，它并非从失败代码的那一行继续，而是会从导致失败的那个节点的开头重新运行整个节点。
问题所在：如果节点中包含非确定性操作（例如，random.randint() 或 datetime.now()），重新运行时会产生与上次不同的结果，导致行为不一致和不可预测。
解决方案：所有非确定性操作都必须被封装在独立的任务（task）或节点中。这能确保它们的结果被检查点记录下来，从而在恢复时可以被一致地回放。

幂等性：副作用的黄金法则

定义：一个操作如果执行一次和执行多次的效果相同，那么它就是幂等的。
为何至关重要：这是实现持久工具调用的最重要概念。假设一个节点包含两个步骤：1. 在数据库中创建用户；2. 发送欢迎邮件。如果邮件发送失败，节点恢复后会从头开始执行，即再次尝试创建用户。这很可能会因为用户已存在而失败，或者更糟，创建重复的记录。

最佳实践：

粒度：将包含副作用的操作拆分到尽可能小的节点中。不要用一个 create_user_and_send_email 节点，而是用 create_user 和 send_email 两个独立的节点。
幂等键：在调用外部 API 时，如果 API 支持，请始终使用幂等键。
先检查后行动：在执行操作前，先检查该操作是否已经完成（例如，“用户 X 是否已存在？”）。

遵循这些原则，意味着开发者必须转变思维方式，不再将节点视为简单的 Python 函数，而是将其视为原子的、幂等的事务。由 LangGraph 管理的状态，实际上充当了这些事务的提交日志。这种设计约束，虽然增加了前期的思考成本，但它引导开发者构建出更健壮、更具容错能力的系统，因为这迫使他们直面分布式状态和副作用带来的挑战。

第七章：微调性能与一致性

LangGraph 提供了三种持久化模式，允许开发者根据应用需求在性能和数据一致性之间进行权衡。

持久化模式的权衡

下表清晰地阐述了每种模式的优缺点，帮助开发者做出明智的决策。对于金融交易，sync 模式是必须的；对于长时运行的数据分析，exit 可能更合适；而对于通用的聊天机器人，async 则提供了最佳的平衡。

模式	检查点写入时机	性能	持久性/一致性	最佳适用场景
“exit”	仅在图运行完全结束时写入。	最高	最低（无法从运行中故障恢复）	性能至上、非关键的长时运行批处理作业。
“async”	异步写入，在下一个步骤运行时于后台进行。	高	高（若进程在写入时崩溃，有极小数据丢失风险）	大多数常见用例，如聊天机器人，需要良好平衡。
“sync”	同步写入，在下一个步骤开始前完成。	最低	最高（保证一致性）	关键工作流，如金融交易或订单处理。