大模型入门到应用——LangChain：索引（Indexes）-[文本分割器（Text Splitters）]

von Neumann

已于 2023-09-21 20:12:12 修改

阅读量4.8k

点赞数 6

CC 4.0 BY-SA版权

分类专栏：大模型从入门到应用文章标签：人工智能深度学习 langchain 文本分割器大模型

于 2023-08-21 18:45:29 首次发布

本文链接：https://blog.csdn.net/hy592070616/article/details/132414165

大模型从入门到应用专栏收录该内容

60 篇文章

订阅专栏

文章详细介绍了LangChain框架中涉及的基础知识，包括安装配置、代理、记忆管理、大型语言模型（LLMs）、API使用、文本分割技术以及与之相关的功能如图问答、文档加载和代理执行。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

LangChain系列文章：

当我们需要处理长文本时，有必要将文本分割成块。虽然这听起来很简单，但这里存在很多潜在的复杂性。理想情况下，我们希望将语义相关的文本块保持在一起，但什么是"语义相关"可能取决于文本的类型。本文就展示了几种实现这一目标的方法。

在高层次上，文本分割器的工作原理如下：

将文本分割成小的、语义有意义的块（通常是句子）。
开始将这些小块组合成较大的块，直到达到一定的大小（由某个函数衡量）。
一旦达到该大小，将该块作为自己的文本片段，然后开始创建一个具有一定重叠的新文本块（以保持块之间的上下文）。

这意味着有两个不同的方向可以定制文本分割器：

文本如何被分割
块的大小如何衡量

默认推荐的文本分割器是RecursiveCharacterTextSplitter。该文本分割器接受一个字符列表作为参数。它尝试根据第一个字符进行分块，但如果有任何分块过大，它将继续尝试下一个字符，依此类推。默认情况下，它尝试进行分割的字符是\n\n、\n等。除了控制分割的字符之外，我们还可以控制其他一些内容：

length_function：如何计算分块的长度。默认只计算字符数，但通常在这里传递一个标记计数器。
chunk_size：分块的最大大小（由长度函数测量）。
chunk_overlap：分块之间的最大重叠量。保持一些重叠可以保持分块之间的连续性（例如使用滑动窗口）。
add_start_index：是否在元数据中包含每个分块在原始文档中的起始位置。

# This is a long document we can split up.
with open('../../state_of_the_union.txt') as f:
    state_of_the_union = f.read()
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(
    # Set a really small chunk size, just to show.
    chunk_size = 100,
    chunk_overlap  = 20,
    length_function = len,
    add_start_index = True,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
print(texts[1])

输出：

page_content='Madam Speaker, Madam Vice President, our First Lady and Second Gentleman. Members of Congress and' metadata={'start_index': 0} page_content='of Congress and the Cabinet. Justices of the Supreme Court. My fellow Americans.' metadata={'start_index': 82}

我们还可以使用文本分割器分割下列类型的文件：

Character
HTML
Latex
Markdown
NLTK
Python
Recursive Character
spaCy
tiktoken（OpenAI）

参考文献：
[1] LangChain官方网站：https://www.langchain.com/
[2] LangChain 🦜️🔗 中文网，跟着LangChain一起学LLM/GPT开发：https://www.langchain.com.cn/
[3] LangChain中文网 - LangChain 是一个用于开发由语言模型驱动的应用程序的框架：http://www.cnlangchain.com/