文本如何做分块

最新推荐文章于 2025-08-25 23:42:58 发布

原创

最新推荐文章于 2025-08-25 23:42:58 发布 · 757 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

在RAG中，最重要的就是把内容进行分块，向量化，存到向量数据库里面。RAG检索结果的准确度主要还是要看内容分块是否合理。

本章我们主要介绍下文本切块（chunking）的几种方式。

方式 1：固定长度切

做法：每 N 个字符/词一刀切。

优点：无脑快，代码 3 行搞定。

缺点：容易把句子拦腰斩断，“北京大学”切成“北京+大学”，语义全断，自然处理效果就不会很好。

方式2：滑动窗口切（overlap）

做法：每 N 个词后回退 M 个词再切，像卷尺量两次。按照一个窗口一样往前滑动。

优点：减少断句，提高召回率。

缺点：块数翻倍，存储和检索成本大大滴高。目前我在工作中没咋用这种形式。

方式 3：按句子切（句号、换行）

做法：按 。！？\n 等能够明确的区分段落，完整句子的标识进行分割。

优点：语义完整，适合短问答。

缺点：句子太长或太短都不好；超长句子仍需二次切。主要还是向量化算法要求的token有限。

普通 BGE（bge-base/large-zh-v1.5 等）默认最多 512 token
新一代 BGE-M3 最长支持 8192 token
BGE 家族现在有两代产品：

第一代的 bge-base-zh-v1.5、bge-large-zh-v1.5 等，基于 BERT 类架构，训练时就固定了 512 token 的输入窗口。我们工作中用的就是bge-large-zh-v1.5这个版本。
2024 年发布的 BGE-M3

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Airbander

关注关注

8
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

LLM+RAG：文本分块处理策略

Cachel Wood的博客

05-27

433

本文探讨了文本分块的意义、常见策略及工具应用。文本分块对RAG系统性能至关重要，不合理分块会导致上下文不完整或噪声过多。常见方法包括固定大小分块（通过重叠和智能截断优化）、基于NLTK/spaCy的自然语言分块（需自定义中文模型）、特殊格式分块（如HTML/Markdown）等。LangChain提供了多种分块工具，如RecursiveCharacterTextSplitter可按层级递归分割，并支持自定义编程语言的分隔符。合理选择分块策略能提升检索质量和大模型生成效果。

RAG优化:python从零实现一个文本语义分块算法

AI人工智能的学习之路

03-20

472

文本分块是检索增强生成（RAG）中的一个关键步骤，通过将大段文本划分为有意义的段落来提高检索准确性。与固定长度的分块不同，语义分块基于句子之间的内容相似性来划分文本。我们实现了基于语义分块的文本分割方法，并使用OpenAI的嵌入模型进行了语义搜索和响应生成。通过评估AI助手的响应，我们可以进一步优化模型的性能。

参与评论您还未登录，请先登录后发表或查看评论

RAG文本分块

ngadminq的博客

05-17

1474

不论是向量化模型还是大语言模型，都存在输入长度的限制。对于超过限制的文本，模型会进行截断，造成语义缺失。分块可以确保每个文本片段都在模型的处理范围内，避免重要信息的丢失。

长文本向量模型分块策略

m0_62458145的博客

12-18

914

长文本向量模型能够将十页长的文本编码为单个向量，听起来很强大，但真的实用吗？很多人觉得... 未必。直接用行不行？该不该分块？怎么分才最高效？本文将带你深入探讨长文本向量模型的不同分块策略，分析利弊，帮你避坑。长文本向量化的问题首先，让我们看看将整篇文章压缩成单一向量会存在哪些问题。比如这篇关于 ICML 2024 参会报告的博客，就包含会议介绍、Jina AI 的工作展示 () 以及其他研究论文总结。如果将整篇文章向量化成单一向量，该向量将混合三个不同主题的信息：表示稀释会削弱文本向量的精度。

RAG之文本分块策略

qq_30921029的博客

06-11

982

rag系统在构建向量库时，调用embedding模型之前需要考虑如何将原始文本做分块，好的分块策略可以帮助我们优化从向量库被召回的内容的准确性。

python 文本分块_块分类 - Python文本处理教程™

weixin_39616090的博客

12-19

313

基于分类的分块涉及将文本分类为一组单词而不是单个单词。一个简单的场景是在句子中标记文本，将使用语料库来演示分类。选择具有来自华尔街日报语料库(WSJ)的数据的语料库conll2000，用于基于名词短语的分块。首先，使用以下命令将语料库添加到环境中。import nltknltk.download('conll2000')看看这个语料库中的前几句话。from nltk.corpus import c...

使用Python对知识文本进行分块

m0_37134868的博客

08-15

1025

在上述示例中，我们注意到代码分割时的重叠部分设置为0。因此，为了保持代码的原始意图和准确性，避免产生误解或错误，设置重叠部分为0是必要的。当你决定使用哪种分块器处理数据时，重要的一步是提取数据嵌入并将其存储在向量数据库(Vector DB)中。LanceDB 是一个无需配置、开源且无服务器的向量数据库，其数据持久化在硬盘驱动器上，允许用户在不超出预算的情况下实现扩展。此外，LanceDB 与Python 数据生态系统兼容，因此你可以将其与现有的数据工具（如：pandas、pyarrow等）结合使用。

大模型Rag - 文本分块

kznsbs的博客

04-19

385

在构建智能问答系统或知识库的过程中，文本分块（Text Splitting）是一项基础但极为关键的任务。它不仅决定了后续 embedding 生成的质量，也直接影响向量检索系统的准确率与效率。本文将系统性地介绍文本分块的原理、动因、策略及工具实践，帮助你构建更健壮的语义检索系统。

文本分块大小优缺点

weixin_42924890的博客

01-25

618

RAG 检索系统中文本分块大小的优缺点。

python 文本分块_单独的文本块python

weixin_39707725的博客

12-28

615

这里有一个类似我最近做的修改过的例子，基本上是通过你的文本逐行复制。核心逻辑的基础是附加到当前文件名，在找到新的部分后重置。将使用下一节的第一行作为文件名。在#!/usr/bin/env pythonimport redata = """Channel 9 (1 item)A woman selling her caravan near Bendigo has been left $1,100 o...

文本分块 text chunk

09-22

### 文本分块（Text Chunking）：理解与实践 #### 一、什么是文本分块（Text Chunking）文本分块(Text Chunking)，也被称为短语识别或块识别，是自然语言处理（NLP）领域中的一个重要技术。它主要用于识别文本中...

late chunking 文本分块算法对比测试代码

06-12

在自然语言处理领域，文本分块（chunking）是一种将词序列中的短语或词组划分出来的技术，这些短语或词组具有特定的句法意义，如名词短语、动词短语等。与传统的分词相比，文本分块关注的是词与词之间的组合关系，而...

硬件开发_基于STM32单片机的护眼语音台灯系统

weixin_45732499的博客

08-25

167

本文介绍了一种智能护眼语音台灯系统的设计与实现。该系统具备语音控制、超声波测距和距离报警三大功能，采用STM32F103C8T6单片机作为主控，搭配HC-SR04超声波模块和LU-ASR01语音识别模块。电路设计包含最小系统、测距、语音识别、按键设置和蜂鸣器报警模块。程序设计通过UART串口通讯实现功能整合，支持自定义距离阈值，当检测距离过近时会触发蜂鸣器报警，提醒用户保持适当距离，实现智能护眼功能。系统具有操作便捷、响应灵敏的特点。

Agentic AI 知识框架整理

形上得其象，形下合于数；阴阳自济，玄理自明。

08-23

944

其战略价值在于将人类从复杂的、多步骤的认知劳动中解放出来，极大提升知识工作的效率与创新上限，是迈向通用人工智能（AGI）的核心路径。它不再是“你问我答”的聊天机器人，而是能。Agentic AI 的发展正遵循典型的。Agentic AI 的终极目标是创建能。

【笔记】动手学Ollama 第七章搭建本地RAG

ReedFoley的博客

08-22

977

正文详见：7.3 使用 LangChain 搭建本地 RAG 应用。

数据库审计是什么？主要功能详解与厂商解析

yuandiansec的博客

08-21

1077

数据库审计

Science Robotics 通过人机交互强化学习进行精确而灵巧的机器人操作

weixin_44887311的博客

08-23

866

本文提出了一种基于强化学习（RL）的机器人操作系统HIL-SERL，通过集成预训练视觉模型、样本高效算法和人机交互修正机制，可在1-2.5小时内完成复杂操作任务的训练。该系统在叠叠乐抽块、物体翻转、设备组装等任务中表现优异，平均成功率提升101%，执行速度提高1.8倍，显著优于模仿学习和传统控制方法。研究表明RL可直接在现实环境中高效学习视觉操控策略，为工业应用提供了新思路。

Paddle3D-PETRv1 精度测试与推理实践指南

Hi20240217的博客

08-22

1422

本文介绍了在Paddle3D中使用PETRv1模型进行3D物体检测的完整流程。首先通过Docker配置标准测试环境，安装Paddle3D并下载预训练权重。然后准备NuScenes迷你数据集，生成所需的注解文件。接着对原始模型进行精度测试，获取mAP、NDS等关键指标。最后将训练好的模型导出为推理格式，便于后续部署。文章详细说明了每个步骤的操作命令和参数含义，特别对精度测试结果中的各项指标进行了专业解读，帮助读者理解模型性能评估标准。整个流程涵盖了从环境搭建到最终模型导出的全链路操作，为3D目标检测任务提供了

深度学习分类网络初篇

最新发布

qq_43129538的博客

08-25

688

本文回顾了深度学习的发展历程，从1943年的人工神经元模型到2012年AlexNet的突破性进展，展现了神经网络的三起两落。重点解析了深度学习基础概念，包括神经网络的基本组成（输入层、隐藏层、输出层）和核心组件（激活函数、损失函数）。通过代码示例展示了感知机、多层感知机等经典模型的实现，以及不同激活函数的特性对比。文章为理解深度学习分类网络提供了系统性的入门指南，适合不同基础的读者学习参考。

文本分块

03-12

### 文本分块方法概述文本分块是指将较长的文本划分为较小的部分，以便更好地处理和分析。当前主流的文本分块方法主要包括基于规则的文本分块、内容感知分块、结构感知分块以及基于语义嵌入的分块。 #### 基于规则的文本分块这种方法通过设定固定的字符数或token数目来切割文本，通常会指定`chunk_size`（每一块的最大长度）和`chunk_overlap`（相邻块间的重叠部分），以保持上下文连贯性[^1]。对于不需要复杂自然语言理解的任务来说，这种方式简单有效且资源消耗少。 ```python from langchain.text_splitter import CharacterTextSplitter splitter = CharacterTextSplitter(separator="\n", chunk_size=100, chunk_overlap=20) chunks = splitter.split_text(long_document_string) ``` 此代码展示了如何利用LangChain框架下的`CharacterTextSplitter`类来进行简单的基于字符计数的文本分割操作[^2]。 #### 内容感知分块不同于机械地依据预设尺寸裁剪材料，此类技术着眼于识别并尊重文章内部逻辑边界——比如句子结束处或是段落转换之际作为断点位置。这往往借助专门设计的语言处理软件包完成，像NLTK或者spaCy这样的开源项目提供了强大的支持功能用于发现合适的分裂点。 #### 结构感知分块当面对具备清晰层次架构的数据源时，如HTML网页或Markdown文件，则可采取更为精细的办法对其进行剖析。这类算法能够识别人工编写的标记信息，并据此指导怎样合理分配各个组成部分到独立片段之中。 #### 递归分块这是一种特别适合处理超大型文档的技术路径。它先依照初步准则把整体分解成若干子集；随后检查所得单元是否满足预定条件；倘若未达标便继续细分直至达到理想状态为止。 #### 基于语义Embedding分块该方案试图超越表面形式上的相似度考量而深入探讨意义层面的一致性问题。通过构建向量空间表示法捕捉词语间潜在关联模式之后，再运用聚类或其他机器学习手段找出最佳匹配组合形成最终结果集合[^3]。 ### 实现示例下面是一个使用Python编程语言配合LangChain库执行不同类型文本划分的具体实例： ```python import spacy from langchain.text_splitter import RecursiveCharacterTextSplitter # 加载SpaCy模型准备做更高级别的文本处理工作 nlp_model = spacy.load('en_core_web_sm') def custom_chunker(text): doc = nlp_model(text) # 定制化函数可以根据实际需求调整参数配置 splitter = RecursiveCharacterTextSplitter( separators=["\n\n", "\n", " ", ""], chunk_size=500, chunk_overlap=50 ) chunks = [] for sent in list(doc.sents): sub_chunks = splitter.split_text(sent.text_with_ws) chunks.extend(sub_chunks) return chunks long_text = """这里是一篇很长的文章...""" result = custom_chunker(long_text) print(result[:5]) # 打印前五个分片查看效果 ``` 上述脚本首先加载了一个英语版本的小型SpaCy NLP管道，接着定义了名为`custom_chunker()`的新函数负责接收待加工字符串输入并通过调用内置API获得经过标注后的对象表达式。最后采用循环迭代遍历每一个句子节点并将它们传递给自定义创建的对象进行进一步细化处理得到目标输出列表。