RAGFlow切分方法详解

RAGFlow 各切分方法的含义如下,结合文档结构、场景特点等设计,以适配不同类型的知识源:

1. General(通用分块)

  • 逻辑:结合文本排版、格式、语义关联等因素确定分割点,再根据“建议文本块大小(Token 数)”,将文本切分为合适的块。
  • 支持格式:DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML、HTML 等多格式。
  • 过程:先用视觉检测模型把连续文本分割成多个片段,再将片段合并成 Token 数不超过设定值的块。

2. Q&A(问答分块)

  • 逻辑:专为“问答对”类数据设计,每行“问题 - 答案”作为独立块。
  • 支持格式:Excel、CSV/TXT。
    • Excel:需包含两列(无标题),第一列是问题、第二列是答案。
    • CSV/TXT:需用 UTF-8 编码,且以 TAB 作为问题与答案的分隔符;不符合规则的行会被忽略。

3. Resume(简历分块)

  • 逻辑:不做“分块”,而是将简历解析为结构化数据(如提取学历、工作经历等字段)。
  • 支持格式:DOCX、PDF、TXT。
  • 价值:方便 HR 等场景下,通过自然语言交互快速筛选符合条件的候选人。

4. Manual(手册分块

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值