1. "General" 分块方法说明
- 总结:
- 适用于 token 很标准的场景,目前没有发现试用的场景
支持的文件格式为 DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML、HTML。
此方法将简单的方法应用于块文件:
系统将使用 视觉检测模型将连续文本分割成多个片段。
接下来,这些连续的片段被合并成 Token数不超过“Token数”的块。
2. "Q&A" 分块方法说明
- 总结:
- 测试内容大约800字,聊天助手回答不出来,但是使用关键的搜索可以出来
此块方法支持 excel 和 csv/txt 文件格式。
如果文件是 excel 格式,则应由两个列组成 没有标题:一个提出问题,另一个用于答案, 答案列之前的问题列。多张纸是 只要列正确结构,就可以接受。
如果文件是 csv/txt 格式 以 UTF-8 编码且用 TAB 作分开问题和答案的定界符。
未能遵循上述规则的文本行将被忽略,并且 每个问答对将被认为是一个独特的部分。
3. "Resume" 分块方法说明
- 猜测用途是“标题-内容”这类型的块状结构文本
支持的文件格式为 DOCX、 PDF、 TXT。
简历有多种格式,就像一个人的个性一样,但我们经常必须将它们组织成结构化数据,以便于搜索。
我们不是将简历分块,而是将简历解析为结构化数据。 作为HR,你可以扔掉所有的简历, 您只需与 'RAGFlow'交谈即可列出所有符合资格的候选人。
4. "Manual" 分块方法说明
仅支持 PDF。
我们假设手册具有分层部分结构。 我们使用最低的部分标题作为对文档进行切片的枢轴。 因此,同一部分中的图和表不会被分割,并且块大小可能会很大。
5. "Table" 分块方法说明
- 优点:
- 一行为一个 chunk
- 测试效果:
- 16版本的测试,聊天助手搜索的内容以表格形式输出,且内容不全
- 17版没有这个问题
支持 XLSX和 CSV/TXT格式文件。
以下是一些提示:
对于 csv 或 txt 文件,列之间的分隔符为 TAB。
第一行必须是列标题。
列标题必须是有意义的术语,以便我们的大语言模型能够理解。 列举一些同义词时最好使用斜杠 '/'来分隔,甚至更好 使用方括号枚举值,例如 'gender/sex(male,female)'.
以下是标题的一些示例:
供应商/供货商 'TAB'颜色(黄色、红色、棕色) 'TAB'性别(男、女) 'TAB'尺码(M、L、XL、XXL)
姓名/名字'TAB'电话/手机/微信'TAB'最高学历(高中,职高,硕士,本科,博士,初中,中技,中 专,专科,专升本,MPA,MBA,EMBA)
表中的每一行都将被视为一个块。
6. "Paper" 分块方法说明
仅支持PDF文件。
如果我们的模型运行良好,论文将按其部分进行切片,例如 摘要、1.1、1.2等。
这样做的好处是LLM可以更好的概括论文中相关章节的内容, 产生更全面的答案,帮助读者更好地理解论文。 缺点是它增加了 LLM 对话的背景并增加了计算成本, 所以在对话过程中,你可以考虑减少‘topN’的设置。
7. "Book" 分块方法说明
支持的文件格式为DOCX、PDF、TXT。
由于一本书很长,并不是所有部分都有用,如果是 PDF, 请为每本书设置 页面范围,以消除负面影响并节省分析计算时间。
8. "Laws" 分块方法说明
支持的文件格式为DOCX、PDF、TXT。
法律文件有非常严格的书写格式。 我们使用文本特征来检测分割点。
chunk的粒度与'ARTICLE'一致,所有上层文本都会包含在chunk中。
9. "Presentation" 分块方法说明
支持的文件格式为 PDF、 PPTX。
每个页面都将被视为一个块。 并且每个页面的缩略图都会被存储。
您上传的所有PPT文件都会使用此方法自动分块,无需为每个PPT文件进行设置。
2.10. "One" 分块方法说明
支持的文件格式为 DOCX、EXCEL、PDF、TXT 。
对于一个文档,它将被视为一个完整的块,根本不会被分割。
如果你要总结的东西需要一篇文章的全部上下文,并且所选LLM的上下文长度覆盖了文档长度,你可以尝试这种方法。
11. "Knowledge Graph" 分块方法说明
- 疑问:
- 与自动提取的知识图谱有什么不同,功能是否一样,暂时不确定
支持的文件格式为 DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML
文件分块后,使用分块提取整个文档的知识图谱和思维导图。此方法将简单的方法应用于分块文件: 连续的文本将被切成大约 512 个 token 数的块。
接下来,将分块传输到 LLM 以提取知识图谱和思维导图的节点和关系。
12. "Tag" 分块方法说明
- 这个应该在后续的知识内容检索结果调整可以用到
- 暂时没有看到具体效果
使用“标签”作为分块方法的知识库应该被其他知识库使用,以将标签添加到其块中,对这些块的查询也将带有标签。
使用“标签”作为分块方法的知识库 不 应该参与 RAG 过程。
此知识库中的块是标签的示例,它们演示了整个标签集以及块和标签之间的相关性。
此块方法支持 XLSX 和 CSV/TXT 文件格式。
如果文件为 XLSX 格式,则它应该包含两列无标题:一列用于内容,另一列用于标签,内容列位于标签列之前。可以接受多个工作表,只要列结构正确即可。
如果文件为 CSV/TXT 格式,则必须使用 UTF-8 编码并以 TAB 作为分隔符来分隔内容和标签。
在标签列中,标签之间使用英文 逗号 。
不符合上述规则的文本行将被忽略,并且每对文本将被视为一个不同的块。