from llama_index.core import SimpleDirectoryReaderfrom llama_index.core.node_parser import SentenceSplitterfrom llama_index.core import VectorStoreIndexquestion = "奥创是由哪两位复仇者联盟成员创造的？"documents = SimpleDirectoryReader("./data").load_data()node_parser = SentenceSplitter(chunk_size=1024)base_nodes = node_parser.get_nodes_from_documents(documents)print(f"base_nodes len: {len(base_nodes)}")for idx, node in enumerate(base_nodes): node.id_ = f"node-{idx}"base_index = VectorStoreIndex(nodes=base_nodes)base_retriever = base_index.as_retriever(similarity_top_k=2)retrievals = base_retriever.retrieve(question)for n in retrievals: print( f"Node ID: {n.node_id}\nSimilarity: {n.score}\nText: {n.text[:100]}...\n" )response = base_retriever.query(question)print(f"response: {response}")print(f"len: {len(response.source_nodes)}")

时间: 2025-04-07 16:08:15 浏览: 61

### 使用 `llama_index` 库进行文本检索及处理复仇者联盟相关查询 #### 文本分割与相似度检索的工作原理 `llama_index` 是一种强大的工具，用于构建基于大型语言模型 (LLM) 的应用。通过使用 `SimpleDirectoryReader` 和 `VectorStoreIndex`，可以实现高效的文本分割和相似度检索功能。具体来说，`SimpleDirectoryReader` 负责读取目录中的文档并将其转换为节点列表[^1]，而 `VectorStoreIndex` 则负责将这些节点嵌入到向量空间中以便后续的相似度计算。以下是具体的代码示例及其解析： ```python from llama_index import SimpleDirectoryReader, VectorStoreIndex, ServiceContext from llama_index.llms import OpenAI # 假设我们使用OpenAI作为LLM服务提供商 # 加载本地文件夹中的文档 documents = SimpleDirectoryReader(input_dir='./data').load_data() # './data' 文件夹应包含复仇者联盟相关的文档 # 配置ServiceContext以指定使用的LLM service_context = ServiceContext.from_defaults(llm=OpenAI(model="gpt-3.5-turbo")) # 设置LLM型号[^2] # 构建向量存储索引 index = VectorStoreIndex.from_documents(documents, service_context=service_context) # 创建查询引擎 query_engine = index.as_query_engine() # 执行查询操作 response = query_engine.query("谁是复仇者联盟中最强大的成员？") # 查询关于复仇者联盟的信息[^3] print(response) ``` #### 解析上述代码片段 1. **加载文档**: 使用 `SimpleDirectoryReader` 来读取指定路径下的所有文档，并将它们转化为适合进一步处理的数据结构——即节点列表。此过程涉及对原始文档的内容提取和初步预处理。 2. **配置 LLM**: 定义了一个 `ServiceContext` 对象来封装所选的语言模型（此处选择了 OpenAI 提供的服务）。这一步骤对于定义如何生成最终响应至关重要。 3. **建立索引**: 函数调用 `VectorStoreIndex.from_documents()` 实现了从文档集合创建矢量化表示的过程。这意味着每篇文档被拆解成更小的部分并通过某种方式映射到了高维空间内的点上。 4. **执行查询**: 当前设置允许用户提交自然语言形式的问题给系统。“最强大”的概念可能需要额外训练或者特定算法支持才能准确识别出来；不过，在基本层面上，该方法能够很好地匹配已知事实型提问模式。 --- ###

阅读全文

相关推荐

基于llama_index的React前端Python后端智能对话系统.zip

Chinese-LLaMA_1&2、Chinese-Falcon_基础模型；ChatFlow中文对话_Linly.zip

llama.cpp.rar

【Java使用配置文件连接mysql】

Java课程设计画随机圆(1).pdf

python 一个用py3写的数据库自动备份管理系统.zip

电子商务的应用论文(1).docx

“计算机软件著作权”登记【可编辑范本】(1).doc

java课程设计可编辑范本(1).doc

【多变量输入单步预测】基于白鲸优化算法BWO-CNN-BiLSTM-Attention的风电功率预测研究Matlab代码.rar

【图像】MRI的关节各向异性维纳滤光片研究Matlab代码.rar

高三生物一轮复习课件选修--基因工程(1).pptx

【电磁学】二维FDTD有限差分时域解决完全电导体边界条件问题研究Matlab代码.rar

my-project.zip

轻松实现数据格式之间的转换-2（完整代码）

python办公管理系统.zip

XX小区通信管道工程施工方案(1).doc

【单变量输入多步预测】基于CNN-BiLSTM的风电功率预测研究附Matlab代码.rar

【无人机路径规划】粒子群优化和遗传算法实现有效的水陆两栖无人机任务规划和执行Matlab实现.rar

RTSP抓取帧在指定文件夹生成图片

大家在看

基于STM32 HAL库的 AD7606驱动代码及相关文档

群晖，威联通5G USB网卡驱动，918+使用

瑞星卡卡kaka小狮子（不含杀软） For Mac，情怀小程序，有动画有声，亲测可用

北邮计算机网络滑动窗口实验报告（附页包含源程序）

ENVI遥感图像几何校正 包含练习数据

最新推荐

【Java使用配置文件连接mysql】

获取本机IP地址的程序源码分析

【权威指南】：Win11笔记本上RTX4080驱动的安装与调试秘籍

windows环境举例

QQ自动发送/回复系统源代码开放

【7步打造Win11深度学习利器】：Tensorflow-GPU与RTX4080终极优化指南

ue画笔画画蓝图版

VB.NET图表曲线组件实现多种图表绘制

【MultiExtractor_Pro实战演练】：8个复杂场景的高效数据提取解决方案

k-means聚类分析算法推导

ENVI遥感图像几何校正包含练习数据