使用 Milvus、vLLM 和 Llama 3.1 搭建 RAG 应用

Zilliz Planet

于 2024-09-11 19:32:34 发布

阅读量1.2k

点赞数 6

CC 4.0 BY-SA版权

文章标签： milvus llama

本文链接：https://blog.csdn.net/weixin_44839084/article/details/142154934

vLLM 是一个简单易用的 LLM 推理服务库。加州大学伯克利分校于 2024 年 7 月将 vLLM 作为孵化项目正式捐赠给 LF AI & Data Foundation 基金会。欢迎 vLLM 加入 LF AI & Data 大家庭！🎉

在主流的 AI 应用架构中，大语言模型（LLM）通常与向量数据库配套使用，用于构建检索增强生成（RAG）应用，从而解决 AI 幻觉问题。本文将介绍如何使用 Milvus、vLLM 和 Llama 3.1 构建并运行RAG 应用。我们将详细展示如何将文本信息转换为 Embedding 向量并存储到 Milvus 向量数据库中、如何将 Milvus 作为知识库有效检索与用户问题相关的文本块。最后，我们将通过 vLLM 使用 Meta的Llama 3.1-8B 模型生成答案。

Milvus、vLLM 和 Llama 3.1 简介

Milvus 向量数据库

Milvus 是一款开源的分布式向量数据库，可用于存储、索引和搜索向量数据，适用于生成式 AI（GenAI）应用。Milvus 支持 hybrid search、元数据过滤、重排（Reranking），能够高效处理万亿规模的向量，助力开发者搭建 AI 和 ML 应用。您可以在本地运行 Milvus standalone 或 cluster 版本，或者使用全托管的 Milvus 服务——Zilliz Cloud。

vLLM

vLLM 是加州大学伯克利分校 SkyLab 推出的一个开源项目，专注于优化 LLM 服务性能。通过高效的内存管理技术，如 PagedAttention、持续批处理和优化 CUDA 内核，vLLm 与传统方法相比将服务性能提高了多达 24 倍，同时将 GPU 内存用量减少了一半。

根据论文《Efficient Memory Management for Large Language Model Serving with PagedAttention》，KV 缓存使用约 30% 的 GPU 内存，可能会导致内存问题。KV 缓存存储在连续内存（contiguous memory）中，但内存变化可能导致内存碎片化，不利于计算效率。

通过使用虚拟内存缓存 KV，vLLM 只需要在必要时分配物理 GPU 内存，有效避免了内存碎片化和内存预分配。在测试中，vLLM 的吞吐量比 HuggingFace Transformers (HF) 高出多达 24 倍，比基于NVIDIA A10G 和 A100 GPU 的 Text Generation Inference (TGI) 高出 3.5 倍。

Meta Llama 3.1

Meta 于 2024 年 7 月 23 日宣布推出 Llama 3.1，允许用于多种商业用途。其 405B 模型（4050 亿参数）在多个公开的性能测试中均展示出了最出色的性能，并支持 128,000 个输入 Token 的上下文窗口。除了 405B 模型外，Meta 还发布了 Llama3.1 70B（700 亿参数）和 8B（80 亿参数）模型。您可以通过 Meta 官网下载模型权重（model weight）。

需要注意微调生成的数据可以提高模型性能，但低质量的数据可能会降低模型性能。Llama 团队已不断识别和去除这些低质量的数据，使用模型本身及其他辅助模型和工具，进一步优化模型。

使用 Milvus 搭建 RAG-Retrieval部分

准备数据

本教程将使用 Milvus 文档作为数据集。我们需要先下载并本地保存 Milvus 文档。

from langchain.document_loaders import DirectoryLoader
    # Load HTML files already saved in a local directory
    path = "../../RAG/rtdocs_new/"
    global_pattern = '*.html'
    loader = DirectoryLoader(path=path, glob=global_patter