ubuntu vllm ragflow
时间: 2025-04-25 13:27:50 浏览: 35
### 如何在Ubuntu上使用VLLM和RAGFlow
#### 修改 RAGFlow 的模型路径配置
为了指定 `MODEL_NAME` 参数,在 Ubuntu 上修改 RAGFlow 中的 `chat_model.py` 文件中的路径设置如下:
```python
# chat_model.py 配置文件内
MODEL_NAME = "/home/llmlocal/qwen/qwen/Qwen2-7B-Instruct" # 设置为实际存储位置
```
此操作允许用户自定义大型语言模型的具体存放目录[^1]。
#### 解决 NVIDIA Triton Server Docker 镜像拉取问题
当遇到官方镜像难以获取的情况时,建议尝试其他可信源或更稳定的版本标签。对于特定环境下的兼容性和稳定性考虑,可以选用社区反馈良好的替代方案来代替原始镜像地址[^2]。
#### 安装适用于 GPU 加速的支持库
针对配备有 Nvidia 显卡的工作站,通过编译参数启用 CUDA 支持能够显著提升性能表现。具体命令如下所示:
```bash
CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip install llama-cpp-python
```
上述指令确保了 LLaMA 模型可以在支持 CUDA 技术的硬件平台上获得更好的计算效率[^3]。
#### Xinference 平台部署指南
完成 Anaconda 环境搭建之后,进入预先创建好的虚拟环境中执行必要的软件包安装工作,并最终启动服务端口监听进程:
```bash
# 切换至目标 Python 虚拟环境
conda activate xinference
# 使用清华大学开源软件镜像站点加速下载过程
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple "xinference[transformers,vllm]"
# 启动 HTTP API 接口并记录日志输出
nohup xinference-local --host 0.0.0.0 --port 9997 &> output.log &
```
以上步骤实现了从基础依赖项准备到最后的服务上线整个流程的操作指导[^4]。
阅读全文
相关推荐
















