ubuntu vllm ollama
时间: 2025-03-06 09:50:38 浏览: 75
### VLLM 和 Ollama 在 Ubuntu 上的安装与配置
#### 安装 Python 和依赖项
为了确保环境准备充分,在开始之前需确认已安装最新版本的 Python 以及 pip 工具。接着可以创建虚拟环境来隔离项目所需的包。
```bash
sudo apt-get update && sudo apt-get install -y python3-pip virtualenv
virtualenv venv
source venv/bin/activate
pip install --upgrade pip setuptools wheel
```
#### 配置 VLLM
对于 VLLM 的设置,主要涉及通过源码编译安装或是直接利用预构建好的二进制文件来进行快速部署。这里推荐采用后者以简化流程:
1. **安装 VLLM**
```bash
pip install vllm
```
2. **启动推理服务**
下面展示了如何基于指定模型路径启动 HTTP API Server 实例[^3]。
```bash
python -m vllm.entrypoints.openai.api_server \
--model </path/to/downloaded/model> \
--served-model-name Deepseek-R1-8B \
--max-model-len=16384 \
--trust-remote-code
```
#### 设置 Ollama
针对 Ollama 的集成,则更侧重于其作为 Docker 映像的形式分发给用户端使用。因此重点在于正确拉取官方镜像并合理映射主机目录至容器内部空间以便持久化存储数据集及其他资源文件。
1. **获取 Ollama Docker Image**
假设已经具备可用的 Docker 环境,那么可以直接从仓库中提取所需镜像:
```bash
docker pull ollama/ollama:latest
```
2. **运行带有 GPU 支持的容器实例**
此处提供了一个完整的命令用于启动支持 NVIDIA CUDA 加速计算能力的服务进程[^1]:
```bash
docker run -it --rm --gpus all \
-v ./hf_cache:/root/.cache/huggingface \
-v ./ms_cache:/root/.cache/modelscope \
-v ./data:/app/data \
-v ./output:/app/output \
-v ./examples:/app/examples \
-p 7861:7860 \
-p 8001:8000 \
--shm-size 16G \
--name ollama_container \
ollama/ollama:latest bash
```
上述过程涵盖了在 Ubuntu 平台上完成 VLLM 和 Ollama 初步设定的关键步骤。值得注意的是实际应用场景可能还会涉及到更多细节调整工作,比如优化参数配置、增强安全性措施等。
阅读全文
相关推荐

















