lm部署DeepSeek-R1-Distill-Qwen-1.5B
时间: 2025-03-01 15:54:53 浏览: 74
### 部署 DeepSeek-R1-Distill-Qwen-1.5B 模型
#### 准备环境
为了成功部署 DeepSeek-R1-Distill-Qwen-1.5B 模型,需确保计算机具备足够的硬件资源和支持软件。对于此特定模型,在具有 Intel® Core™ i9-14900HX 处理器、64GB RAM 和 NVIDIA GeForce RTX 4090 显卡的机器上运行效果较好[^3]。
安装必要的依赖库和工具链同样重要。推荐使用 Python 虚拟环境来管理项目所需的包版本:
```bash
python -m venv deepseek-env
source deepseek-env/bin/activate # Linux 或 macOS
deepseek-env\Scripts\activate # Windows
pip install --upgrade pip setuptools wheel torch transformers accelerate bitsandbytes
```
#### 下载并加载预训练模型
通过 Git LFS 获取大型文件支持后克隆仓库中的模型数据:
```bash
git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
cd DeepSeek-R1-Distill-Qwen-1.5B
```
接着利用 Hugging Face 的 `transformers` 库读取已下载的权重参数:
```python
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name_or_path = "path/to/local/model"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(
model_name_or_path,
device_map="auto", # 自动分配至可用设备(CPU/GPU)
load_in_8bit=True # 使用 INT8 进行推理优化
)
```
#### 接口开发与服务启动
创建简单的 RESTful API 来提供对外部请求的支持。可以借助 FastAPI 实现这一功能:
```python
import uvicorn
from fastapi import FastAPI
from pydantic import BaseModel
class Query(BaseModel):
prompt: str
app = FastAPI()
@app.post("/generate/")
async def generate_text(query: Query):
inputs = tokenizer([query.prompt], return_tensors='pt').to('cuda')
outputs = model.generate(**inputs, max_length=50)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
return {"response": result}
if __name__ == "__main__":
uvicorn.run(app, host="0.0.0.0", port=8000)
```
保存上述代码片段为 `server.py` 文件,并执行命令启动 Web 服务器:
```bash
uvicorn server:app --reload
```
现在可以通过 HTTP POST 请求向 `/generate/` 发送 JSON 数据体 `{ "prompt": "your input text here" }` 来获取由该模型产生的回复。
阅读全文
相关推荐


















