VLLM实现大模型服务的部署

最新推荐文章于 2025-07-22 15:08:40 发布

原创

最新推荐文章于 2025-07-22 15:08:40 发布 · 1.5k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#vllm #推理

文章目录

安装
离线推理
适配openAI-API的API服务

安装

# (Recommended) Create a new conda environment.
conda create -n myenv python=3.9 -y
conda activate myenv

# Install vLLM with CUDA 12.1.
pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple/

离线推理

from vllm import LLM, SamplingParams

llm = LLM(model="meta-llama/Meta-Llama-3-8B-Instruct")  # 你的模型路径
sampling_params = SamplingParams(temperature=0.5)  # 生成文本的控制参数，temperature越大，生成的内容越随机

# 处理输出
def print_outputs(outputs):
    for output in outputs:
        prompt = output.prompt
        generated_text = output.outputs[0].text
        print(f"Prompt: {
     
     prompt!r}, Generated text: {
     
     generated_text!r}")
    print("-"