【LLM】通义千问Qwen2-7b-instruct部署

前言

https://www.modelscope.cn/models/qwen/Qwen2-7B-Instruct
其实完全可以按照这个介绍来装,不过容易遇到一些问题,新学习,也是记录一下

环境

python 3.10

  1. 在自己电脑上用conda创建一个新环境
  2. 找租用的服务器租一台,3090一小时也就一两块钱

我个人是租的服务器来运行的

具体步骤

安装依赖

pip install transformers==4.37.0 accelerate tiktoken einops scipy transformers_stream_generator==0.0.4 peft deepspeed
pip install modelscope

假如说,依赖的包找不到,可以从网上找到zip或者tar,通过绝对地址来进行安装

pip install 包的绝对路径

模型下载

我没有预先下载模型,完全通过代码自动下载的,快慢主要受限于网速,我在服务器上下载模型很快,十分钟左右就下好了。

from modelscope import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto

model = AutoModelForCausalLM.from_pretrained(
    "qwen/Qwen2-7B-Instruct",
    torch_dtype="auto",
    device_map="auto"
)

生成tokenizer

tokenizer = AutoTokenizer.from_pretrained("qwen/Qwen2-7B-Instruct")
### 部署Qwen2.5-VL-7B-Instruct模型至SGLang环境 要在SGLang环境中成功部署Qwen2.5-VL-7B-Instruct模型,可以按照以下方式操作: #### 下载模型权重 为了获取所需的模型权重,可以通过Hugging Face Hub或者其镜像站点完成下载。具体命令如下所示: ```bash HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download Qwen/Qwen2.5-VL-7B-Instruct ``` 如果网络条件不佳,可以选择通过镜像站点进行下载[^2]: ```bash git clone https://hf-mirror.com/Qwen/Qwen2.5-VL-7B-Instruct cd Qwen2.5-VL-7B-Instruct git lfs pull ``` #### 准备SGLang运行环境 在准备完毕模型权重之后,需要配置适合的SGLang运行环境。这通常涉及以下几个方面的工作: - **安装依赖库**:确保已安装必要的Python包以及支持大型语言模型推理的相关工具。 - **加载模型**:利用vLLM框架启动服务端并加载预训练好的Qwen2.5-VL-7B-Instruct模型。 以下是基于vLLM框架的一个简单实现案例[^1]: ```python from vllm import LLM, SamplingParams # 初始化模型实例 model_path = "/path/to/local/model/Qwen2.5-VL-7B-Instruct" llm = LLM(model=model_path) # 设置采样参数 sampling_params = SamplingParams(temperature=0.8, top_p=0.95) # 接收输入数据并生成响应 prompts = ["你好"] outputs = llm.generate(prompts, sampling_params=sampling_params) for output in outputs: prompt = output.prompt generated_text = output.outputs[0].text print(f"Input Prompt: {prompt}\nGenerated Text: {generated_text}") ``` 此脚本展示了如何初始化模型、定义采样策略以及处理实际请求的过程。 #### 调整适配SGLang特性 由于目标平台为SGLang,在最终集成阶段可能还需要额外考虑该特定系统的约束条件和技术细节。比如优化内存管理机制来适应硬件资源限制;调整API接口设计以便更好地融入现有工作流等等。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Geek-Banana

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值