一、前言
基于真实生产级项目分享,帮助有需要的同学快速构建完整可交付项目
项目流程包括(去掉业务部分):
- 开源模型测试,包括baichuan、qwen、chatglm、bloom
- 数据爬取及清洗
- 模型微调及评估
- 搭建AI交互能力
- 搭建IM交互能力
- 搭建违禁词识别能力
- 优化模型推理速度
- 增强模型长期记忆能力
二、术语介绍
2.1. vLLM
vLLM是一个开源的大模型推理加速框架,通过PagedAttention高效地管理attention中缓存的张量,实现了比HuggingFace Transformers高14-24倍的吞吐量。
2.2. qwen-7b
通义千问-7B(Qwen-7B) 是阿里云研发的通义千问大模型系列的70亿参数规模的模型。