vllm 部署vlm多模态模型MiniCPM-V 2.6；opeanai 接口访问、requests接口；gradio页面

loong_XL

已于 2024-09-19 13:32:12 修改

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习多模态文章标签：多模态 vlm

于 2024-08-12 11:07:23 首次发布

本文链接：https://blog.csdn.net/weixin_42357472/article/details/141126225

深度学习同时被 2 个专栏收录

339 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

多模态

44 篇文章

订阅专栏

参考：
https://modelbest.feishu.cn/wiki/LZxLwp4Lzi29vXklYLFchwN5nCf

vllm：0.5.4
测试单卡4090，需要max-model-len 降到2000才能运行

CUDA_VISIBLE_DEVICES=1 vllm serve  /ai/minicpmv --host 192**** --port 10868 --max-model-len 2000 --trust-remote-code --api-key token-abc123 --gpu_memory_utilization 1 --trust-remote-code  --disable-frontend-multiprocessing --tensor-p

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

loong_XL

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

实战千问2大模型第五天——VLLM 运行 Qwen2-VL-7B（多模态）

qq_34717531的博客

10-09

3039

VLLM 是一种高效的深度学习推理库，通过PagedAttention算法有效管理大语言模型的注意力内存，其特点包括24倍的吞吐提升和3.5倍的TGI性能，无需修改模型结构，专门设计用于加速大规模语言模型（LLM）的推理过程。它通过优化显存管理、支持大模型的批处理推理以及减少不必要的内存占用，来提高多 GPU 环境下的推理速度和效率。这使得 VLLM 非常适合需要快速、大规模推理的任务，例如在生产环境中部署大语言模型进行实时文本生成或问答等应用。

MiniCPM-V 2.6：端侧最强多模态大模型探索【推理实战大全】

寻道AI，探索AI无限可能！

08-23

2565

MiniCPM-V 2.6 支持多种部署推理方案，包括 vllm、llama.cpp、Ollama、transformers 等。这些方案各有特点，能够满足不同用户的需求。本文将主要聚焦于 vllm和llama.cpp 这两种推理方案的体验实践，为大家展示 MiniCPM-V 2.6 在不同部署环境下的强大功能。

参与评论您还未登录，请先登录后发表或查看评论

vLLM部署多模态大模型

Guo_Python的博客

03-19

1532

vLLM 是一个高效的推理和部署框架，专为大规模语言模型（LLM）优化。它采用 PagedAttention 技术，显著提高 GPU 显存利用率，支持高吞吐量推理。vLLM 兼容 Hugging Face Transformers 和 OpenAI API 接口，便于集成现有模型。其高效的 KV 缓存管理减少重复计算，适用于流式生成、批量处理和多用户推理场景。vLLM 还支持 FlashAttention，可进一步提升推理速度。

vllm简介

2501_91537435的博客

06-30

735

vllm简介

vLLM 部署大模型

最新发布

kakaZhui的博客

08-10

713

MiniCPM-o是由 OpenBMB 团队开源的多模态视觉语言模型（Vision-Language Model, VLM）系列，聚焦于轻量级、高效能的视觉语言理解与生成。MiniCPM-V 2.6 和 MiniCPM-V 4.0 是该系列的两代代表性模型，分别在模型结构、预训练数据、能力边界等方面实现了显著突破。约26亿参数（2.6B），主打轻量级与高效推理支持图文理解、图片描述、视觉问答等多模态任务适合边缘设备、低资源场景约40亿参数（4.0B），在结构和能力上全面升级。

vllm 推理vlm多模态大模型 InternVL使用案例；openai、requests接口使用

weixin_42357472的博客

08-10

1506

参考：支持模型 https://docs.vllm.ai/en/latest/models/supported_models.html模型要升级到这：部署： api参考：https://platform.openai.com/docs/guides/vision?lang=curl用base64传递图片

VLM 系列——MiniCPM-Llama3-V 2.5——论文解读

TigerZ*的博客

08-09

1166

MiniCPM-Llama3-V 2.5 是一款面向终端设备的多模态大型语言模型（MLLM），它专注于实现在手机等资源受限设备上的高级AI功能，参数8B（llama3 7B + SigLIP ViT-400m/14 + 视觉标记压缩层）。该模型能够处理包括文本、图像在内的多种数据类型，具备图片描述、图文问答等功能。

【以Qwen2大模型为例】vLLM部署流式推理，openai接口调用，requests调用

懒惰是科技进步的原始动力

06-25

9102

Qwen2-7B-Instruct大模型部署，vLLM加速流式推理，openai接口调用

利用Nginx+VLLM在本地部署多个大模型服务

beiyoulijun的博客

04-01

1393

随着deepseek等开源大模型的爆火，本地化部署大模型服务变成了切实需求。基于vllm框架部署的本地大模型服务操作简单，部署后可以很方便地利用OpenAI compatible接口访问该服务。然而，vllm serve模式每次运行仅支持部署一个大模型，想运行多个大模型服务时，除了将多个服务运行在不同的端口上，是否可以利用一个公共的端口转发多个不同大模型服务的流量以节约端口占用？

单张显卡运行多个vllm模型

ChinaLiaoTian的博客

07-22

926

docker vllm 显卡多模型

VLLM专题（三十五）—多模态数据处理

03-18

202

借助虚拟文本和自动提示更新，我们的多模态处理器最终能够接受带有文本或分词提示的多模态数据。详细逻辑如所示。

大模型实战教程 | 用vllm快速部署大模型

Code1994的博客

12-15

3895

在迅速发展的AI领域中，高效部署大型语言模型（LLM）对于许多应用程序至关重要。对于希望利用LLM力量的开发人员和组织来说，vLLM提供了一种简单、快速且经济高效的解决方案，用于在GPU上运行模型。本文将指导您完成vLLM的安装、在服务器上运行它以及将其集成到应用程序中的步骤。

轻量级多模型部署实践：Ollama 与 vLLM 快速构建高效 AI 工作流20250306

Narutolxy的博客

03-06

1448

本文将详细介绍如何在 Mac OS 与 Ubuntu 环境下使用 Ollama 与 vLLM 进行轻量级多模型部署，包括模型并行推理、安全与性能优化的实践经验，帮助初学者快速上手。

MiniCPM-V 2.6：端侧最强多模态大模型探索【本地部署实践】

寻道AI，探索AI无限可能！

08-22

8211

MiniCPM-V 2.6 是由面壁智能推出的一款端侧 AI 多模态模型。它在保持较小参数规模的同时，展现出了强大的多模态处理能力，能够处理图像、视频等多种数据类型，并实现了一系列先进的功能。这款模型的出现，为端侧设备上的人工智能应用提供了新的可能性。

macos部署CogVLM2多模态开源大模型

10-07

在macOS上部署CogVLM2这样的多模态开源大模型通常需要一些步骤，因为Mac OS不是专门针对深度学习开发设计的操作系统，但它仍然可以支持通过安装必要的依赖库和工具来运行。以下是大致的步骤： 1. 安装Python和必要的环境：首先，确保你已经安装了Python 3.x，然后使用Conda创建一个新的虚拟环境，并激活它。安装PyTorch、transformers等用于处理大模型的库。 ```sh conda create -n cogvln_env python=3.8 conda activate cogvln_env pip install torch torchvision transformers requests ``` 2. 下载模型：访问CogVLM2的GitHub仓库（https://github.com/microsoft/CogVLM），克隆仓库并下载预训练模型。 3. 准备数据和配置文件：根据模型的文档，你需要相应的多模态数据集（如文本和图像的数据集）。同时，理解模型的配置文件结构并调整为适合你的硬件。 4. 配置CUDA：如果您的Macbook有GPU，确保已安装CUDA和cuDNN。如果不是必需的，你可以选择在CPU上运行模型，但性能会较低。 5. 编程示例：在Python环境中，使用model提供的API加载模型并运行推理。你可能需要编写或修改脚本来处理输入和输出。 ```python import cog_vlm # 加载模型 model = cog_vlm.CogVLMAgent.from_pretrained('your_model_path') # 输入文本和图片路径 inputs = {'text': '描述的文本', 'image': 'path_to_image'} outputs = model(inputs) # 处理输出结果 print(outputs) ```