1. 核心定位与功能
GPUStack 是一个开源的 GPU 集群管理器,专为运行 AI 模型(尤其是大语言模型 LLM)设计。其主要功能包括:
- 异构 GPU 资源整合:支持跨品牌 GPU(如 NVIDIA CUDA、Apple Metal、AMD ROCm、华为昇腾 CANN、摩尔线程 MUSA 等)的统一管理,兼容 macOS、Windows、Linux 系统 。
- 分布式推理:支持单机多卡、跨主机多卡及混合 CPU/GPU 推理,资源不足时可自动切换至混合或纯 CPU 模式以优化资源利用率 。
- 多模型支持:覆盖 LLM(如 LLaMA、Qwen、Mistral)、视觉语言模型(VLMs)、扩散模型(如 Stable Diffusion)、音频模型(如 Whisper)、嵌入模型(Embedding)和重排模型(Reranker)等 。
- 智能调度策略:提供紧凑调度、分散调度、指定 GPU 调度等策略,自动评估模型资源需求并分配最优硬件 。
2. 核心特性
- 轻量化与易用性:以 Python 编写,依赖少,提供开箱即用的私有化部署方案,支持 Docker 容器化部署 。
- OpenAI 兼容 API:提供与 OpenAI 标准一致的 API 接口(如聊天补全、嵌入生成、语音转录等),便于集成现有应用 。
- 多推理后端支持:整合
llama.cpp
(CPU/GPU 混合推理)、vLLM
(高性能 LLM 框架)、vox-box
(语音模型引擎)等后端,未来计划支持更多引擎