vLLM 推理后端简介

张开发
2026/4/17 1:52:27 15 分钟阅读

分享文章

vLLM 推理后端简介
vLLM 推理后端简介简介一、核心优势1️⃣ PagedAttention核心创新2️⃣ 连续批处理3️⃣ 高吞吐 低延迟4️⃣ OpenAI API 兼容5️⃣ 部署简单二、使用示例1️⃣ 启动服务2️⃣ Python 调用3️⃣ curl 调用三、vLLM vs Hugging Face Transformers四、与 MCP 的关系MCPModel Context Protocol 是“协议层”vLLM 是“推理执行层”简介vLLM 是一个面向大语言模型LLM的高性能推理引擎其核心目标是以极高吞吐量 低延迟运行模型同时保持部署简单 相比传统推理方式如 Hugging Face TransformersvLLM 更像是一个“专为生产环境设计的 LLM 推理服务器”。⚠️ 注意目前 vLLM 仅支持 NVIDIA GPUCUDA不支持 AMD、Intel GPU 或 Apple Silicon 进行核心推理。一、核心优势1️⃣ PagedAttention核心创新vLLM 最重要的技术之一是 PagedAttention它解决了一个关键问题LLM 推理时 KV Cache 占用大量显存并且极度碎片化传统问题每个请求单独占用 KV Cache显存碎片严重并发一高就 OOMvLLM 的做法类似“操作系统分页内存”KV Cache 按块page管理动态分配 / 回收 结果显存利用率大幅提升支持更高并发减少 OOM2️⃣ 连续批处理传统推理Transformers一批请求必须“同时开始同时结束”后来的请求要排队vLLM 请求可以随时加入 batch效果GPU 始终保持高利用率延迟更稳定吞吐量大幅提升3️⃣ 高吞吐 低延迟在实际测试中官方与社区数据吞吐量提升 2~10 倍延迟显著降低尤其高并发适用于Chat APIAgent系统RAG问答多用户服务4️⃣ OpenAI API 兼容vLLM 原生支持 OpenAI API 格式例如POST /v1/chat/completions这意味着可以直接替换 OpenAI兼容 LangChain / LlamaIndex / Agent 框架几乎零改造接入5️⃣ 部署简单启动一个服务只需一行命令python-mvllm.entrypoints.openai.api_server\--modelQwen/Qwen2.5-7B-Instruct\--port8000即可得到一个 本地 OpenAI API Server二、使用示例1️⃣ 启动服务python-mvllm.entrypoints.openai.api_server\--modelQwen/Qwen2.5-7B-Instruct\--host0.0.0.0\--port80002️⃣ Python 调用fromopenaiimportOpenAI clientOpenAI(base_urlhttp://localhost:8000/v1,api_keyEMPTY)respclient.chat.completions.create(modelQwen/Qwen2.5-7B-Instruct,messages[{role:user,content:介绍一下vLLM}])print(resp.choices[0].message.content)3️⃣ curl 调用curlhttp://localhost:8000/v1/chat/completions\-HContent-Type: application/json\-d{ model: Qwen/Qwen2.5-7B-Instruct, messages: [{role: user, content: 你好}] }三、vLLM vs Hugging Face Transformers项目Value电脑$1600手机$12导管$1维度vLLMTransformers设计目标生产级推理服务通用模型框架并发能力⭐⭐⭐⭐⭐⭐⭐显存利用⭐⭐⭐⭐⭐⭐⭐吞吐量高2~10倍中易用性高API Server中灵活性中⭐⭐⭐⭐⭐训练支持❌✅四、与 MCP 的关系MCPModel Context Protocol 是“协议层”作用统一模型调用方式标准化工具调用支持 Agent 生态vLLM 是“推理执行层”作用真正运行模型返回推理结果 MCP ≠ vLLM 它们是上下游关系

更多文章