Qwen3-4B-Thinking部署教程:vLLM API Gateway集成Kong网关实现限流与鉴权

张开发
2026/4/10 18:50:34 15 分钟阅读

分享文章

Qwen3-4B-Thinking部署教程:vLLM API Gateway集成Kong网关实现限流与鉴权
Qwen3-4B-Thinking部署教程vLLM API Gateway集成Kong网关实现限流与鉴权1. 环境准备与快速部署在开始之前请确保您的系统满足以下要求Linux操作系统推荐Ubuntu 20.04Docker和Docker Compose已安装至少16GB内存推荐32GBNVIDIA GPU推荐显存12GB1.1 一键部署命令使用以下命令快速部署Qwen3-4B-Thinking模型服务# 拉取镜像 docker pull teichai/qwen3-4b-thinking:v1.0 # 启动服务 docker run -d --gpus all -p 8000:8000 -v /data/models:/models teichai/qwen3-4b-thinking:v1.01.2 验证部署状态部署完成后可以通过以下命令检查服务状态# 查看容器日志 docker logs container_id # 或者直接检查日志文件 cat /root/workspace/llm.log当看到类似以下输出时表示模型已成功加载Loading model weights... Model loaded successfully! Starting vLLM API server on port 8000...2. vLLM API基础使用2.1 API接口说明vLLM提供了标准的OpenAI兼容API接口主要端点包括/v1/completions文本补全/v1/chat/completions对话补全/v1/models模型信息查询2.2 基础调用示例使用curl测试API功能# 查询模型信息 curl http://localhost:8000/v1/models # 文本生成示例 curl http://localhost:8000/v1/completions \ -H Content-Type: application/json \ -d { model: Qwen3-4B-Thinking, prompt: 介绍一下人工智能的发展历史, max_tokens: 200 }3. Kong网关集成配置3.1 安装Kong网关使用Docker Compose快速部署Kong# docker-compose.yml version: 3.8 services: kong: image: kong:3.4 environment: KONG_DATABASE: off KONG_PROXY_ACCESS_LOG: /dev/stdout KONG_ADMIN_ACCESS_LOG: /dev/stdout KONG_PROXY_ERROR_LOG: /dev/stderr KONG_ADMIN_ERROR_LOG: /dev/stderr ports: - 8001:8001 - 8444:8444 - 8000:8000 volumes: - ./kong.yml:/usr/local/kong/declarative/kong.yml3.2 配置Kong路由和插件创建kong.yml配置文件services: - name: vllm-service url: http://host.docker.internal:8000 routes: - name: vllm-route paths: [/vllm] plugins: - name: rate-limiting service: vllm-service config: minute: 60 policy: local - name: key-auth service: vllm-service config: key_names: [api-key]3.3 启动并验证Kong服务docker-compose up -d # 验证Kong是否正常工作 curl -i http://localhost:8001/4. Chainlit前端集成4.1 安装Chainlitpip install chainlit4.2 创建Chainlit应用创建app.py文件import chainlit as cl import openai openai.api_base http://localhost:8000/v1 openai.api_key your-api-key # 与Kong配置的api-key一致 cl.on_message async def main(message: str): response openai.ChatCompletion.create( modelQwen3-4B-Thinking, messages[{role: user, content: message}], temperature0.7, ) await cl.Message(contentresponse.choices[0].message.content).send()4.3 启动Chainlit前端chainlit run app.py -w访问http://localhost:8000即可与模型交互。5. 高级配置与优化5.1 性能调优参数在启动vLLM服务时可以添加以下参数优化性能docker run -d --gpus all \ -p 8000:8000 \ -v /data/models:/models \ teichai/qwen3-4b-thinking:v1.0 \ --tensor-parallel-size 2 \ --max-num-batched-tokens 4096 \ --max-model-len 20485.2 监控与日志建议配置Prometheus和Grafana监控# docker-compose.yml (追加) prometheus: image: prom/prometheus ports: - 9090:9090 volumes: - ./prometheus.yml:/etc/prometheus/prometheus.yml grafana: image: grafana/grafana ports: - 3000:30006. 总结与下一步建议通过本教程您已经成功部署了Qwen3-4B-Thinking模型并实现了使用vLLM提供高性能API服务通过Kong网关实现API限流和鉴权集成Chainlit提供友好的交互界面下一步建议根据业务需求调整Kong的限流策略考虑添加JWT认证增强安全性监控API使用情况优化资源配置获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章