Qwen3-4B-Thinking部署教程：vLLM API Gateway集成Kong网关实现限流与鉴权

张开发

• 2026/4/10 18:50:34 • 15 分钟阅读

分享文章

Qwen3-4B-Thinking部署教程vLLM API Gateway集成Kong网关实现限流与鉴权1. 环境准备与快速部署在开始之前请确保您的系统满足以下要求Linux操作系统推荐Ubuntu 20.04Docker和Docker Compose已安装至少16GB内存推荐32GBNVIDIA GPU推荐显存12GB1.1 一键部署命令使用以下命令快速部署Qwen3-4B-Thinking模型服务# 拉取镜像 docker pull teichai/qwen3-4b-thinking:v1.0 # 启动服务 docker run -d --gpus all -p 8000:8000 -v /data/models:/models teichai/qwen3-4b-thinking:v1.01.2 验证部署状态部署完成后可以通过以下命令检查服务状态# 查看容器日志 docker logs container_id # 或者直接检查日志文件 cat /root/workspace/llm.log当看到类似以下输出时表示模型已成功加载Loading model weights... Model loaded successfully! Starting vLLM API server on port 8000...2. vLLM API基础使用2.1 API接口说明vLLM提供了标准的OpenAI兼容API接口主要端点包括/v1/completions文本补全/v1/chat/completions对话补全/v1/models模型信息查询2.2 基础调用示例使用curl测试API功能# 查询模型信息 curl http://localhost:8000/v1/models # 文本生成示例 curl http://localhost:8000/v1/completions \ -H Content-Type: application/json \ -d { model: Qwen3-4B-Thinking, prompt: 介绍一下人工智能的发展历史, max_tokens: 200 }3. Kong网关集成配置3.1 安装Kong网关使用Docker Compose快速部署Kong# docker-compose.yml version: 3.8 services: kong: image: kong:3.4 environment: KONG_DATABASE: off KONG_PROXY_ACCESS_LOG: /dev/stdout KONG_ADMIN_ACCESS_LOG: /dev/stdout KONG_PROXY_ERROR_LOG: /dev/stderr KONG_ADMIN_ERROR_LOG: /dev/stderr ports: - 8001:8001 - 8444:8444 - 8000:8000 volumes: - ./kong.yml:/usr/local/kong/declarative/kong.yml3.2 配置Kong路由和插件创建kong.yml配置文件services: - name: vllm-service url: http://host.docker.internal:8000 routes: - name: vllm-route paths: [/vllm] plugins: - name: rate-limiting service: vllm-service config: minute: 60 policy: local - name: key-auth service: vllm-service config: key_names: [api-key]3.3 启动并验证Kong服务docker-compose up -d # 验证Kong是否正常工作 curl -i http://localhost:8001/4. Chainlit前端集成4.1 安装Chainlitpip install chainlit4.2 创建Chainlit应用创建app.py文件import chainlit as cl import openai openai.api_base http://localhost:8000/v1 openai.api_key your-api-key # 与Kong配置的api-key一致 cl.on_message async def main(message: str): response openai.ChatCompletion.create( modelQwen3-4B-Thinking, messages[{role: user, content: message}], temperature0.7, ) await cl.Message(contentresponse.choices[0].message.content).send()4.3 启动Chainlit前端chainlit run app.py -w访问http://localhost:8000即可与模型交互。5. 高级配置与优化5.1 性能调优参数在启动vLLM服务时可以添加以下参数优化性能docker run -d --gpus all \ -p 8000:8000 \ -v /data/models:/models \ teichai/qwen3-4b-thinking:v1.0 \ --tensor-parallel-size 2 \ --max-num-batched-tokens 4096 \ --max-model-len 20485.2 监控与日志建议配置Prometheus和Grafana监控# docker-compose.yml (追加) prometheus: image: prom/prometheus ports: - 9090:9090 volumes: - ./prometheus.yml:/etc/prometheus/prometheus.yml grafana: image: grafana/grafana ports: - 3000:30006. 总结与下一步建议通过本教程您已经成功部署了Qwen3-4B-Thinking模型并实现了使用vLLM提供高性能API服务通过Kong网关实现API限流和鉴权集成Chainlit提供友好的交互界面下一步建议根据业务需求调整Kong的限流策略考虑添加JWT认证增强安全性监控API使用情况优化资源配置获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

Qwen3-4B-Thinking部署教程：vLLM API Gateway集成Kong网关实现限流与鉴权

最新文章

Mybatis 中 Dao 接口（Mapper 接口）的工作原理与重载问题详解

不用装软件！这款MicroPython浏览器 IDE :让你在手机上也能调试树莓派 Pico镀

告别重复点击：3分钟学会用MouseClick实现高效自动化操作

油价疯涨的今天，为什么全球突然爱上中国电动车？

Linux虚拟机玩家必备：用xrandr命令永久解决VMware分辨率问题（附.profile配置）

Oracle 的 JSON_TABLE 函数

推荐文章

CSS Scroll Snap：打造丝滑滚动体验

【2026年最新600套毕设项目分享】springboot高校学习讲座预约系统（14328）

STM32H7 USB复合设备库：CDC+MSC+SDMMC一体化固件

STM32异步Web服务器：零拷贝HTTP/WS工业网关实战

Linux命令-nc（用于设置路由器，是网络工具中的瑞士军刀）

【电池损耗+需求响应】考虑电池储能寿命与需求响应模型的发电计划优化程序Matlab代码

相关文章

2025 AI写作革命：自定义API打造专属小说生成器

用GDAL和PyTorch搞定多光谱.tif图像训练Faster R-CNN（避坑全记录）

HC-SR501人体红外传感器：从参数解析到树莓派实战应用

2026年三维扫描仪选购指南：专业厂家如何选，这几点是关键

微信小程序项目目录结构优化指南：从tabBar报错看最佳实践

探索Feishin：打造个人专属的自托管音乐播放解决方案

分享文章

更多文章

BG3SE：构建动态功能扩展的脚本引擎解决方案

阿里千问Qwen3.6-Plus：大模型领域的破纪录黑马

提升编码效率新思路：快马ai工具链替代传统ide破解需求

STM32低功耗模式

《算法题讲解指南：动态规划算法--子序列问题》--27.最长递增子序列，28.摆动序列

从MANO到LEAP：手部姿态估计模型的参数映射与转换实践

SIM800L嵌入式HTTP库：支持二进制透传的轻量AT指令封装

MaixinVoiceAI 3.0 助力高校后勤报修自动化

QLocalServer和QLocalSocket本地多进程通信支持多开，看门狗，多客户端

从理论到实践：基于快马平台，快速构建可落地的电商客服AI Agent

OmenSuperHub终极指南：彻底释放惠普游戏本性能的免费开源方案

cewl使用教程