从零开始部署通义千问1.8B-Chat:WebUI界面搭建,适合小白的详细教程

张开发
2026/4/13 8:02:09 15 分钟阅读

分享文章

从零开始部署通义千问1.8B-Chat:WebUI界面搭建,适合小白的详细教程
从零开始部署通义千问1.8B-ChatWebUI界面搭建适合小白的详细教程1. 准备工作与环境检查在开始部署之前我们需要确保系统环境满足基本要求。这个轻量级对话模型对硬件要求相对友好但仍有几个关键点需要注意。1.1 硬件要求GPU至少4GB显存NVIDIA显卡内存8GB或以上存储空间至少4GB可用空间1.2 软件环境操作系统推荐Ubuntu 20.04/22.04或CentOS 7Python3.8或更高版本CUDA11.7或更高版本与显卡驱动匹配可以通过以下命令检查基础环境# 检查GPU和驱动 nvidia-smi # 检查Python版本 python3 --version # 检查CUDA版本 nvcc --version如果上述命令都能正常执行并显示版本信息说明基础环境已经就绪。2. 获取模型与部署文件2.1 下载模型文件通义千问1.8B-Chat-GPTQ-Int4模型已经过优化体积约为1.8GB。我们需要将其复制到可写目录# 创建模型目录 mkdir -p /root/qwen-1.8b-chat/model # 复制模型文件假设原始模型在/root/ai-models/Qwen目录 cp -r /root/ai-models/Qwen/Qwen1___5-1___8B-Chat-GPTQ-Int4/* /root/qwen-1.8b-chat/model/2.2 创建量化配置文件由于原模型目录是只读的我们需要在新位置创建量化配置文件cat /root/qwen-1.8b-chat/model/quantize_config.json EOF { bits: 4, group_size: 128, desc_act: false, sym: true, true_sequential: true, model_name_or_path: Qwen/Qwen1.5-1.8B-Chat-GPTQ-Int4, model_file_name: model.safetensors, model_basename: model } EOF3. 安装Python依赖环境3.1 创建Python虚拟环境建议使用conda或venv创建独立环境# 使用conda创建环境推荐 conda create -n qwen python3.10 -y conda activate qwen # 或者使用venv python3 -m venv /root/qwen-1.8b-chat/venv source /root/qwen-1.8b-chat/venv/bin/activate3.2 安装必要依赖包pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install auto-gptq0.7.1 transformers4.47.0 gradio4.40.04. 部署WebUI界面4.1 创建主程序文件在/root/qwen-1.8b-chat/目录下创建app.py文件from transformers import AutoModelForCausalLM, AutoTokenizer import gradio as gr # 加载模型和分词器 model_path /root/qwen-1.8b-chat/model tokenizer AutoTokenizer.from_pretrained(model_path, trust_remote_codeTrue) model AutoModelForCausalLM.from_pretrained(model_path, device_mapauto, trust_remote_codeTrue) # 定义聊天函数 def chat(message, history, temperature0.7, max_length2048): response, _ model.chat( tokenizer, message, historyhistory, temperaturetemperature, max_new_tokensmax_length ) return response # 创建Gradio界面 demo gr.ChatInterface( fnchat, additional_inputs[ gr.Slider(0.1, 2.0, value0.7, labelTemperature), gr.Slider(128, 4096, value2048, step128, labelMax Length) ], title通义千问1.8B-Chat对话演示, description轻量级中文对话模型演示 ) # 启动服务 demo.launch(server_name0.0.0.0)4.2 创建启动脚本创建start.sh启动脚本#!/bin/bash source /opt/miniconda3/etc/profile.d/conda.sh conda activate qwen cd /root/qwen-1.8b-chat python app.py给脚本添加执行权限chmod x /root/qwen-1.8b-chat/start.sh5. 使用Supervisor管理服务5.1 安装Supervisorsudo apt update sudo apt install -y supervisor5.2 创建配置文件创建/etc/supervisor/conf.d/qwen-1.8b-chat.conf文件[program:qwen-1.8b-chat] command/root/qwen-1.8b-chat/start.sh directory/root/qwen-1.8b-chat userroot autostarttrue autorestarttrue startretries3 stderr_logfile/root/qwen-1.8b-chat/logs/error.log stdout_logfile/root/qwen-1.8b-chat/logs/app.log environmentPATH/opt/miniconda3/envs/qwen/bin:%(ENV_PATH)s5.3 启动服务sudo supervisorctl reread sudo supervisorctl update sudo supervisorctl start qwen-1.8b-chat6. 访问与使用WebUI6.1 访问Web界面服务启动后在浏览器中访问http://你的服务器IP:78606.2 基本使用方法在输入框中输入你的问题或对话内容可调整参数Temperature控制回答的随机性0.1-2.0Max Length限制回答长度128-4096 tokens点击Submit按钮获取回答6.3 示例问题可以尝试以下问题测试模型请介绍一下你自己用Python写一个快速排序算法什么是机器学习简单解释一下写一首关于春天的诗7. 常见问题解决7.1 页面无法访问检查服务状态sudo supervisorctl status qwen-1.8b-chat检查端口是否被占用ss -tlnp | grep 78607.2 显存不足错误解决方法降低Max Length参数值检查是否有其他程序占用GPUnvidia-smi7.3 生成速度慢可能原因首次运行需要加载模型约6-8秒GPU未正常工作生成长度过大7.4 查看日志# 应用日志 tail -f /root/qwen-1.8b-chat/logs/app.log # 错误日志 tail -f /root/qwen-1.8b-chat/logs/error.log8. 总结与进阶建议通过本教程你已经成功部署了通义千问1.8B-Chat模型的WebUI界面。这个轻量级模型在消费级GPU上运行良好适合各种对话场景。8.1 进阶使用建议自定义系统提示修改app.py中的消息构建部分让模型扮演特定角色API集成可以添加FastAPI等框架提供HTTP API接口多轮对话优化调整history参数实现更连贯的对话体验8.2 性能优化调整temperature和max_length参数平衡生成质量与速度定期清理日志文件释放磁盘空间监控GPU使用情况避免资源耗尽获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章