新手指导Termux 完整实战指南:在 Android 设备上利用 Termux 安装 llama.cpp 并启动 WebUI

张开发
2026/4/16 20:54:52 15 分钟阅读

分享文章

新手指导Termux 完整实战指南:在 Android 设备上利用 Termux 安装 llama.cpp 并启动 WebUI
如果你希望在不依赖云服务器的情况下在 Android 手机上直接运行本地大模型那么llama.cpp Termux是目前最实用、门槛相对最低的一条路线。它的优势很明显离线可用、隐私可控、成本低、可折腾空间大。这篇文章给你一份“从 0 到可聊天”的完整流程在 Android 上安装 Termux编译并安装 llama.cpp下载 GGUF 模型启动 llama.cpp 的llama-server通过浏览器访问 WebUI 对话做基础性能优化和故障排查适用人群开发者、学生、极客玩家、移动端 AI 爱好者预期结果手机浏览器打开本地网页直接与本地模型对话一、先说结论手机能跑但要选对模型Android 跑本地模型的关键不是“能不能跑”而是“跑得是否可用”。你要接受三个现实手机 CPU 推理速度远慢于桌面 GPU8B 模型在大多数手机上都偏吃力建议先从 1B~3B 量化模型开始想要稳定体验优先选择Q4_K_M / Q5_K_M等量化 GGUF 文件。建议新手首选Qwen2.5-1.5B-Instruct GGUFTinyLlama 1.1B GGUFPhi-2 / Phi-3 mini 的小尺寸量化版本先跑通再升级。二、环境准备非常关键1安装 Termux不要用 Play 商店旧版推荐来源F-Droid官方维护版本或 Termux GitHub Release安装后首次打开先更新系统bashpkg update pkg upgrade -y2开启存储访问权限bashtermux-setup-storage执行后系统会弹权限框允许后可访问/sdcard。建议把模型放在/sdcard/AI/models便于管理。3安装基础依赖bashpkg install -y git cmake clang make wget curl python pkg install -y libopenblas说明clang/cmake用于编译openblas用于加速 CPU 矩阵计算python后续可用于辅助前端或脚本三、下载并编译 llama.cpp1拉取源码bashcd ~ git clone https://github.com/ggml-org/llama.cpp.git cd llama.cpp2编译Android CPU 版本bashcmake -B build \ -DGGML_OPENBLASON \ -DCMAKE_BUILD_TYPERelease cmake --build build -j4如果你的手机核心更多可以把-j4改成-j6或-j8但注意发热和稳定性。编译完成后核心可执行文件一般在build/bin/llama-clibuild/bin/llama-server你可以先测一下是否成功bash./build/bin/llama-cli -h ./build/bin/llama-server -h四、下载 GGUF 模型建议先小后大你可以从 Hugging Face 下载量化模型GGUF。示例下载一个小模型到手机存储目录。bashmkdir -p /sdcard/AI/models cd /sdcard/AI/models wget 模型直链URL -O qwen2.5-1.5b-instruct-q4_k_m.gguf如果直链下载慢可用镜像、代理或先在电脑下载再拷贝到手机。提醒模型文件通常 1GB~6GB 不等下载前确认剩余空间。Android 上建议预留至少 10GB 可用空间避免系统清理导致异常。五、启动 llama-server 并打开 WebUI这一步是核心我们启动llama-server它提供 HTTP 接口并可通过网页进行交互不同版本页面略有差异。bashcd ~/llama.cpp ./build/bin/llama-server \ -m /sdcard/AI/models/qwen2.5-1.5b-instruct-q4_k_m.gguf \ -c 2048 \ -t 4 \ --host 127.0.0.1 \ --port 8080参数解释实用版-m模型路径-c 2048上下文长度手机建议先 1024~2048-t 4线程数通常设为大核数量附近--host 127.0.0.1仅本机访问更安全--port 8080服务端口启动成功后在手机浏览器打开texthttp://127.0.0.1:8080若版本自带 WebUI会直接看到聊天页面。若只看到 API 信息也可通过 OpenAI 兼容接口接第三方前端后面会讲。六、如果你要“局域网访问”这台手机模型有时你希望电脑也能访问手机上的模型服务同一 Wi-Fi。可将 host 改为0.0.0.0bash./build/bin/llama-server \ -m /sdcard/AI/models/qwen2.5-1.5b-instruct-q4_k_m.gguf \ -c 2048 -t 4 \ --host 0.0.0.0 \ --port 8080然后在手机里查 IP如192.168.1.23电脑浏览器访问texthttp://192.168.1.23:8080安全建议仅在可信局域网启用外网不要裸露端口。七、性能优化让“能跑”变“可用”Android 上优化非常重要下面是最有效的几项1优先换小模型而不是硬堆参数比起盲目升上下文、升并发小模型合理提示词通常体验更稳。2降低上下文长度-c 4096对手机压力很大新手建议1024~2048。上下文越长速度越慢、内存越紧张。3合理设置线程不是线程越多越快。通常从-t 2、-t 4、-t 6实测选“速度和发热”的平衡点。4尽量使用高效量化Q4_K_M常是质量/速度平衡较好的选择。设备较弱就用更小量化设备强再上 Q5/Q6。5散热与电源长时间推理建议边充电边散热风扇/散热背夹避免高温降频导致速度骤降八、把它做成“常用服务”一键启动脚本每次手动输入命令太麻烦可以写个脚本bashcd ~ nano start-llama.sh填入bash#!/data/data/com.termux/files/usr/bin/bash cd ~/llama.cpp ./build/bin/llama-server \ -m /sdcard/AI/models/qwen2.5-1.5b-instruct-q4_k_m.gguf \ -c 2048 -t 4 \ --host 127.0.0.1 \ --port 8080保存后执行bashchmod x ~/start-llama.sh ~/start-llama.sh以后直接一条命令启动省时很多。九、常见报错与解决办法1CMake Error/ 编译失败先pkg update pkg upgrade确认clang cmake make都安装了清理重编bashcd ~/llama.cpp rm -rf build cmake -B build -DGGML_OPENBLASON cmake --build build -j42模型加载失败路径写错最常见模型不是 GGUF 格式文件没下完整校验文件大小3启动后浏览器打不开端口是否一致8080host 是不是127.0.0.1只能本机若局域网访问需改成0.0.0.04运行一会儿被系统杀掉Android 后台限制导致 Termux 被回收给 Termux 关闭电池优化、允许后台运行避免同时开太多重负载 App5回复很慢模型太大上下文过长线程设置不合理手机温度过高触发降频十、进阶玩法接入第三方 Web 前端如果你觉得内置网页不够好看可以把llama-server当 API 后端。因为它支持 OpenAI 风格接口理论上可接很多前端需按项目兼容性配置。典型思路是Android 端llama-server 提供http://手机IP:8080/v1/...电脑端运行 Web 前端并把 API Base 指向手机这样手机负责推理电脑负责界面体验会更好。十一、使用建议与边界预期这套方案非常适合离线问答本地草稿写作学习提示词工程演示“端侧 AI”能力轻量 RAG 实验小规模但不适合高并发在线服务长文档重推理复杂 Agent 多工具链路对延迟极其敏感的生产系统换句话说Android Termux 是一个很棒的“便携实验室”不是 GPU 服务器替代品。结语在 Android 上用 Termux 安装 llama.cpp 并启动 WebUI本质上是把“大模型能力”塞进你的口袋。只要你掌握三个关键点这件事并不难用对环境Termux 新版 正确依赖选对模型先小模型 GGUF再逐步升级调对参数线程、上下文、量化平衡速度与质量按本文步骤你完全可以在一台普通 Android 手机上搭建一个可离线聊天的本地 AI 系统。如果你愿意我下一步可以直接给你一份“按手机性能分档”的参数模板低端/中端/高端三套你复制就能跑。

更多文章