新手指导Termux 完整实战指南：在 Android 设备上利用 Termux 安装 llama.cpp 并启动 WebUI

张开发

• 2026/4/16 20:54:52 • 15 分钟阅读

分享文章

新手指导Termux 完整实战指南：在 Android 设备上利用 Termux 安装 llama.cpp 并启动 WebUI

如果你希望在不依赖云服务器的情况下在 Android 手机上直接运行本地大模型那么llama.cpp Termux是目前最实用、门槛相对最低的一条路线。它的优势很明显离线可用、隐私可控、成本低、可折腾空间大。这篇文章给你一份“从 0 到可聊天”的完整流程在 Android 上安装 Termux编译并安装 llama.cpp下载 GGUF 模型启动 llama.cpp 的llama-server通过浏览器访问 WebUI 对话做基础性能优化和故障排查适用人群开发者、学生、极客玩家、移动端 AI 爱好者预期结果手机浏览器打开本地网页直接与本地模型对话一、先说结论手机能跑但要选对模型Android 跑本地模型的关键不是“能不能跑”而是“跑得是否可用”。你要接受三个现实手机 CPU 推理速度远慢于桌面 GPU8B 模型在大多数手机上都偏吃力建议先从 1B~3B 量化模型开始想要稳定体验优先选择Q4_K_M / Q5_K_M等量化 GGUF 文件。建议新手首选Qwen2.5-1.5B-Instruct GGUFTinyLlama 1.1B GGUFPhi-2 / Phi-3 mini 的小尺寸量化版本先跑通再升级。二、环境准备非常关键1安装 Termux不要用 Play 商店旧版推荐来源F-Droid官方维护版本或 Termux GitHub Release安装后首次打开先更新系统bashpkg update pkg upgrade -y2开启存储访问权限bashtermux-setup-storage执行后系统会弹权限框允许后可访问/sdcard。建议把模型放在/sdcard/AI/models便于管理。3安装基础依赖bashpkg install -y git cmake clang make wget curl python pkg install -y libopenblas说明clang/cmake用于编译openblas用于加速 CPU 矩阵计算python后续可用于辅助前端或脚本三、下载并编译 llama.cpp1拉取源码bashcd ~ git clone https://github.com/ggml-org/llama.cpp.git cd llama.cpp2编译Android CPU 版本bashcmake -B build \ -DGGML_OPENBLASON \ -DCMAKE_BUILD_TYPERelease cmake --build build -j4如果你的手机核心更多可以把-j4改成-j6或-j8但注意发热和稳定性。编译完成后核心可执行文件一般在build/bin/llama-clibuild/bin/llama-server你可以先测一下是否成功bash./build/bin/llama-cli -h ./build/bin/llama-server -h四、下载 GGUF 模型建议先小后大你可以从 Hugging Face 下载量化模型GGUF。示例下载一个小模型到手机存储目录。bashmkdir -p /sdcard/AI/models cd /sdcard/AI/models wget 模型直链URL -O qwen2.5-1.5b-instruct-q4_k_m.gguf如果直链下载慢可用镜像、代理或先在电脑下载再拷贝到手机。提醒模型文件通常 1GB~6GB 不等下载前确认剩余空间。Android 上建议预留至少 10GB 可用空间避免系统清理导致异常。五、启动 llama-server 并打开 WebUI这一步是核心我们启动llama-server它提供 HTTP 接口并可通过网页进行交互不同版本页面略有差异。bashcd ~/llama.cpp ./build/bin/llama-server \ -m /sdcard/AI/models/qwen2.5-1.5b-instruct-q4_k_m.gguf \ -c 2048 \ -t 4 \ --host 127.0.0.1 \ --port 8080参数解释实用版-m模型路径-c 2048上下文长度手机建议先 1024~2048-t 4线程数通常设为大核数量附近--host 127.0.0.1仅本机访问更安全--port 8080服务端口启动成功后在手机浏览器打开texthttp://127.0.0.1:8080若版本自带 WebUI会直接看到聊天页面。若只看到 API 信息也可通过 OpenAI 兼容接口接第三方前端后面会讲。六、如果你要“局域网访问”这台手机模型有时你希望电脑也能访问手机上的模型服务同一 Wi-Fi。可将 host 改为0.0.0.0bash./build/bin/llama-server \ -m /sdcard/AI/models/qwen2.5-1.5b-instruct-q4_k_m.gguf \ -c 2048 -t 4 \ --host 0.0.0.0 \ --port 8080然后在手机里查 IP如192.168.1.23电脑浏览器访问texthttp://192.168.1.23:8080安全建议仅在可信局域网启用外网不要裸露端口。七、性能优化让“能跑”变“可用”Android 上优化非常重要下面是最有效的几项1优先换小模型而不是硬堆参数比起盲目升上下文、升并发小模型合理提示词通常体验更稳。2降低上下文长度-c 4096对手机压力很大新手建议1024~2048。上下文越长速度越慢、内存越紧张。3合理设置线程不是线程越多越快。通常从-t 2、-t 4、-t 6实测选“速度和发热”的平衡点。4尽量使用高效量化Q4_K_M常是质量/速度平衡较好的选择。设备较弱就用更小量化设备强再上 Q5/Q6。5散热与电源长时间推理建议边充电边散热风扇/散热背夹避免高温降频导致速度骤降八、把它做成“常用服务”一键启动脚本每次手动输入命令太麻烦可以写个脚本bashcd ~ nano start-llama.sh填入bash#!/data/data/com.termux/files/usr/bin/bash cd ~/llama.cpp ./build/bin/llama-server \ -m /sdcard/AI/models/qwen2.5-1.5b-instruct-q4_k_m.gguf \ -c 2048 -t 4 \ --host 127.0.0.1 \ --port 8080保存后执行bashchmod x ~/start-llama.sh ~/start-llama.sh以后直接一条命令启动省时很多。九、常见报错与解决办法1CMake Error/ 编译失败先pkg update pkg upgrade确认clang cmake make都安装了清理重编bashcd ~/llama.cpp rm -rf build cmake -B build -DGGML_OPENBLASON cmake --build build -j42模型加载失败路径写错最常见模型不是 GGUF 格式文件没下完整校验文件大小3启动后浏览器打不开端口是否一致8080host 是不是127.0.0.1只能本机若局域网访问需改成0.0.0.04运行一会儿被系统杀掉Android 后台限制导致 Termux 被回收给 Termux 关闭电池优化、允许后台运行避免同时开太多重负载 App5回复很慢模型太大上下文过长线程设置不合理手机温度过高触发降频十、进阶玩法接入第三方 Web 前端如果你觉得内置网页不够好看可以把llama-server当 API 后端。因为它支持 OpenAI 风格接口理论上可接很多前端需按项目兼容性配置。典型思路是Android 端llama-server 提供http://手机IP:8080/v1/...电脑端运行 Web 前端并把 API Base 指向手机这样手机负责推理电脑负责界面体验会更好。十一、使用建议与边界预期这套方案非常适合离线问答本地草稿写作学习提示词工程演示“端侧 AI”能力轻量 RAG 实验小规模但不适合高并发在线服务长文档重推理复杂 Agent 多工具链路对延迟极其敏感的生产系统换句话说Android Termux 是一个很棒的“便携实验室”不是 GPU 服务器替代品。结语在 Android 上用 Termux 安装 llama.cpp 并启动 WebUI本质上是把“大模型能力”塞进你的口袋。只要你掌握三个关键点这件事并不难用对环境Termux 新版正确依赖选对模型先小模型 GGUF再逐步升级调对参数线程、上下文、量化平衡速度与质量按本文步骤你完全可以在一台普通 Android 手机上搭建一个可离线聊天的本地 AI 系统。如果你愿意我下一步可以直接给你一份“按手机性能分档”的参数模板低端/中端/高端三套你复制就能跑。

更多文章

前端开发 2026/4/16 20:51:16

Windows 环境下利用 SSHFS 实现远程服务器目录无缝挂载的完整指南

1. 为什么需要SSHFS挂载远程目录？ 作为一个经常需要在Windows和Linux服务器之间传输文件的开发者，我深刻理解那种反复用scp命令上传下载的繁琐。每次修改代码都要手动同步，不仅效率低下还容易出错。SSHFS的出现完美解决了这个痛点——它通过S…

作为一个数码博主，测评过的数码产品也是数不胜数，而蓝牙音箱也是其中之一！现在大家的生活品质越来越好，相应的追求也是逐渐升高，无论是居家或者户外的时候都想要借助音乐放松自己，而便携式蓝牙音箱就是一个…

张开发

前端开发 2026/4/14 18:52:48

【AI大模型春招面试题21】什么是Transformer的“预归一化”与“后归一化”？两者的差异及影响？

🎪 摸鱼匠：个人主页 🎒 个人专栏：《大模型岗位面试题》 🥇 没有好的理念，只有脚踏实地！ 文章目录一、面试场景模拟二、深度解析：原理与差异1. 结构对比（直观理解&…

张开发

新手指导Termux 完整实战指南：在 Android 设备上利用 Termux 安装 llama.cpp 并启动 WebUI

最新文章

从自行车变速到无人机飞控：聊聊‘转动惯量’这个参数在工程设计中到底有多重要

Linux 字符设备驱动从入门到精通：从 register_chrdev 到 cdev 的演进实践

ESP32精准校时实战：HTTP与SNTP双方案对比与优化

避坑指南：STM32驱动BMP280时，你可能会遇到的I2C地址、ID读取和补偿算法问题

如何免费解锁网盘全速下载：8大平台直链获取完整指南

PHP SAAS 框架常见问题——配置问题——修改 icon 图标

推荐文章

手把手教你用NUCLEO-H743ZI2连接Arduino模块：从硬件选型到I2C通信实战

从‘能用’到‘好用’：我用这5个步骤，为我的智能小车电机选到了最合适的栅极驱动芯片

11.os模块、编解码、文件操作、try-except语句详解

公路车桥耦合振动程序（考虑路面不平整度）——两套模型介绍及操作指南

Umi-OCR完全指南：如何利用开源OCR工具实现高效文字识别

从理论到实践：基于MATLAB comm.RayTracingChannel的室内多径信道仿真全解析

相关文章

2025 AI写作革命：自定义API打造专属小说生成器

用GDAL和PyTorch搞定多光谱.tif图像训练Faster R-CNN（避坑全记录）

HC-SR501人体红外传感器：从参数解析到树莓派实战应用

2026年三维扫描仪选购指南：专业厂家如何选，这几点是关键

微信小程序项目目录结构优化指南：从tabBar报错看最佳实践

探索Feishin：打造个人专属的自托管音乐播放解决方案

分享文章

更多文章

Windows 环境下利用 SSHFS 实现远程服务器目录无缝挂载的完整指南

WindowsCleaner：3分钟彻底解决C盘爆红问题的免费系统清理神器

Windows Defender终极移除指南：一键彻底关闭系统安全防护的完整解决方案

从一笔转账看懂银行账务：客户、账户、科目与总账的完整数据流转（附实操SQL）

避开这些坑！百度智能云AppBuilder API调用中的5个常见错误及解决方案

从零开始搭建CTF靶场：catcat漏洞环境复现与调试指南

Phi-3-mini-4k-instruct-gguf快速部署：无需编译，预装llama-cpp-python CUDA wheel直启

Mac上5分钟搞定K3s+kubeflow：开发测试环境搭建全流程（含资源分配避坑指南）

手势识别大模型已突破临界点：2026奇点大会公布的7项核心参数，90%企业尚未适配

避坑指南：Qt for Android串口开发中那些让人头疼的权限问题

2026哪个品牌蓝牙音箱值得入手？盘点五款热门高性价比蓝牙音箱

【AI大模型春招面试题21】什么是Transformer的“预归一化”与“后归一化”？两者的差异及影响？