主题模式
Are you an LLM? You can read better optimized documentation at /ai/llm/ollama-guide.md for this page in Markdown format
2026 Ollama 部署指南:零基础在 VPS 上跑通你的第一个本地大模型
时间来到 2026 年,大模型(LLM)已经不再是显卡富人的玩具。得益于量化技术的成熟和 Ollama 的普及,现在哪怕是一台年付几百块的 CPU VPS,也能流畅运行 7B 甚至 14B 参数量的模型。
如果你还在为 ChatGPT 的月费心疼,或者担心隐私数据泄露,那么“私有化部署”就是你的终极答案。
🧐 为什么选择 Ollama?
在早几年,部署一个模型你得折腾 Python 环境、PyTorch 版本、Cuda 驱动……还没开始跑模型,环境就先崩了。
而 Ollama 就像是 “AI 界的 Docker”。
- 一键安装:一条指令搞定所有依赖。
- 模型库丰富:DeepSeek、Llama 4、Qwen 3 等开源神作,下载即用。
- 资源占用低:极度优化的
llama.cpp后端,让 N100 小主机也能跑得飞起。
🛠️ 安装步骤 (Linux 篇)
无论你是用 Debian/Ubuntu 的 VPS,还是家里的 PVE 虚拟机,安装步骤都一样简单。
1. 一键安装脚本
官方提供的脚本依然是最稳的:
bash
curl -fsSL [https://ollama.com/install.sh](https://ollama.com/install.sh) | sh安装完成后,验证一下版本:
bash
ollama --version
# 输出: ollama version is 0.5.x2. 下载并运行模型
2026 年目前性价比最高的模型当属 DeepSeek-Coder-V2 和 Llama 4 (8B)。我们以 DeepSeek 为例:
bash
# 下载并直接运行
ollama run deepseek-coder第一次运行会自动下载模型权重文件(约 4GB)。等待进度条跑完,你就会进入一个交互式的对话框。 试着问它:“写一个 Python 的 Hello World”,你会发现响应速度快得惊人。
⚙️ 进阶配置:开启远程访问
默认情况下,Ollama 只监听 127.0.0.1:11434,也就是说你只能在 VPS 本地访问。如果你想用电脑上的 Cursor 或 Open WebUI 连接这台 VPS,需要开启远程监听。
修改 Systemd 服务
- 编辑服务文件:
bash
sudo nano /etc/systemd/system/ollama.service- 在
[Service]下方添加环境变量:
ini
Environment="OLLAMA_HOST=0.0.0.0"- 重载并重启服务:
bash
sudo systemctl daemon-reload
sudo systemctl restart ollama🔥 安全警告
开启 0.0.0.0 意味着任何人知道你 IP 的人都能调用你的算力! 强烈建议配合防火墙(UFW)限制 IP,或者使用我们后面会讲到的 Cloudflare Tunnel 进行内网穿透保护。
💡 硬件推荐与避坑
很多粉丝问我:“ygjc,我只有一台 1核 1G 的 VPS,能跑吗?”
最低配置:2核 CPU + 4G 内存。
体验:勉强能跑 1.5B 的小模型(如 Qwen-1.5B),速度较慢。
推荐配置:4核 CPU + 16G 内存(N100 小主机是绝配)。
体验:流畅运行 7B/8B 模型,生成速度约 10-20 tokens/s,完全可用于日常编程辅助。
土豪配置:带 GPU 的服务器(如 H100 分片)。
体验:起飞。
如果你没有合适的硬件,又想体验高性能 AI,不妨看看 银河录像局 (优惠码 ygjc) 提供的 ChatGPT Plus 合租,毕竟 GPT-5 的推理能力目前还是本地模型难以逾越的高山。
🔗 下一步做什么?
模型跑起来了,光在黑底白字的终端里对话太枯燥? 下一篇,我们将教你部署 Open WebUI,给你本地的 AI 装上一个比 ChatGPT 官网还漂亮的界面。