主题模式
Are you an LLM? You can read better optimized documentation at /ai/llm/ollama-guide.md for this page in Markdown format
2026 Ollama 部署指南:零基础在 VPS 上跑通你的第一个本地大模型
时间来到 2026 年,大模型(LLM)已经不再是显卡富人的玩具。得益于量化技术的成熟和 Ollama 的普及,现在哪怕是一台年付几百块的 CPU VPS,也能流畅运行 7B 甚至 14B 参数量的模型。
如果你还在为 ChatGPT 的月费心疼,或者担心隐私数据泄露,那么“私有化部署”就是你的终极答案。
🧐 为什么选择 Ollama?
在早几年,部署一个模型你得折腾 Python 环境、PyTorch 版本、Cuda 驱动……还没开始跑模型,环境就先崩了。
而 Ollama 就像是 “AI 界的 Docker”。
- 一键安装:一条指令搞定所有依赖。
- 模型库丰富:DeepSeek、Llama 4、Qwen 3 等开源神作,下载即用。
- 资源占用低:极度优化的
llama.cpp后端,让 N100 小主机也能跑得飞起。
🛠️ 安装步骤 (Linux 篇)
无论你是用 Debian/Ubuntu 的 VPS,还是家里的 PVE 虚拟机,安装步骤都一样简单。
1. 一键安装脚本
官方提供的脚本依然是最稳的:
bash
curl -fsSL [https://ollama.com/install.sh](https://ollama.com/install.sh) | sh安装完成后,验证一下版本:
bash
ollama --version
# 输出: ollama version is 0.5.x2. 下载并运行模型
2026 年目前性价比最高的模型当属 DeepSeek-Coder-V2 和 Llama 4 (8B)。我们以 DeepSeek 为例:
bash
# 下载并直接运行
ollama run deepseek-coder第一次运行会自动下载模型权重文件(约 4GB)。等待进度条跑完,你就会进入一个交互式的对话框。 试着问它:“写一个 Python 的 Hello World”,你会发现响应速度快得惊人。
⚙️ 进阶配置:开启远程访问
默认情况下,Ollama 只监听 127.0.0.1:11434,也就是说你只能在 VPS 本地访问。如果你想用电脑上的 Cursor 或 Open WebUI 连接这台 VPS,需要开启远程监听。
修改 Systemd 服务
- 编辑服务文件:
bash
sudo nano /etc/systemd/system/ollama.service- 在
[Service]下方添加环境变量:
ini
Environment="OLLAMA_HOST=0.0.0.0"- 重载并重启服务:
bash
sudo systemctl daemon-reload
sudo systemctl restart ollama🔥 安全警告
开启 0.0.0.0 意味着任何人知道你 IP 的人都能调用你的算力! 强烈建议配合防火墙(UFW)限制 IP,或者使用我们后面会讲到的 Cloudflare Tunnel 进行内网穿透保护。
💡 硬件推荐与避坑
很多粉丝问我:“ygjc,我只有一台 1核 1G 的 VPS,能跑吗?”
最低配置:2核 CPU + 4G 内存。
体验:勉强能跑 1.5B 的小模型(如 Qwen-1.5B),速度较慢。
推荐配置:4核 CPU + 16G 内存(N100 小主机是绝配)。
体验:流畅运行 7B/8B 模型,生成速度约 10-20 tokens/s,完全可用于日常编程辅助。
土豪配置:带 GPU 的服务器(如 H100 分片)。
体验:起飞。
如果你没有合适的硬件,又想体验高性能 AI,不妨看看 银河录像局 (优惠码 ygjc) 提供的 ChatGPT Plus 合租,毕竟 GPT-5 的推理能力目前还是本地模型难以逾越的高山。
🔗 下一步做什么?
模型跑起来了,光在黑底白字的终端里对话太枯燥? 下一篇,我们将教你部署 Open WebUI,给你本地的 AI 装上一个比 ChatGPT 官网还漂亮的界面。
🚀 Ollama 进阶技巧 (2026 更新)
在掌握了基础部署后,我们可以通过一些高级配置让 Ollama 更好地服务于你的工作流。
1. 自定义模型参数
你可以通过 Modelfile 来微调模型的输出风格。例如,创建一个专门用于“技术写作”的模型:
dockerfile
FROM deepseek-coder
PARAMETER temperature 0.7
SYSTEM """
你是一位资深的技术博主,擅长用通俗易懂的语言解释复杂的编程概念。
请保持语气亲切,并适当使用 Emoji 增加可读性。
"""构建并运行:
bash
ollama create tech-writer -f Modelfile
ollama run tech-writer2. API 调用实战
Ollama 提供了兼容 OpenAI 格式的 API。你可以直接在代码中调用它:
python
import requests
response = requests.post('http://localhost:11434/api/generate', json={
"model": "deepseek-coder",
"prompt": "写一个快速排序算法",
"stream": False
})
print(response.json()['response'])3. 与本地应用集成
- Cursor / VS Code:在编辑器插件中将 Base URL 设置为
http://your-vps-ip:11434/v1,即可实现本地化的 AI 补全。 - Dify / LangChain:利用 Ollama 作为后端 LLM,快速搭建属于你自己的 AI 应用。