最近不少人想在自己电脑上跑大模型,绕不开 Ollama。这篇就把从安装到能用,完整走一遍。
开始前先把一个概念说清楚:Ollama 不是模型,它是用来跑模型的工具。 模型是 Llama、Qwen、DeepSeek 这些,Ollama 负责帮你下载、管理、运行它们。就像迅雷不是电影,播放器不是电影,Ollama 也不是模型。后面别搞混了。
为什么用它?三个原因:
- 装起来简单,一条命令就能拉模型
- 全程本地运行,数据不出你的电脑
- 自带 API,想接到自己程序里也方便
一、看看你的电脑能跑什么
先别急着装,看下配置。模型越大,要的显存/内存越多:
- 1.5B 的模型:量化后 1~2G 显存,啥电脑基本都能跑
- 7B~8B:5~8G 显存,RTX 3060 这种主流卡没问题
- 14B:10G 以上,4070 / 3090 这个级别
- 32B 往上:20G+,4090 或者大内存的 Mac
没独立显卡也能跑,走 CPU + 内存,就是慢一点。内存最少 8G,跑 7B 建议 16G 起。Mac 的 M 系列芯片表现不错,统一内存的优势在这里很明显。
新手建议直接从 1.5B 或 7B 起步,先跑通再说。
二、安装
Windows
去官网下载页:https://ollama.com/download
![图片[1]-Ollama本地化部署-春枫博客](https://www.cfbk.top/wp-content/uploads/2026/06/d2b5ca33bd20260610151503-1024x512.png)
下载 Windows 安装包,双击,一路下一步。
![图片[2]-Ollama本地化部署-春枫博客](https://www.cfbk.top/wp-content/uploads/2026/06/d2b5ca33bd20260610152719.png)
要安装一会
![图片[3]-Ollama本地化部署-春枫博客](https://www.cfbk.top/wp-content/uploads/2026/06/d2b5ca33bd20260610152738.png)
装完它会在后台自动运行,他会直接弹出应用或者,在右下角托盘能看到一个小羊驼图标。
![图片[4]-Ollama本地化部署-春枫博客](https://www.cfbk.top/wp-content/uploads/2026/06/d2b5ca33bd20260610153048.png)
![图片[5]-Ollama本地化部署-春枫博客](https://www.cfbk.top/wp-content/uploads/2026/06/d2b5ca33bd20260610153016.png)
按 Win + R,输入 cmd 回车,打开命令行,输入:
ollama --version
能显示版本号就是装好了。
[图片:命令行显示版本号]
macOS
官网下 dmg,拖进应用程序文件夹。或者用 Homebrew:
brew install ollama
Linux
一条命令:
curl -fsSL https://ollama.com/install.sh | sh
[图片:Linux 安装脚本执行过程]
脚本会自动识别系统、配置 systemd 开机自启,Ubuntu、Debian、CentOS 都支持。有 N 卡的话会自动配好 CUDA,A 卡需要先装 ROCm 驱动。
装完同样用 ollama --version 验证一下。如果服务没起来,手动跑一下 ollama serve。
三、下载并运行模型
打开模型库:https://ollama.com/library
![图片[6]-Ollama本地化部署-春枫博客](https://www.cfbk.top/wp-content/uploads/2026/06/d2b5ca33bd20260610155942-1024x512.png)
里面有几百个模型,点进去任意一个,比如 deepseek-r1,页面右上角会直接给你下载命令。模型名冒号后面是参数规模,比如 deepseek-r1:1.5b 就是 1.5B 版本。
[图片:deepseek-r1 模型详情页,右上角的命令和左侧的版本下拉框]
回到命令行,执行:
ollama run deepseek-r1:1.5b
本地没有这个模型时,run 会先自动下载再运行。下载支持断点续传,中断了重新执行就接着下。
![图片[7]-Ollama本地化部署-春枫博客](https://www.cfbk.top/wp-content/uploads/2026/06/d2b5ca33bd20260610160009.png)
下载完会出现 >>> 提示符,这时候就可以直接打字对话了:
>>> 你好,介绍一下你自己
![图片[8]-Ollama本地化部署-春枫博客](https://www.cfbk.top/wp-content/uploads/2026/06/d2b5ca33bd20260610160103.png)
聊完输入 /bye 退出。
如果只想下载不想立刻对话,用 pull:
ollama pull qwen:7b
四、常用命令
记住这几个就够日常用了:
ollama list 查看本地装了哪些模型
ollama run xxx 运行某个模型
ollama pull xxx 只下载
ollama rm xxx 删除模型
ollama ps 看哪些模型正在跑
![图片[9]-Ollama本地化部署-春枫博客](https://www.cfbk.top/wp-content/uploads/2026/06/d2b5ca33bd20260610160226.png)
更新 Ollama 本体:Mac/Linux 重新跑一遍安装脚本,Windows 下新安装包覆盖装。
五、用 API 调用
命令行聊天只是开胃菜,Ollama 真正常用的方式是当成本地 API 服务。它装好后默认监听 11434 端口。
直接 curl 测一下:
curl http://localhost:11434/api/generate -d '{
"model": "deepseek-r1:1.5b",
"prompt": "用一句话解释什么是大语言模型",
"stream": false
}'
它还兼容 OpenAI 的接口格式,意味着你原来调 OpenAI 的代码,把地址改成本地就能直接用:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama", # 随便填,本地不校验
)
resp = client.chat.completions.create(
model="deepseek-r1:1.5b",
messages=[{"role": "user", "content": "你好"}],
)
print(resp.choices[0].message.content)
七、踩坑记录
下载特别慢:模型源在国外,国内网络速度看运气。好在支持断点续传,慢慢下总能下完。先下小模型探探路。
爆显存 / 卡死:换小一号的模型。7B 跑不动就上 1.5B,别硬扛。
模型文件存在哪:Windows 在 C:\Users\你的用户名\.ollama\models,Mac/Linux 在 ~/.ollama/models。C 盘不够的话,设置环境变量 OLLAMA_MODELS 指到别的盘,重启服务生效。
想让局域网里其他设备访问:设环境变量 OLLAMA_HOST=0.0.0.0 然后重启服务,别的设备访问 http://你的IP:11434 就行。注意只在内网用,别暴露到公网。
到这里整个流程就跑通了。后面想玩进阶的,可以研究 Modelfile 自定义模型、导入 Hugging Face 上的 GGUF 文件,或者拿它配合 LangChain 搭知识库,这些等后面有空再写。














暂无评论内容