Ollama本地化部署-春枫博客

最近不少人想在自己电脑上跑大模型,绕不开 Ollama。这篇就把从安装到能用,完整走一遍。

开始前先把一个概念说清楚:Ollama 不是模型,它是用来跑模型的工具。 模型是 Llama、Qwen、DeepSeek 这些,Ollama 负责帮你下载、管理、运行它们。就像迅雷不是电影,播放器不是电影,Ollama 也不是模型。后面别搞混了。

为什么用它?三个原因:

装起来简单,一条命令就能拉模型
全程本地运行,数据不出你的电脑
自带 API,想接到自己程序里也方便

一、看看你的电脑能跑什么

先别急着装,看下配置。模型越大,要的显存/内存越多:

1.5B 的模型:量化后 1~2G 显存,啥电脑基本都能跑
7B~8B:5~8G 显存,RTX 3060 这种主流卡没问题
14B:10G 以上,4070 / 3090 这个级别
32B 往上:20G+,4090 或者大内存的 Mac

没独立显卡也能跑,走 CPU + 内存,就是慢一点。内存最少 8G,跑 7B 建议 16G 起。Mac 的 M 系列芯片表现不错,统一内存的优势在这里很明显。

新手建议直接从 1.5B 或 7B 起步,先跑通再说。

二、安装

Windows

去官网下载页:https://ollama.com/download

下载 Windows 安装包,双击,一路下一步。

要安装一会

装完它会在后台自动运行，他会直接弹出应用或者，在右下角托盘能看到一个小羊驼图标。

按 Win + R,输入 cmd 回车,打开命令行,输入:

ollama --version

能显示版本号就是装好了。

[图片:命令行显示版本号]

macOS

官网下 dmg,拖进应用程序文件夹。或者用 Homebrew:

brew install ollama

Linux

一条命令:

curl -fsSL https://ollama.com/install.sh | sh

[图片:Linux 安装脚本执行过程]

脚本会自动识别系统、配置 systemd 开机自启,Ubuntu、Debian、CentOS 都支持。有 N 卡的话会自动配好 CUDA,A 卡需要先装 ROCm 驱动。

装完同样用 ollama --version 验证一下。如果服务没起来,手动跑一下 ollama serve。

三、下载并运行模型

打开模型库:https://ollama.com/library

里面有几百个模型,点进去任意一个,比如 deepseek-r1,页面右上角会直接给你下载命令。模型名冒号后面是参数规模,比如 deepseek-r1:1.5b 就是 1.5B 版本。

[图片:deepseek-r1 模型详情页,右上角的命令和左侧的版本下拉框]

回到命令行,执行:

ollama run deepseek-r1:1.5b

本地没有这个模型时,run 会先自动下载再运行。下载支持断点续传,中断了重新执行就接着下。

下载完会出现 >>> 提示符,这时候就可以直接打字对话了:

>>> 你好,介绍一下你自己

聊完输入 /bye 退出。

如果只想下载不想立刻对话,用 pull:

ollama pull qwen:7b

四、常用命令

记住这几个就够日常用了:

ollama list          查看本地装了哪些模型
ollama run xxx       运行某个模型
ollama pull xxx      只下载
ollama rm xxx        删除模型
ollama ps            看哪些模型正在跑

更新 Ollama 本体:Mac/Linux 重新跑一遍安装脚本,Windows 下新安装包覆盖装。

五、用 API 调用

命令行聊天只是开胃菜,Ollama 真正常用的方式是当成本地 API 服务。它装好后默认监听 11434 端口。

直接 curl 测一下:

curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:1.5b",
  "prompt": "用一句话解释什么是大语言模型",
  "stream": false
}'

它还兼容 OpenAI 的接口格式,意味着你原来调 OpenAI 的代码,把地址改成本地就能直接用:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # 随便填,本地不校验
)

resp = client.chat.completions.create(
    model="deepseek-r1:1.5b",
    messages=[{"role": "user", "content": "你好"}],
)
print(resp.choices[0].message.content)