用 Ollama 在本地跑大模型:隐私场景下的可行方案

用 Ollama 在本地跑大模型:隐私场景下的可行方案

为什么要在本地跑

有一类场景,把代码发给云端 API 让我不放心:公司项目的核心业务逻辑、还没上线的功能代码、包含内部命名约定的配置文件。

不是公司有明确规定不让用,而是把这些东西发给外部 API,总是有些说不清楚的顾虑。Ollama 解决的就是这个场景:模型跑在本地,数据不出局域网。

另外一个使用场景:有时候想随手问个简单问题(比如 SQL 怎么写),但 API 计费或者要开梯子,懒得切。本地模型的代价是响应慢一点,但「随时可用、不联网」这个特性有时候比速度更重要。

三步跑起来

第一步:安装 Ollama

# macOS
brew install ollama

# Windows / Linux:直接下载安装包
# https://ollama.ai/download

安装完成后,Ollama 会在后台启动一个本地服务,默认监听 http://localhost:11434

第二步:拉取模型

# 推理能力较强,7B 参数,约 4.7GB
ollama pull deepseek-r1:7b

# 轻量快速,约 2GB,适合代码补全
ollama pull llama3.2:3b

# 查看已下载的模型
ollama list

# 命令行直接对话
ollama run deepseek-r1:7b

第三步:接入本地工具

三种接入方式:

  1. 命令行对话:直接 ollama run <model>,适合临时问一次性问题

  2. Open WebUI(推荐):网页界面,和 ChatGPT 类似的交互体验

docker run -d -p 3000:8080 \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
--name open-webui \
ghcr.io/open-webui/open-webui:main
# 打开 http://localhost:3000
  1. IDEA / VSCode 插件:安装 Continue 插件,配置 Ollama 作为 provider,代码补全体验类似 Copilot
// Continue 插件配置(~/.continue/config.json)
{
"models": [{
"title": "Deepseek-r1 Local",
"provider": "ollama",
"model": "deepseek-r1:7b"
}]
}

真实的性能感受

测试设备:MacBook Pro M3 Pro,18GB 内存。

模型参数量速度实际体感
llama3.2:3b3B~45 token/s几乎无等待感,适合代码补全
deepseek-r1:7b7B~18 token/s回复一段话需要 5-10 秒,可接受
deepseek-r1:14b14B~8 token/s明显有等待,适合不追求速度的场景

Windows 上有独立显卡(8GB+ 显存)的话,速度会更快,Ollama 会自动调用 GPU 加速。普通办公本(无独显)的话,推荐只跑 3B~7B 参数的模型。

什么时候本地够用,什么时候还是要用云端

本地模型够用的场景:

  • 代码解释(看不懂的方法,贴进去让它解释)
  • SQL 草稿生成(简单聚合查询)
  • 涉及内部代码的辅助分析(不想发给外部 API)
  • 随手问不重要的技术问题

还是要用云端的场景:

  • 复杂推理和多步骤分析(本地小模型效果明显不如 GPT-4 级别)
  • 多文件联动上下文理解(Cursor 这类工具需要云端模型支撑)
  • 长上下文处理(几千行代码的重构建议)

一句话结论:Ollama 是「不想联网时的够用方案」,不是云端 API 的完全替代品。 日常用云端,涉密代码用本地,两者结合着用是现阶段比较实际的策略。