用 Ollama 在本地跑大模型：隐私场景下的可行方案

踱鸽&水晶蟹2025-05-152026-04-28

用 Ollama 在本地跑大模型：隐私场景下的可行方案

为什么要在本地跑

有一类场景，把代码发给云端 API 让我不放心：公司项目的核心业务逻辑、还没上线的功能代码、包含内部命名约定的配置文件。

不是公司有明确规定不让用，而是把这些东西发给外部 API，总是有些说不清楚的顾虑。Ollama 解决的就是这个场景：模型跑在本地，数据不出局域网。

另外一个使用场景：有时候想随手问个简单问题（比如 SQL 怎么写），但 API 计费或者要开梯子，懒得切。本地模型的代价是响应慢一点，但「随时可用、不联网」这个特性有时候比速度更重要。

三步跑起来

第一步：安装 Ollama

# macOS
brew install ollama

# Windows / Linux：直接下载安装包
# https://ollama.ai/download

安装完成后，Ollama 会在后台启动一个本地服务，默认监听 http://localhost:11434。

第二步：拉取模型

# 推理能力较强，7B 参数，约 4.7GB
ollama pull deepseek-r1:7b

# 轻量快速，约 2GB，适合代码补全
ollama pull llama3.2:3b

# 查看已下载的模型
ollama list

# 命令行直接对话
ollama run deepseek-r1:7b

第三步：接入本地工具

三种接入方式：

命令行对话：直接 ollama run <model>，适合临时问一次性问题
Open WebUI（推荐）：网页界面，和 ChatGPT 类似的交互体验

docker run -d -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main
# 打开 http://localhost:3000

IDEA / VSCode 插件：安装 Continue 插件，配置 Ollama 作为 provider，代码补全体验类似 Copilot

// Continue 插件配置（~/.continue/config.json）
{
  "models": [{
    "title": "Deepseek-r1 Local",
    "provider": "ollama",
    "model": "deepseek-r1:7b"
  }]
}

真实的性能感受

测试设备：MacBook Pro M3 Pro，18GB 内存。

模型	参数量	速度	实际体感
llama3.2:3b	3B	~45 token/s	几乎无等待感，适合代码补全
deepseek-r1:7b	7B	~18 token/s	回复一段话需要 5-10 秒，可接受
deepseek-r1:14b	14B	~8 token/s	明显有等待，适合不追求速度的场景

Windows 上有独立显卡（8GB+ 显存）的话，速度会更快，Ollama 会自动调用 GPU 加速。普通办公本（无独显）的话，推荐只跑 3B～7B 参数的模型。

什么时候本地够用，什么时候还是要用云端

本地模型够用的场景：

代码解释（看不懂的方法，贴进去让它解释）
SQL 草稿生成（简单聚合查询）
涉及内部代码的辅助分析（不想发给外部 API）
随手问不重要的技术问题

还是要用云端的场景：

复杂推理和多步骤分析（本地小模型效果明显不如 GPT-4 级别）
多文件联动上下文理解（Cursor 这类工具需要云端模型支撑）
长上下文处理（几千行代码的重构建议）

一句话结论：Ollama 是「不想联网时的够用方案」，不是云端 API 的完全替代品。 日常用云端，涉密代码用本地，两者结合着用是现阶段比较实际的策略。