用 Ollama 在本地跑大模型:隐私场景下的可行方案

AI-摘要
踱鸽 GPT
AI初始化中...
介绍自己 🙈
生成本文简介 👋
推荐相关文章 📖
前往主页 🏠
前往爱发电购买
用 Ollama 在本地跑大模型:隐私场景下的可行方案
踱鸽&水晶蟹用 Ollama 在本地跑大模型:隐私场景下的可行方案
为什么要在本地跑
有一类场景,把代码发给云端 API 让我不放心:公司项目的核心业务逻辑、还没上线的功能代码、包含内部命名约定的配置文件。
不是公司有明确规定不让用,而是把这些东西发给外部 API,总是有些说不清楚的顾虑。Ollama 解决的就是这个场景:模型跑在本地,数据不出局域网。
另外一个使用场景:有时候想随手问个简单问题(比如 SQL 怎么写),但 API 计费或者要开梯子,懒得切。本地模型的代价是响应慢一点,但「随时可用、不联网」这个特性有时候比速度更重要。
三步跑起来
第一步:安装 Ollama
|
安装完成后,Ollama 会在后台启动一个本地服务,默认监听 http://localhost:11434。
第二步:拉取模型
|
第三步:接入本地工具
三种接入方式:
命令行对话:直接
ollama run <model>,适合临时问一次性问题Open WebUI(推荐):网页界面,和 ChatGPT 类似的交互体验
|
- IDEA / VSCode 插件:安装
Continue插件,配置 Ollama 作为 provider,代码补全体验类似 Copilot
|
真实的性能感受
测试设备:MacBook Pro M3 Pro,18GB 内存。
| 模型 | 参数量 | 速度 | 实际体感 |
|---|---|---|---|
| llama3.2:3b | 3B | ~45 token/s | 几乎无等待感,适合代码补全 |
| deepseek-r1:7b | 7B | ~18 token/s | 回复一段话需要 5-10 秒,可接受 |
| deepseek-r1:14b | 14B | ~8 token/s | 明显有等待,适合不追求速度的场景 |
Windows 上有独立显卡(8GB+ 显存)的话,速度会更快,Ollama 会自动调用 GPU 加速。普通办公本(无独显)的话,推荐只跑 3B~7B 参数的模型。
什么时候本地够用,什么时候还是要用云端
本地模型够用的场景:
- 代码解释(看不懂的方法,贴进去让它解释)
- SQL 草稿生成(简单聚合查询)
- 涉及内部代码的辅助分析(不想发给外部 API)
- 随手问不重要的技术问题
还是要用云端的场景:
- 复杂推理和多步骤分析(本地小模型效果明显不如 GPT-4 级别)
- 多文件联动上下文理解(Cursor 这类工具需要云端模型支撑)
- 长上下文处理(几千行代码的重构建议)
一句话结论:Ollama 是「不想联网时的够用方案」,不是云端 API 的完全替代品。 日常用云端,涉密代码用本地,两者结合着用是现阶段比较实际的策略。
评论
匿名评论隐私政策
