目录

本地部署大模型太复杂?用 Ollama 一步到位(不再折腾)

适合开发者快速试验 LLaMA、Mistral、Gemma 等大模型

一直想在本地跑个大模型,比如 LLaMA、Mistral、Gemma 这类。但是以前试过 PyTorch + Transformers,那种装环境、调依赖、调 VRAM、还动不动爆显存的体验……说实话,普通人根本搞不动。

前段时间刷到一个叫 Ollama 的工具,说是可以“快速部署和运行大模型”,还支持 macOS、Windows、Linux,几分钟就能跑起来。我一开始也是半信半疑,结果一试真香。把我折腾了几天没部署好的 LLaMA2,用它不到 10 分钟就能跑起来,还带 API 接口。

这篇笔记就分享一下我自己的部署流程,不啰嗦、不玄学、能用、能跑

一句话:Ollama = 一键本地部署大模型的命令行工具 + 轻量模型管理器。

  • 你可以用一句命令下载并运行各种开源大模型(LLaMA2、Mistral、Gemma、Phi-3 等)
  • 不用手动配环境、不用折腾显卡驱动、不用去 huggingface 下权重
  • 自带 API 接口(你可以拿来对接网页、Bot、甚至 VSCode)
brew install ollama
curl -fsSL https://ollama.com/install.sh | sh

官网下载:https://ollama.com

✅ 安装完成后,你会得到一个 ollama 命令,可以在终端中运行。

例如运行 LLaMA2,只需要:

ollama run llama2

自动下载 + 安装 + 运行,无需繁琐配置。 也可以下载免安装版的 解压就可以

ollama 安装 下载绿色版 设置 环境OLLAMA_MODELS 为D:\Software\AI\ollama\model huihui_ai/deepseek-r1-abliterated:14b 6b2209ffd758 9.0 GB 6 hours ago huihui_ai/deepseek-r1-abliterated:32b fb53b3296912 19 GB 6 hours ago

pushd D:\Software\AI\ollama

set OLLAMA_HOST=192.168.11.100:11434 && ollama.exe serve set OLLAMA_HOST=192.168.11.100:11434 && ollama.exe run qwq:32b

运行时要设置环境变量。你机器ip。

模型名大小特点说明
llama27BMeta 开源大模型,支持中文
mistral7B开源性能超强,跑得很快
gemma2BGoogle 出品,轻量级
phi33.8B微软出的小而强的模型
codellama7B专门写代码用的 LLaMA
orca-mini3B微软精调小模型,适合嵌入设备
curl http://localhost:11434/api/generate -d '{
  "model": "llama2",
  "prompt": "中国的首都是哪里?"
}'

可集成网页、Bot、插件。

ollama run mistral
ollama list
ollama rm llama2
  • 默认 CPU 运行(够用),可选装 CUDA 支持 GPU 加速
  • 建议至少 8GB 内存(跑 7B 模型)
  • 模型格式为 gguf,与 llama.cpp 通用
  • 不建议装太多模型(容易爆硬盘)

相关内容