Skip to main content

Ollama安装与模型调用实战

概念讲完了,这篇动手

上一篇把 Ollama 的架构、API、环境变量、硬件调度这些概念全部拆开讲了一遍。这一篇只做一件事:装 Ollama,拉模型,改 Ragent 配置,让整条 RAG 链路跑在本地。

读完本篇之后的状态是:Ragent 的 Chat 和 Embedding 都打到 localhost:11434,断网也能问答,在活动监视器里能看到 Ollama 进程在吃显存。全程不写一行 Java 代码——Ragent 的 provider 可插拔架构帮你扛了,你只需要改两行 YAML。

装 Ollama:三平台快速起步

1. macOS

两种方式选一种:

Homebrew 安装:

brew install ollama

官网安装:

ollama.com 下载 macOS 安装包(dmg),双击安装。

装完之后,Ollama 桌面应用会自动启动,状态栏会出现一个羊驼图标,ollama serve 已经在后台跑了。

2. Windows

同上,官网下载安装包双击安装就行。装完 Ollama 会以后台服务形式运行,后续命令在 PowerShell 里都能用。

3. Linux

官方提供了一键安装脚本:

curl -fsSL https://ollama.com/install.sh | sh

这个脚本会做三件事:下载 Ollama 二进制文件、创建 ollama 系统用户、自动注册 systemd 服务并启动。

装完用 systemctl 查看状态:

sudo systemctl status ollama

看到 active (running) 就说明服务已经在跑了。

环境变量怎么改?

Linux 上 Ollama 作为 systemd 服务运行,环境变量不能直接 export,要通过 systemctl edit 来覆盖:

sudo systemctl edit ollama

在打开的编辑器里添加:

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

保存后重启服务:

sudo systemctl daemon-reload
sudo systemctl restart ollama

上面这个例子把监听地址从默认的 127.0.0.1 改成了 0.0.0.0,允许局域网内其他机器访问。这是一个很典型的场景:团队里一台 GPU 服务器装了 Ollama,其他同事的开发机通过内网 IP 调用。

4. 验证装好了

三个平台通用的验证步骤:

# 看版本
ollama --version

应该输出类似 ollama version 0.18.x 的版本号。

# 看服务是否在跑
curl http://localhost:11434

返回 Ollama is running 就说明 ollama serve 正常启动了。

# 看本地模型列表
ollama list

刚装完应该是空的,后面拉了模型就会有记录。

Ollama Models 介绍

装好 Ollama 之后,下一步是挑模型。Ollama 官方维护了一个模型库(ollama.com/search),收录了主流的开源模型,可以直接 ollama pull 拉取。在拉模型之前,先了解一下模型库里的信息怎么看,后面挑 tag 的时候心里才有数。

1. 模型概览页

qwen3.5 为例,打开它的模型页面能看到这些关键信息:

几个值得关注的点:

  • 下载量:5M Downloads,说明这个模型系列在 Ollama 社区的使用量很大,稳定性和兼容性有保障。
  • 能力标签vision(图像理解)、tools(工具调用 / Function Call)、thinking(深度思考 / CoT)、cloud(云端版本)。这些标签直接告诉你模型支持哪些能力,不用去翻论文。
  • 规格标签0.8b2b4b9b27b35b122b——同一个模型系列提供了从不到 10 亿到 1220 亿参数的多种规格,按你的显存大小挑。
  • 调用方式:页面上直接给出了 CLI、cURL、Python、JavaScript 四种调用方式的命令。CLI 方式就是 ollama run qwen3.5,一行命令直接跑。
  • Applications:列出了兼容的应用,比如 Claude Code、Codex、OpenCode、OpenClaw 等,可以通过 ollama launch 命令直接启动这些应用并指定模型。

2. 模型规格列表

往下翻到 Models 区域,能看到这个模型系列所有可用的 tag:

这张表是挑模型 tag 的核心参考:

名称大小上下文窗口输入类型
qwen3.5:latest6.6GB256KText, Image
qwen3.5:0.8b1.0GB256KText, Image
qwen3.5:2b2.7GB256KText, Image
qwen3.5:4b3.4GB256KText, Image
qwen3.5:9b(latest)6.6GB256KText, Image
qwen3.5:27b17GB256KText, Image
qwen3.5:35b24GB256KText, Image
qwen3.5:122b81GB256KText, Image
qwen3.5:cloud-256KText, Image
qwen3.5:397b-cloud-256KText, Image

几个要点:

  • latest 指向 9b:直接 ollama run qwen3.5 拉的就是 9b 规格,6.6GB。大多数模型的 latest 都是一个中等偏小的规格,不会一上来就给你拉个几十 GB 的大家伙。
  • Size 列是磁盘占用:这个大小是量化后的体积。比如 9b 只有 6.6GB 而不是 fp16 的 ~18GB,说明默认 tag 用的是量化版(通常是 Q4_K_M)。加载到显存后的实际占用会略大一些,但量级差不多。
  • 全系列支持 256K 上下文:Qwen3.5 全系列都有 256K 的上下文窗口,但实际能用多长取决于你的显存——上下文越长,KV Cache 占用越大。
  • 全系列支持多模态输入:Text + Image,意味着这些模型既能处理文本也能理解图片。
  • cloud 版本:Size 显示 -,说明这不是本地模型,而是通过 Ollama 调用云端 API。适合显存不够但想体验大参数模型效果的场景。

3. 具体 tag 的详情页

解锁付费内容,👉 戳