为什么要本地部署大模型?
从一张病历说起
前面几篇 RAG 的文章里,咱们的代码一直是一个套路:OkHttp 构造 HTTPS 请求,打到 SiliconFlow 的 /v1/chat/completions,拿回模型的回答。调用链短、上手快,写 Demo 很舒服。
直到某天你接了个新项目。
你在一家做医疗信息化的公司,客户是某三甲医院。需求是给医生做电子病历辅助录入和智能问诊助手 ,背后挂着医院十几年积累的病例库、临床路径、用药指南,外加实时查询 HIS 系统里的患者历史。你拿之前写好的 RAG 代码去做 PoC,效果不错,客户挺满意,顺利推到了方案评审。医院信息科的科长看了一眼架构图,问了一句:
你这个大模型接口,是打到阿里云还是腾讯云?病历数据出院内网了吗?
你愣了一下。
赶紧解释:只传了相关的检索片段,患者姓名、身份证号都做了替换。科长摆摆手:回去看一下等保三级的要求和《个人信息保护法》,患者的就诊记录、诊断结论、用药方案,就算脱敏过,只要涉及身份可识别的个人健康信息,都不能在这种场景下出院内网。
云端 API 再方便,也有撞墙的时候。墙那头是数据主权、合规红线、成本账单、离线环境——撞上任何一条,你都得面对同一个问题:把大模型挪到自己的机器上跑。
这就是本地部署。
这一篇不讲怎么装 Ollama,也不讲 vLLM 怎么调参,那些留给后面几篇。这一篇只想把三件事讲明白:
- 已经有了 Qwen、DeepSeek、OpenAI 这些云端 API,为什么有人还要自己本地部署?
- 本地部署的模型,到底从哪里来?
- 本地部署有哪些中间件,它们之间什么关系?
搞清楚这三件事,你再去装 Ollama、配 vLLM,心里才有数。
云端 API 这么方便,为什么还要自己部署
1. 先别急着本地化,云端 API 做对了什么
在说云端 API 的短板之前,我想先客观地把它的好处摆出来。因为我见过太多项目,一上来就喊着要自主可控,花几十万堆一堆 GPU,最后跑出来的效果还不如直接调 API。对大多数个人项目、初创团队、中小规模的 RAG 系统来说,云端 API 就是最优解,没有之一。
它好在哪里:
-
开箱即用:注册账号、充值、拿 API Key,十分钟就能跑通第一个 Chat 请求。你之前跟着系列文章走下来应该深有体会。
-
永远跑在最新最强的模型上:上周 DeepSeek 发了新版本,云厂商今天就上架了;你本地跑的 Qwen3 还没升完,别人已经在用 Qwen3.5 了。模型迭代速度这几年快到离谱,云 API 这一层永远是业界最前沿的工具箱。
-
按量付费,闲时零成本:项目没上线、流量没起来、还在 Demo 阶段,一个月花几十块、几百块就能把架子搭起来。本地部署一上来就是几万块一台的显卡,再加电费和运维,起步成本天差地别。
-
免运维:模型升级、硬件扩容、节点故障、负载均衡,都是云厂商的事。你只需要关心自己的业务代码。
-
弹性扩容:双 11 峰值过来了,云 API 后端自己扩;你本地部署面对突发流量,只能眼睁睁看着队列堆积。
这些优势摆在这里,意味着一件事:如果你的项目不满足后面要讲的那五类场景里的任何一类,就老老实实用云端 API,别折腾本地部署。本地部署不是炫技,更不要跟风,它是被业务诉求逼出来的选择。
如果本地跑模型,光硬件就是一笔大投入——一台能插多卡 GPU 的服务器,起步价就不便宜,而且后续想扩容,要么加卡要么加机器,预算是持续往上走的。硬件到位了,还有个容易忽略的问题:公司机房的供电和散热能不能扛住?如果园区断电没有 UPS 兜底,服务直接就挂了。要保障稳定运行,往往得把机器托管到 IDC 机房,光机柜租赁加带宽,一年就是好几万。
硬件成本 + 托管成本 + 日常运维(驱动升级、故障排查、散热维护),这些加起来,对绝大部分中小公司来说,本地跑模型的性价比其实很低。除非你有明确的数据合规要求或者超大规模的调用量能把硬件成本摊薄,否则直接用云端 API 几乎总是更务实的选择。
算一笔具体的账:生产和测试环境起码各一台 GPU 服务器,哪怕配置相同,华三的机器一台就要 10~13 万。拿 Qwen3.5-32B 举例,单机至少两张英伟达 L20 才能跑起来,一张卡大概 2.6~2.8 万,两套环境 4 张卡,小 10 万。服务器加显卡,里外里 30 万就没了——公司能不能靠这套东西挣回钱还不好说呢,硬件采购单得先签了。
而且 32B 的模型也就够跑跑内部服务。但凡业务上点强度——面向客户的对话、复杂的多步推理——起码得上 70B 甚至更大的模型,显卡数量翻倍、服务器规格升档,费用更是成倍往上走。