程序员离AI工程师有多远?
作者:程序员马丁
Ragent AI —— 从 0 到 1 纯手工打造企业级 Agentic RAG,拒绝 Demo 玩具!AI 时代,助你拿个offer。
写这篇文档的目的,是帮大家建立一个清晰的 AI 学习认知框架——知道学什么、怎么学、以及现在不需要学什么。别被营销号贩卖的焦虑带偏节奏。
说到底, 学 AI 应用开发和当年学 Java 后端没有本质区别——都是理解核心概念、熟悉技术栈、然后在项目中反复练。如果你已经有后端工程基础,上手甚至会比预期更快。
本文为马哥整理的 v1 版本(截至 2026/4/10)。AI 领域技术演进很快,后续会根据新的技术变化更新 v2 版本。
从本月起,https://github.com/nageoffer/awesome-ai-handbook 正式推出 AI Agent 面试题解析内容,全面发力 AI 赛道,助力求职者把握前沿技术机会。
一、先搞清一个问题——AI 工程师不等于算法工程师
很多程序员一听到 AI,脑子里蹦出来的第一个画面就是:数学公式、论文、训练模型、调损失函数。然后立刻劝退自己——算了,我数学不行。
这是对 AI 工程师最大的误解。
说白了,AI 领域有两种完全不同的角色:
- AI 算法工程师:研究模型架构、训练模型、优化模型效果。这批人确实需要扎实的数学功底、机器学习理论、深度学习经验。他们干的事情是造引擎。
- AI 应用工程师(也就是本文说的 AI 工程师,业界也常称 Agent 工程师):基于现有的大模型,构建 AI 驱动的应用和系统。需要的是工程能力加上 AI 应用层的知识。他们干的事情是造汽车。
你不需要会造数据库引擎才能用 MySQL 建系统,同样,你 不需要会训练 GPT 才能用大模型构建应用。
行业现在最缺的不是能训练模型的人——那是大厂 AI Lab 和模型公司的事。最缺的是能把模型用好、把 AI 能力落地成产品的人。而这恰恰是程序员最擅长的事。
以阿里巴巴举例,AI Agent 工程师的招聘要求:在后端工程师基础上,加了部分 AI 能力。如果你做过 1-2 个有深度的 RAG、Agent 项目,基本上都能涵盖到对应的技术栈。


本文的目标:给你一张 AI 技术领域的全景地图,加一条可执行的学习路线。看完之后,你应该清楚——有哪些东西、它们之间什么关系、先学什么后学什么、什么暂时不用碰。
二、AI 技术全景图——一张图建立全局认知
AI 技术体系的概念很多,但它们不是散的——有清晰的分层结构。就像后端技术栈有数据库层、缓存层、服务层、网关层一样,AI 技术栈也是一层一层搭上去的。
先看全景图,建立一个整体印象,后面再逐层解释。
1. 全景架构图

2. 逐层解读
2.1 第一层:模型层(基座层)—— 🔬 算法工程师领地
这一层是整个 AI 技术栈的地基。所有上层能力都建立在大模型之上。
几个关键概念快速定位:
模型类型
- LLM(大语言模型):能理解和生成自然语言的模型,比如 GPT、Claude、DeepSeek,是当前 AI 应用的核心引擎
- Embedding Model(嵌入模型):把文本转成向量(一串数字),用于语义搜索和相似度计算,后面讲 RAG 时会用到
- 多模态模型:常规 LLM 只能处理文本,多模态模型还能处理图片、音频、视频等
模型获取方式
- 开源模型 vs 闭源模型:DeepSeek、Qwen、LLaMA 等可以下载到本地部署;GPT、Claude 等只能通过 API 调用。开源灵活可控,闭源在最前沿推理任务上通常仍有优势,但差距在快速缩小,各有适用场景
训练相关
- Pre-training(预训练):用海量数据从零训练一个模型,烧钱烧卡,通常只有大厂或者模型厂干得起
- Fine-tuning(微调):在已有模型基础上,用少量特定数据做二次训练,让模型更适应某个领域或任务 (比如医疗、法律)
- RLHF(人类反馈强化学习):通过人类标注偏好来训练模型,让输出更安全、更符合人类期望
效率与压缩
- MoE(混合专家架构):模型内部包含多组专家子网络,每次推理只激活其中一部分。总参数量很大,但单次计算量小,兼顾能力与效率。DeepSeek-V3、Qwen3.6 等很多模型就采用了这种架构
- LoRA / QLoRA:低成本微调技术,只训练少量新增参数而非全部模型参数,大幅降低显存和算力需求
- 知识蒸馏(Distillation):让小模型学习大模型的输出行为,从而把大模型的能力压缩到小模型里
- 量化(Quantization):降低模型参数的数值精度(如从 16 位降到 4 位),减少显存占用,代价是可能略损效果
底层架构
- Transformer:当前几乎所有大模型的底层架构,核心是注意力机制(Attention),使模型能捕捉文本中的长距离依赖关系
- Tokenizer(分词器):把文本切分成模型能处理的最小单元(Token)。不同模型的 Tokenizer 不同,同一段文本的 Token 数会有差异。可以用 OpenAI 官方的 Tokenizer 工具 直接查看任意文本的 Token 数
💡对程序员来说,这一层的定位是:知道有什么模型、参数规模以及怎么选就够了。不需要深入训练原理和模型架构。就像你用 MySQL 不需要看 InnoDB 源码一样。