程序员如何成长为 AI 工程师
作者:程序员马丁
Ragent AI —— 从 0 到 1 纯手工打造企业级 Agentic RAG,拒绝 Demo 玩具!AI 时代,助你拿个offer。
写这篇文档的目的,是帮大家建立一个清晰的 AI 学习认知框架——知道学什么、怎么学、以及现在不需要学什么。别被营销号贩卖的焦虑带偏节奏。
说到底,学 AI 应用开发和当年学 Java 后端没有本质区别——都是理解核心概念、熟悉技 术栈、然后在项目中反复练。如果你已经有后端工程基础,上手甚至会比预期更快。
本文为马哥整理的 v1 版本(截至 2026/4/10)。AI 领域技术演进很快,后续会根据新的技术变化更新 v2 版本。
从本月起,https://github.com/nageoffer/awesome-ai-handbook 正式推出 AI Agent 面试题解析内容,全面发力 AI 赛道,助力求职者把握前沿技术机会。
一、先搞清一个问题——AI 工程师不等于算法工程师
很多程序员一听到 AI,脑子里蹦出来的第一个画面就是:数学公式、论文、训练模型、调损失函数。然后立刻劝退自己——算了,我数学不行。
这是对 AI 工程师最大的误解。
说白了,AI 领域有两种完全不同的角色:
- AI 算法工程师:研究模型架构、训练模型、优化模型效果。这批人确实需要扎实的数学功底、机器学习理论、深度学习经验。他们干的事情是造引擎。
- AI 应用工程师(也就是本文说的 AI 工程师,业界也常称 Agent 工程师):基于现有的大模型,构建 AI 驱动的应用和系统。需要的是工程能力加上 AI 应用层的知识。他们干的事情是造汽车。
你不需要会造数据库引擎才能用 MySQL 建系统,同样,你不需要会训练 GPT 才能用大模型构建应用。
行业现在最缺的不是能训练模型的人——那是大厂 AI Lab 和模型公司的事。最缺的是能把模型用好、把 AI 能力落地成产品的人。而这恰恰是程序员最擅长的事。
以阿里巴巴举例,AI Agent 工程师的招聘要求:在后端工程师基础上,加了部分 AI 能力。如果你做过 1-2 个有深度的 RAG、Agent 项目,基本上都能涵盖到对应的技术栈。


本文的目标:给你一张 AI 技术领域的全景地图,加一条可执行的学习路线。看完之后,你应该清楚——有哪些东西、它们之间什么关系、先学什么后学什么、什么暂时不用碰。
二、AI 技术全景图——一张图建立全局认知
AI 技术体系的概念很多,但它们不是散的——有清晰的分层结构。就像后端技术栈有数据库层、缓存层、服务层、网关层一样,AI 技术栈也是一层一层搭上去的。
先看全景图,建立一个整体印象,后面再逐层解释。
1. 全景架构图

2. 逐层解读
2.1 第一层:模型层(基座层)—— 🔬 算法工程师领地
这一层是整个 AI 技术栈的地基。所有上层能力都建立在大模型之上。
几个关键概念快速定位:
模型类型
- LLM(大语言模型):能理解和生成自然语言的模型,比如 GPT、Claude、DeepSeek,是当前 AI 应用的核心引擎
- Embedding Model(嵌入模型):把文本转成向量(一串数字),用于语义搜索和相似度计算,后面讲 RAG 时会用到
- 多模态模型:常规 LLM 只能处理文本,多模态模型还能处理图片、音频、视频等
模型获取方式
- 开源模型 vs 闭源模型:DeepSeek、Qwen、LLaMA 等可以下载到本地部署;GPT、Claude 等只能通过 API 调用。开源灵活可控,闭源在最前沿推理任务上通常仍有优势,但差距在快速缩小,各有适用场景
训练相关
- Pre-training(预训练):用海量数据从零训练一个模型,烧钱烧卡,通常只有大厂或者模型厂干得起
- Fine-tuning(微调):在已有模型基础上,用少量特定数据做二次训练,让模型更适应某个领域或任务(比如医疗、法律)
- RLHF(人类反馈强化学习):通过人类标 注偏好来训练模型,让输出更安全、更符合人类期望
效率与压缩
- MoE(混合专家架构):模型内部包含多组专家子网络,每次推理只激活其中一部分。总参数量很大,但单次计算量小,兼顾能力与效率。DeepSeek-V3、Qwen3.6 等很多模型就采用了这种架构
- LoRA / QLoRA:低成本微调技术,只训练少量新增参数而非全部模型参数,大幅降低显存和算力需求
- 知识蒸馏(Distillation):让小模型学习大模型的输出行为,从而把大模型的能力压缩到小模型里
- 量化(Quantization):降低模型参数的数值精度(如从 16 位降到 4 位),减少显存占用,代价是可能略损效果
底层架构
- Transformer:当前几乎所有大模型的底层架构,核心是注意力机制(Attention),使模型能捕捉文本中的长距离依赖关系
- Tokenizer(分词器):把文本切分成模型能处理的最小单元(Token)。不同模型的 Tokenizer 不同,同一段文本的 Token 数会有差异。可以用 OpenAI 官方的 Tokenizer 工具 直接查看任意文本的 Token 数
💡对程序员来说,这一层的定位是:知道有什么模型、参数规模以及怎么选就够了。不需要深入训练原理和模型架构。就像你用 MySQL 不需要看 InnoDB 源码一样。
2.2 第二层:模型接口与通信层—— ⭐ 程序员上手第一站
这一层解决的问题是:怎么跟模型对话。对程序员来说,大模型本质上就是一个 HTTP 服务——你发请求,它返回结果。这一层就是它的 API 和 SDK。
核心接口
- Chat Completion API:最核心的接口。你发送一组消息,模型返回下一条回复。每条消息都有角色标记:
system(系统设定,OpenAI 新版接口中新增了developer角色作为替代,但system仍可用)、user(用户输入)、assistant(模型回复),三种角色组成完整的对话上下文。几乎所有 AI 应用都建立在这个接口之上 - API 规范:目前主流两套——OpenAI 格式和 Anthropic 格式。国内大多数模型(DeepSeek、Qwen、智谱等)都兼容 OpenAI 格式,意味着切换模型往往只需改一下
base_url和API Key - Function Calling / Tool Use(函数调用):让模型在回答过程中调用工具——比如查数据库、调天气接口。模型并不真正执行代码,而是返回结构化的调用意图(调哪个函数、传什么参数),由你的程序去执行并把结果喂回模型。这是构建 Agent 的基础能力,后面会展开讲
关键参数与概念
- Token:模型处理文本的基本单位,由分词器(Tokenizer)决定切分方式。常见汉字通常 1 个 Token,生僻字可能更多,当然也有多个文字 1 个 Token 情况;英文大约 1 个单词 ≈ 1~3 个 Token。调用 API 按输入/输出 Token 分别计费(输出通常更贵),需关注用量以控制成本
- Context Window(上下文窗口)