多轮对话为什么会失忆?记忆设计
作者:程序员马丁
Ragent AI —— 从 0 到 1 纯手工打造企业级 Agentic RAG,拒绝 Demo 玩具!AI 时代,助你拿个offer。
到这里,RAG 系列的核心链路已经全部打通了:数据分块 → 元数据管理 → 向量化 → 向量数据库 → 检索策略 → 生成策略 → Function Call → MCP 协议。从数据准备到检索生成,再到工具调用,一条完整的链路。
但你把这套系统上线之后,用户很快就会给你提一个 bug:你们这个 AI 是不是没有记忆?
场景是这样的:用户问“iPhone 16 Pro 的退货政策是什么”,系统检索知识库,找到退货政策的 chunk,回答得很好。用户满意了,紧接着追问“那它的保修期呢”。
然后系统的回答画风突变:
请问您想了解哪款产品的保修期呢?请提供具体的产品名称,我帮您查询。
用户心想:我刚才不是说了 iPhone 16 Pro 吗?你怎么就忘了?
这不是 bug,这是你的 RAG 系统“失忆”了。每次用户提问,系统都是从零开始——不知道之前聊了什么,不知道“它”指的是什么。对用户来说,这种体验就像跟一个每隔 30 秒就失忆的人聊天,每句话都要把前因后果重新说一遍。

这一篇咱们就来聊聊怎么给 RAG 系统装上记忆——会话记忆(Conversation Memory)。
大模型的记忆真相:每次请求都是失忆的
1. 一个常见的误解
很多人用过 ChatGPT、Kimi 这些产品,觉得大模型天生就能记住对话内容。你跟它聊了十几轮,它还记得第一轮你说了什么,感觉像是在跟一个有记忆的智能体对话。
但实际上,大模型 API 的每次请求都是完全独立的。模型不会保存任何对话状态——它没有上一轮对话的概念,没有这个用户之前问过什么的记忆,甚至不知道你是谁。
打个比方:大模型就像一个极其聪明但患有严重失忆症的专家。每次你找他,他都不记得你之前来过。你得把之前聊过的内容全部重新说一遍,他才能接着聊。
那 ChatGPT 网页上的记忆是怎么实现的?答案很简单——把你之前所有的对话历史全部塞进了 messages 数组,每次请求都重新发给 API。模型看到了完整的对话历史,所以显得有记忆,实际上每次都是从头看一遍。
2. messages 数组就是记忆的全部
回顾一下之前模型调用 API 那篇讲过的 messages 数组结构。
单轮对话——只有系统指令和用户消息:
{
"messages": [
{"role": "system", "content": "你是一个电商客服助手"},
{"role": "user", "content": "iPhone 16 Pro 的退货政策是什么?"}
]
}
多轮对话——每次请求都要带上之前所有的 user 和 assistant 消息:
{
"messages": [
{"role": "system", "content": "你是一个电商客服助手"},
{"role": "user", "content": "iPhone 16 Pro 的退货政策是什么?"},
{"role": "assistant", "content": "iPhone 16 Pro 因屏幕定制工艺,拆封后不支持七天无理由退货..."},
{"role": "user", "content": "那它的保修期呢?"}
]
}
看到区别了吗?第二轮请求的 messages 里包含了第一轮的 user 消息和 assistant 回复。模型看到了“iPhone 16 Pro 的退货政策是什么”和对应的回答,所以它知道“它”指的是 iPhone 16 Pro。
如果你第二轮请求只发了这样的 messages:
{
"messages": [
{"role": "system", "content": "你是一个电商客服助手"},
{"role": "user", "content": "那它的保修期呢?"}
]
}
模型看到的就是一个莫名其妙的问题——“它”是什么?保修期是什么产品的?所以它只能反问你“请问您想了解哪款产品的保修期”。
一句话概括:大模型没有记忆。所谓的记忆,就是你把对话历史塞进 messages 数组重新发送。记忆的管理不在模型侧,完全在你的代码侧。
3. Token 膨胀:记忆越多,成本越高
既然记忆就是把历史消息塞 进 messages,那最简单的做法就是——全部塞进去呗。用户聊了 10 轮,就把 10 轮的 user + assistant 消息全带上。
听起来很合理,但实际跑起来会遇到一个严重的问题:Token 膨胀。
用一个具体的例子算一下。假设电商客服场景,每轮对话大约的 Token 消耗:
| 轮次 | 用户消息 | 助手回复 | 单轮 Token | 累计历史 Token |
|---|---|---|---|---|
| 第 1 轮 | 30 Token | 200 Token | 230 | 230 |
| 第 2 轮 | 20 Token | 150 Token | 170 | 400 |
| 第 3 轮 | 40 Token | 250 Token | 290 | 690 |
| 第 5 轮 | ... | ... | ... | ~1,200 |
| 第 10 轮 | ... | ... | ... | ~2,500 |
| 第 20 轮 | ... | ... | ... | ~5,000 |
这还只是对话历史。别忘了,RAG 系统每次请求还要带上:
- System Prompt:500~1,000 Token(角色定义、行为规则、兜底指令等)
- 检索上下文:2,000~5,000 Token(Top-K chunk 的内容)
- 预留生成空间:500~2,000 Token(模型回答需要的空间)
把这些加起来:
第 10 轮总 Token ≈ 1,000(System)+ 2,500(历史)+ 3,000(检索)+ 1,000(生成)= 7,500 Token
第 20 轮 总 Token ≈ 1,000(System)+ 5,000(历史)+ 3,000(检索)+ 1,000(生成)= 10,000 Token
如果用户聊了 50 轮(比如一个复杂的售后问题来回沟通),光对话历史就可能超过 10,000 Token。加上其他部分,总 Token 轻松突破 15,000~20,000。
这会带来两个问题:
- 超出上下文窗口:有些模型的上下文窗口只有 4K 或 8K Token,塞不下这么多内容,请求直接报错
- 费用飙升:即使模型支持 32K 或 128K 的上下文窗口,Token 越多费用越高。每轮对话都带着完整历史,相当于每次都在为重复发送旧消息付费
所以,会话记忆的核心问题不是要不要记住历史,而是怎么在有限的 Token 预算内,尽可能多地保留有用的历史信息。
会话记忆的五种策略
1. 完整历史(Full History)
最简单粗暴的策略:把所有对话历史全部塞进 messages 数组,一条不丢。
// 完整历史策略:每次请求带上所有历史消息
List<Message> messages = new ArrayList<>();
messages.add(new Message("system", systemPrompt));
messages.addAll(conversationHistory); // 全部历史消息
messages.add(new Message("user", currentQuestion));
这个策略的优点很明显——信息零丢失,模型能看到整个对话过程中的每一句话。
但缺点前面已经算过了:Token 无限膨胀。对话轮数越多,成本越高,最终要么超出上下文窗口,要么费用不可接受。
适用场景:对话轮数确定不超过 5 轮的简单场景,比如一问一答的 FAQ 查询。如果你能确保对话不会太长,用完整历史策略最省心。