RAG 效果评估:别靠感觉用数据
作者:程序员马丁
note
Ragent AI —— 从 0 到 1 纯手工打造企业级 Agentic RAG,拒绝 Demo 玩具!AI 时代,助你拿个offer。
上一篇把意图识别和问题路由讲完之后,RAG 系统的各个环节已经全部串起来了:数据入库 → 向量化 → 检索 → 生成 → 工具调用 → 会话记忆 → Query 改写 → 意图识别。系统跑起来了,用户在用了,看着也挺好的。
但有个问题一直没回答——这个系统到底好不好?
你上周把 chunk size 从 512 改成了 1024,改完之后抽了 10 个问题问了一下,感觉回答质量还行。但还行到底有多好?有没有其他问题因为这次修改变差了?你不知道。
你前天换了一个新的 Embedding 模型,换完之后试了几个问题,检索结果看着不错。但看着不错和真的不错之间差着一个评估体系。
你昨天调了 Prompt,加了一条“请基于检索到的内容回答,不要编造信息”。加完之后幻觉是不是真的减少了?减少了多少?你还是不知道。
没有评估,优化就是盲人摸象。改了 Prompt 不知道效果变好还是变差,换了模型不知道值不值,上线新功能不知道有没有引入回归。这就是为什么需要一套系统化的评估方法——用数据说话,而不是靠感觉。