从文本到向量:理解Embedding
作者:程序员马丁
note
Ragent AI —— 从 0 到 1 纯手工打造企业级 Agentic RAG,拒绝 Demo 玩具!AI 时代,助你拿个offer。
上一节我们聊了元数据管理——怎么给每个 chunk 贴上标签,让它从“一段裸文本”变成“一段带上下文的文本”。到这一步,每个 chunk 都带着来源、权限、位置等信息了,看起来已经很完整。
但有个根本问题还没解决:这些文本还是人类语言,计算机看不懂。
你让计算机去比较“七天无理由退货”和“买了一周的东西还能退吗”这两句话,它只会逐字比对,发现没几个字是一样的,然后告诉你不相关。可任何一个正常人都知道,这两句话说的是同一件事。
怎么让计算机也能理解这种语义上的相似性?答案是把文本转成一组数字——向量(Vector)。这个转换过程,就叫向量化(Embedding)。