大模型的知识截止于训练时刻,且不了解你的私有数据,于是会「幻觉」。RAG(检索增强生成)是目前最实用的解法。
RAG 的三步流程
- ① 切分与向量化:把你的文档切成小块,用嵌入模型转成向量,存入向量数据库。
- ② 检索:用户提问时,把问题也向量化,从库中找出最相关的文档块。
- ③ 增强生成:把检索到的内容拼进提示词,让大模型「带着资料」作答。
三大云的落地方式
- AWS:Bedrock Knowledge Bases,托管向量库与检索,几乎零代码接入。
- GCP:Vertex AI Search / RAG Engine,与 Gemini 模型协同。
- Azure:Azure OpenAI + Azure AI Search,企业级权限与数据隔离。
💡 RAG 不是越多越好——检索召回的噪声会干扰模型。先把文档切分粒度和检索 topK 调好,效果提升往往最明显。