引言:AI的“信口开河”难题
大型语言模型(LLM)虽然能力强大,但一个广为人知的缺陷是会产生“幻觉”(Hallucination)——即生成看似合理但事实上错误或无法验证的内容。这源于其本质是一个基于概率的文本生成器,而非事实数据库。
为了解决这一问题,研究者们开发了多种技术,核心思路是让AI的回答“有据可查”。主要方法包括:
- 检索增强生成(RAG):在生成答案前,先从外部知识库检索相关信息。
- 自我验证(Self-Verification):让模型对自己的输出进行事实性和一致性质检。
- 引用生成(Citation):在回答中明确标注信息来源。
这些技术共同构成了下一代可信AI的基石,使AI从“凭记忆说话”转向“凭证据说话”。
检索增强生成(RAG):给AI一本“参考书”
RAG的核心思想很简单:当用户提问时,系统不是直接让LLM凭空回答,而是先从一个庞大的文档库(如维基百科、公司内部文档)中检索与问题最相关的片段,然后将这些片段作为“上下文”与问题一起喂给LLM,让它基于这些证据生成答案。
图1: RAG基本架构:检索器从知识库中找到相关文档,生成器结合文档和问题产生最终答案。
RAG流程
- 索引:将知识库文档分割成块,并转换为向量嵌入,存入向量数据库。
- 检索:将用户问题也转换为向量,在向量数据库中查找最相似的文本块(Top-K)。
- 增强:将检索到的文本块作为上下文,与原始问题拼接,形成给LLM的提示。
- 生成:LLM基于增强后的提示生成最终答案。
优缺点
- 优点:大幅减少幻觉,答案可追溯,知识可随时更新(只需更新数据库)。
- 缺点:检索可能不准确或遗漏关键信息,增加了系统延迟和复杂性。
自我反思RAG:学会“先查再答”
传统RAG是“检索-然后-生成”的固定流程。而自我反思RAG(Self-RAG)让模型学会了动态决策:它会在生成过程的每一步,自主判断是否需要检索、检索到的信息是否相关、当前生成的内容是否得到了证据支持。
模型被训练输出特殊的“反思标记”,例如:
[检索]:表示需要检索外部信息。[相关/不相关]:对检索到的段落进行评判。[支持/部分支持/不支持]:判断生成的内容是否被证据支持。
这使得AI的推理过程更加透明和可控,像一个谨慎的研究者,边查资料边写作,并不断检查自己的论据。
优缺点
- 优点:检索更精准、按需进行,减少不必要的开销,生成质量更高。
- 缺点:需要复杂的特定训练,推理过程更慢。
自我验证:AI的“内部质检员”
即使有了RAG,LLM在整合信息时仍可能出错。自我验证技术让模型扮演自己的“质检员”。基本流程是:
- 生成初始答案:LLM先给出一个回答。
- 提出验证性问题:针对答案中的关键事实,生成一系列“是/否”问题(例如:“爱因斯坦是在1905年提出狭义相对论的吗?”)。
- 查找证据并判断:基于知识库(或自身知识)回答这些问题。
- 修正答案:如果验证发现问题,则修正或重新生成答案。
这个过程通过让模型“自我质疑”,暴露其内部推理的不一致之处,从而提升最终输出的可靠性。
验证链:分步拆解,交叉检验
验证链(Chain-of-Verification, CoVe)是自我验证的一种高级形式。它不满足于简单的“是/否”检查,而是将验证过程系统化:
- 计划:为初始答案制定一个详细的验证计划,列出所有需要核实的主张。
- 执行:独立、并行地核实每个主张(避免错误在验证过程中传播)。
- 整合:收集所有核实结果。
- 生成最终答案:基于核实后的证据,生成经过修正的、可靠的最终答案。
这模仿了人类的审稿或事实核查过程,通过结构化、隔离的验证步骤,最大程度地减少系统性偏见和错误。
合作社团
Computerization Official Website Computerization Magazine(c13n) Computerization Enspire Program 化学社开源社区
Our Github目前成果
© 2025 AILab 世外AI社团. All rights reserved.