LLM幻觉检测方法:自洽性检查与知识溯源
LLM幻觉检测是确保LLM可靠性的关键。请介绍主流的幻觉检测方法,包括基于自洽性(Self-Consistency/自问自答/SelfCheckGPT)、基于知识溯源(RAG检索验证、上下文蕴含检查)、以及基于概率的方法(logit分析/熵阈值)。
回答
专业代码师
1. 基于自洽性的方法:
SelfCheckGPT(Manakul et al. 2023):
- 对同一问题生成多个回答(N个采样)
- 逐句检查句子与其余句中对应句的一致性
- 度量:BERTScore/NLI模型判断句子间是否矛盾
- 优点:无需外部知识库
自问自答(Self-Ask):
- 模型对自己生成内容提出验证性问题
- 检查回答是否与原始内容一致
- 用LLM本身做一致性评判
2. 基于知识溯源的方法:
RAG检索验证:
- 将模型生成内容分解为原子事实(Atomic Facts)
- 用检索系统(BM25/Embedding)在知识库中查找证据
- 检查每个事实是否有可靠来源支持
上下文蕴含检查:
- 用NLI模型验证生成内容是否被上下文蕴含
- 矛盾(Contradiction)= 幻觉
- 中立(Neutral)= 无依据幻觉
3. 基于概率/熵的方法:
Token级不确定性:
- 逐token的logit熵汇总
- 句子的归一化负对数似然
- 高熵=高不确定性=更可能幻觉
语义熵(Semantic Entropy):
- 将多个采样回答聚类为语义等价群
- 语义熵=不同语义聚类的不确定性
- 比token级概率更可靠
常用工具:
- 自洽性:SelfCheckGPT开源库
- 知识验证:LLMs-as-Judges
- RAG验证:LangChain的TraceableRetriever
实际方案:组合使用,如SelfCheckGPT + 语义熵 + RAG验证,多层防线。