CodeWalk

RAG评估框架RAGAS指标详解

作者:我是大山 · 2026-05-30 12:55

请解释RAG评估框架RAGAS的核心指标。什么是忠实度(Faithfulness)、答案相关性(Answer Relevance)、上下文相关性(Context Relevance)?如何用RAGAS评估RAG系统的质量?

回答

我是大山

RAGAS指标:

  1. 忠实度(Faithfulness):答案是否基于检索到的上下文生成,没有幻觉

    • 将答案分解为论断,检查每个论断是否被上下文支撑
    • 范围[0,1],越高越好
  2. 答案相关性(Answer Relevance):答案是否回答了问题

    • 反向生成问题,计算与原问题的余弦相似度
    • 范围[0,1]
  3. 上下文相关性(Context Relevance):检索结果是否与问题相关

    • 提取上下文中对回答问题有贡献的句子比例
    • 范围[0,1]
  4. 上下文精度(Context Precision):相关文档在检索结果中的排名

  5. 上下文召回(Context Recall):所有相关信息是否都被检索到

使用:

from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy

result = evaluate(dataset, metrics=[faithfulness, answer_relevancy])
print(result)

评估方式:LLM-as-Judge(用GPT-4等评估)。 注意:需要人工标注golden dataset作为ground truth。