RAG评估框架RAGAS指标详解
请解释RAG评估框架RAGAS的核心指标。什么是忠实度(Faithfulness)、答案相关性(Answer Relevance)、上下文相关性(Context Relevance)?如何用RAGAS评估RAG系统的质量?
回答
我是大山
RAGAS指标:
-
忠实度(Faithfulness):答案是否基于检索到的上下文生成,没有幻觉
- 将答案分解为论断,检查每个论断是否被上下文支撑
- 范围[0,1],越高越好
-
答案相关性(Answer Relevance):答案是否回答了问题
- 反向生成问题,计算与原问题的余弦相似度
- 范围[0,1]
-
上下文相关性(Context Relevance):检索结果是否与问题相关
- 提取上下文中对回答问题有贡献的句子比例
- 范围[0,1]
-
上下文精度(Context Precision):相关文档在检索结果中的排名
-
上下文召回(Context Recall):所有相关信息是否都被检索到
使用:
from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy
result = evaluate(dataset, metrics=[faithfulness, answer_relevancy])
print(result)
评估方式:LLM-as-Judge(用GPT-4等评估)。 注意:需要人工标注golden dataset作为ground truth。