G-Eval框架的链式思维评估方法
G-Eval是一种使用GPT-4进行链式思维评估的框架。请解释其评估流程(Prompt构造→生成→概率归一化→评分)、与直接评分的差异,以及Multi-Dimension G-Eval的实现。
回答
我还是少年
G-Eval(2023, ACL)将评估变为一个链式推理任务,通过logits概率获得更细粒度的评分。
G-Eval流程:
- Prompt构造:定义任务描述、评估维度、评分标准(1-5分制)
- CoT推理生成:LLM先生成推理步骤(分析文本的优劣)
- 概率归一化评分:
- 关键创新:看下一个token(1-5数字)的logits概率分布
- 加权平均得到连续分数:score = Σ(i × P(token=i)) / ΣP(token=i)
- 这比硬评分(离散1,2,3,4,5)更精细
与直接评分的差异:
- 直接评分:'Please rate from 1-5' → LLM输出'4'
- G-Eval:CoT → 概率加权评分 → 连续分数(如3.42分)
Multi-Dimension G-Eval:
- 对多个维度独立评估:相关性(Relevance)、连贯性(Coherence)、一致性(Consistency)、流畅性(Fluency)
- 每个维度独立Prompt
实际表现:
- 与人工评分的Spearman相关系数:0.51(G-Eval) vs 0.39(直接评分)
- 在生成摘要评估上,G-Eval接近人工水平
局限:受限于Judge LLM的能力边界,CoT增加了token消耗。